DeepScience — Mental Health

DeepScience · Mental Health · Digest quotidien

Les IA apprennent à lire la dépression — mais pas sans angles morts

Parce que mesurer la santé mentale avec précision est le premier verrou, et qu'on commence enfin à le forcer.

            May 11, 2026
          

Trois papiers aujourd'hui, tous dans la même veine : l'intelligence artificielle s'attaque au problème le plus ancien de la psychiatrie, mesurer ce qu'on ne voit pas. C'est une journée dense, pas spectaculaire — du travail de fond, des résultats honnêtement mitigés, et un signal d'alarme qu'il serait dommage de rater. Allez, c'est parti.

Les histoires du jour

              01 / 03
            

Une IA fouille vos données de montre connectée pour repérer la dépression

Et si le signal de la dépression ne se cachait pas dans combien vous dormez, mais dans l'irrégularité de vos horaires de sommeil ?

CoDaS est un système multi-agents — comprenez : plusieurs programmes IA qui se passent le travail comme des collègues d'une chaîne de montage — conçu pour fouiller des données de capteurs portables et proposer des biomarqueurs numériques candidats pour la santé mentale. Un biomarqueur, c'est simplement un signal mesurable qui correspond à un état de santé : votre fréquence cardiaque qui monte est un biomarqueur du stress, par exemple. L'équipe derrière CoDaS a travaillé sur 9 279 observations de participants issues de trois bases de données différentes. Résultat : 41 candidats-biomarqueurs identifiés pour la santé mentale. Mais le détail vraiment intéressant, c'est le suivant. Deux signaux ont émergé indépendamment dans deux cohortes de dépression distinctes : la variabilité de la durée du sommeil et la variabilité de l'heure d'endormissement. Pas le manque de sommeil en tant que tel — son irrégularité. Imaginez un métronome qui ne bat pas toujours à la même vitesse : la note peut être juste, mais le rythme boite. Pourquoi ça compte ? Parce que si ce signal se confirme, une montre connectée pourrait devenir un outil de détection précoce accessible à des millions de personnes qui n'ont pas accès à un psychiatre. Le hic, et il est important : on parle de candidats-biomarqueurs, pas de biomarqueurs validés. Les corrélations trouvées sont réelles mais modestes — un Spearman de 0,252 sur la cohorte principale, ce qui signifie que le lien existe, mais qu'il explique une petite fraction de la variance. L'amélioration de prédiction de la dépression apportée par ces signaux est de ΔR²=0,040. En clair : un vrai pas en avant, mais pas un test diagnostique. Il reste à répliquer ces résultats dans des essais cliniques prospectifs avant d'en faire quoi que ce soit de cliniquement utile.

Glossaire

biomarqueur numérique — Un signal mesurable à distance — via une montre, un téléphone, ou un capteur — qui correspond statistiquement à un état de santé.

corrélation de Spearman — Une mesure statistique entre 0 et 1 qui quantifie à quel point deux variables évoluent ensemble ; 0,25 indique un lien faible mais réel.

ΔR² — L'amélioration de prédiction apportée par un nouveau signal, en proportion de la variance totale expliquée ; 0,04 est modeste.

Source: CoDaS: AI Co-Data-Scientist for Biomarker Discovery via Wearable Sensors

              02 / 03
            

Un programme note les entretiens psychiatriques aussi bien qu'un expert humain

Sur les entretiens cliniques les plus difficiles à noter — ceux où les humains eux-mêmes divergent — un système IA se révèle plus proche de l'expert de référence que le clinicien d'origine.

En psychiatrie, évaluer la sévérité d'une dépression ou d'une anxiété repose souvent sur des entretiens structurés — le médecin pose des questions, le patient répond, et le clinicien attribue un score. Simple en apparence, mais en pratique : deux cliniciens peuvent écouter le même entretien et donner des scores sensiblement différents. Ce problème de fiabilité inter-évaluateurs est bien documenté et coûteux. ADAPTS tente d'automatiser cette notation. Le système décompose un entretien long en sous-tâches : pour chaque symptôme de la grille — insomnie, anhédonie, pensées suicidaires — un agent IA spécialisé raisonne indépendamment, comme si vous divisiez un long rapport en chapitres et envoyiez chaque chapitre à un relecteur différent avant de consolider. L'équipe a testé ADAPTS sur 204 entretiens issus de deux bases de données avec des protocoles différents — une bonne façon de vérifier si le système se généralise. Sur l'ensemble, les performances sont encourageantes. Mais le résultat le plus frappant concerne les cas à forte divergence humaine : sur ces entretiens précisément, ADAPTS affiche une erreur absolue de 22 points, contre 26 pour les évaluateurs humains originaux. Autrement dit, sur les copies les plus ambiguës, la machine est plus proche de l'arbitre expert que l'humain. Soyons honnêtes sur les limites. 204 entretiens, c'est petit. La définition du « sous-ensemble à forte divergence » mérite d'être scrutée de près — cherry-picking possible, même involontaire. Et transposer ça à un cabinet n'est pas trivial : les entretiens cliniques réels sont encore plus variables que ceux des bases de données de recherche. Un outil prometteur, pas un remplacement.

Glossaire

ICC (intraclass correlation) — Une mesure de l'accord entre évaluateurs ; 0,877 indique un excellent niveau d'accord absolu.

erreur absolue — L'écart en valeur brute entre un score attribué et le score de référence ; moins c'est grand, mieux c'est.

mixture-of-agents — Architecture où plusieurs programmes IA spécialisés travaillent en parallèle sur des sous-tâches, puis agrègent leurs réponses.

Source: ADAPTS: Agentic Decomposition for Automated Protocol-agnostic Tracking of Symptoms

              03 / 03
            

Les IA utilisées en psychiatrie sonnent juste individuellement — mais faussent les statistiques de groupe

Un LLM peut vous générer un patient déprimé parfaitement crédible — et pourtant, quand vous en générez mille, la population entière est fausse.

De plus en plus, des chercheurs et des formateurs utilisent des grands modèles de langage (LLMs) pour simuler des patients psychiatriques : entraîner des internes, tester des outils de screening, générer des données synthétiques. L'idée a du sens sur le papier. Le problème, c'est que personne n'avait vérifié si ces patients simulés ressemblaient à de vraies populations. L'équipe derrière PsychBench a fait exactement ça. Ils ont demandé à quatre LLMs majeurs de générer 28 800 profils de patients virtuels répartis sur 120 combinaisons démographiques, et les ont comparés aux enquêtes épidémiologiques américaines de référence — les vrais chiffres de santé mentale dans la vraie population. Le résultat mérite qu'on s'y arrête. Chaque patient individuel généré est cliniquement cohérent : les symptômes s'enchaînent logiquement, les seuils diagnostiques sont respectés. Mais au niveau de la population, c'est une autre histoire. Les LLMs compriment la variance — imaginez une carte météo qui montre toujours 18 degrés partout, ni grand froid ni canicule, les extrêmes effacés. Entre 14 % et 62 % de la variabilité réelle disparaît selon le modèle testé. Et 36,66 % des patients virtuels changent de catégorie diagnostique entre deux sessions de génération, malgré des corrélations test-retest apparemment bonnes. Les biais sont aussi documentés démographiquement : la dépression est surestimée de 3 à 6 points PHQ pour la plupart des groupes, et les femmes transgenres sont massivement sous-représentées dans leur détresse. Le hic ultime : ces patterns sont identiques dans les LLMs développés aux États-Unis et en Chine. Ce n'est pas un bug d'un modèle particulier. C'est une limite structurelle de la catégorie.

Glossaire

LLM (grand modèle de langage) — Un programme d'intelligence artificielle entraîné sur de très grands corpus de textes, capable de générer du langage — comme GPT-4 ou Gemini.

variance — En statistiques, la dispersion des valeurs dans une population ; une forte variance signifie beaucoup de cas extrêmes, une faible variance signifie que tout le monde se ressemble.

PHQ — Patient Health Questionnaire, un outil standardisé pour mesurer la sévérité de la dépression sur une échelle de 0 à 27.

test-retest — Vérification de la stabilité d'un outil : si on pose les mêmes questions au même moment, obtient-on les mêmes résultats ?

Source: PsychBench: Auditing Epidemiological Fidelity in Large Language Model Mental Health Simulations

La vue d'ensemble

Ces trois papiers tirent dans la même direction, mais avec une tension intéressante. D'un côté, CoDaS et ADAPTS montrent qu'on avance vraiment sur le problème fondamental de la psychiatrie : mesurer. Mesurer objectivement, à distance, sans dépendre d'un rendez-vous hebdomadaire. Ce sont deux approches différentes — l'une regarde votre poignet, l'autre écoute votre voix — mais les deux cherchent à transformer quelque chose d'insaisissable en signal exploitable. De l'autre côté, PsychBench pose une question inconfortable : et si les outils qu'on construit pour accélérer cette recherche étaient eux-mêmes biaisés d'une manière qu'on ne voit pas à l'œil nu ? Utiliser des LLMs pour simuler des patients ou générer des données d'entraînement — c'est tentant, c'est rapide, et c'est désormais documenté comme potentiellement trompeur à l'échelle populationnelle. La leçon collective : les outils de mesure et les outils de simulation doivent être audités avec la même rigueur. Avancer vite sans vérifier ce qu'on mesure vraiment, c'est jeter le bébé avec l'eau du bain.

À surveiller

Sur CoDaS, la prochaine étape critique est une validation prospective — voir si ces biomarqueurs du sommeil tiennent dans un essai clinique conçu pour les tester, pas seulement détectés après coup dans des données existantes. Sur PsychBench, la question ouverte que j'aimerais voir répondue : est-ce qu'un fine-tuning sur des données épidémiologiques réelles corrige ces biais, ou est-ce qu'ils reviennent par la fenêtre ? La réponse changerait beaucoup de choses sur l'utilisation des données synthétiques en recherche psychiatrique.

Pour aller plus loin

Merci de m'avoir lu — prenez soin de votre rythme de sommeil, apparemment ça compte. À demain. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe