DeepScience — Mental Health

DeepScience · Mental Health · Digest quotidien

Votre montre, l'IA, et nos biais cachés

La psychiatrie numérique se dote d'outils prometteurs — et commence, enfin, à les auditer elle-même.

            April 19, 2026
          

Trois papiers ce matin qui valaient le détour. La journée est dense, 266 publications en entrée, mais honnêtement la plupart sont soit trop théoriques soit trop en amont pour vous intéresser aujourd'hui. J'ai retenu ceux qui ont quelque chose de concret à vous dire — et l'un d'eux devrait faire tiquer tous ceux qui s'intéressent à l'IA en psychiatrie.

Les histoires du jour

              01 / 03
            

Une IA trouve des signaux de dépression dans vos nuits

Votre montre sait peut-être que vous allez mal avant que vous ne le réalisiez vous-même.

Imaginez quelqu'un qui note, chaque matin, à quelle heure vous vous êtes endormi et combien de temps vous avez dormi — non pas en moyenne, mais la variabilité de ces chiffres d'un jour à l'autre. Ce n'est pas la quantité, c'est l'irrégularité. C'est un peu ce que fait CoDaS, un système d'intelligence artificielle à plusieurs agents, évalué ici sur 9 279 participants portant des capteurs connectés. En analysant automatiquement ces flux de données, le système a proposé 41 candidats biomarqueurs — des signaux mesurables — associés à la santé mentale. Deux retiennent particulièrement l'attention : la variabilité de la durée du sommeil et la variabilité de l'heure d'endormissement, toutes deux associées à la dépression dans deux cohortes indépendantes. Ce n'est pas 'vous dormez peu' — c'est 'votre sommeil est imprévisible'. La nuance est importante. Pourquoi ça compte ? Identifier des signaux objectifs à partir de données passives — votre bracelet connecté collecte ça sans que vous fassiez rien — pourrait transformer le dépistage. La dépression touche 280 millions de personnes dans le monde. La moitié ne reçoit jamais de diagnostic. Un signal de votre poignet, c'est une piste sérieuse. Mais voici le hic. Les corrélations mesurées restent modestes : entre 0,13 et 0,25 sur une échelle de 0 à 1. CoDaS est un outil de découverte, pas de diagnostic. Et comme toute étude observationnelle, elle ne répond pas à la question cruciale : est-ce que l'irrégularité du sommeil cause la dépression, ou est-ce la dépression qui perturbe le sommeil ? Ce sont deux questions très différentes, et franchement, personne ne sait encore.

Glossaire

biomarqueur — Un signal mesurable dans le corps ou le comportement — ici une variable issue d'un capteur — qui est statistiquement associé à un état de santé.

corrélation de Spearman (ρ) — Une mesure statistique de l'intensité d'une relation entre deux variables, sur une échelle de -1 à +1 ; ρ = 0,25 est une corrélation faible à modérée.

Source: CoDaS: AI Co-Data-Scientist for Biomarker Discovery via Wearable Sensors

              02 / 03
            

Vos modèles détectent la dépression dans les questions, pas les réponses

Un modèle atteint 0,98 de précision pour détecter la dépression — sans avoir lu un seul mot du patient.

Soyons honnêtes : c'est le résultat qui m'a le plus arrêté ce matin. Des chercheurs ont pris trois des jeux de données les plus utilisés au monde pour entraîner des systèmes de détection automatique de la dépression — ANDROIDS, DAIC-WOZ et E-DAIC — et ils ont fait une expérience simple : entraîner un modèle sur les paroles des patients, puis un autre modèle sur les paroles de l'interviewer uniquement. Résultat troublant : le modèle 'interviewer' fait aussi bien, parfois mieux. Sur ANDROIDS, il atteint 0,98 de macro-F1 — autrement dit, une précision quasi parfaite — sans avoir jamais accès à ce que le patient a dit. Comment c'est possible ? Parce que les interviewers posent les mêmes questions, dans le même ordre, à tout le monde. Le modèle n'apprend pas à reconnaître la dépression. Il apprend à reconnaître la structure du questionnaire. Pensez à un élève qui mémorise la disposition des réponses sur la feuille plutôt que la matière elle-même. Pourquoi ça compte ? Des centaines d'articles de recherche s'appuient sur ces jeux de données. Si les performances reportées viennent en partie du biais de l'interviewer, et non des signaux cliniques réels, une fraction importante de la littérature est surestimée. Peut-être beaucoup. La bonne nouvelle — et il y en a une : les chercheurs montrent aussi que restreindre l'entraînement aux seules paroles du patient corrige une partie du problème, et que les scores résultants reflètent mieux de véritables indices linguistiques. C'est un petit pas, mais un vrai. Et surtout, c'est le genre de critique interne dont un domaine a besoin pour mûrir.

Glossaire

macro-F1 — Une mesure de performance d'un modèle de classification qui équilibre précision et rappel sur toutes les classes ; 1,0 est le score parfait.

biais d'interviewer — Distorsion introduite dans un jeu de données par le comportement systématique et prévisible de la personne qui conduit l'entretien, indépendamment du participant.

Source: When Consistency Becomes Bias: Interviewer Effects in Semi-Structured Clinical Interviews

              03 / 03
            

Comment vous utilisez l'IA change votre cerveau et votre santé mentale

La même application, selon comment vous l'utilisez, laisse des traces opposées dans votre cerveau.

Vous utilisez probablement une IA générative. Pour rédiger, coder, rechercher ? Ou parfois pour parler de vos journées difficiles, chercher du réconfort ? Une équipe de chercheurs a comparé 222 étudiants universitaires selon leur type d'usage, en combinant IRM cérébrale structurelle et questionnaires psychologiques. Résultat : ce n'est pas la quantité d'usage qui compte, c'est le type. Les étudiants qui utilisent l'IA pour des tâches fonctionnelles — rédiger, analyser, organiser — affichent de meilleures notes, un volume plus grand dans le cortex préfrontal dorsolatéral — la région impliquée dans la planification et la concentration — et un réseau hippocampique plus efficace. Pensez-y comme un muscle qu'on continuerait d'exercer en le déléguant intelligemment. À l'inverse, ceux qui utilisent l'IA principalement pour un soutien émotionnel — parler de leurs angoisses, chercher de la compagnie — présentent davantage de dépression, d'anxiété sociale, et un volume plus faible dans des régions clés pour le traitement des émotions et des interactions humaines. Attention — et c'est important. Il s'agit d'une étude transversale : une photo prise à un instant donné, sur 222 personnes. On ne sait pas si l'usage émotionnel de l'IA cause ces différences, ou si ce sont les personnes déjà en difficulté qui cherchent naturellement ce type de soutien. Probablement les deux à la fois. Seuls 6,8 % des étudiants déclaraient un usage émotionnel fréquent. Mais c'est précisément cette minorité qui mérite attention — et des études longitudinales, c'est-à-dire des suivis dans le temps, pour comprendre la direction de la relation.

Glossaire

IRM structurelle — Technique d'imagerie qui mesure le volume et la morphologie des régions du cerveau, sans nécessiter que le participant réalise une tâche.

cortex préfrontal dorsolatéral — Région frontale du cerveau associée aux fonctions exécutives : planification, concentration, prise de décision.

étude transversale — Étude qui observe un groupe à un moment unique, sans suivi dans le temps — ce qui empêche de conclure sur la causalité.

Source: Mapping generative AI use in the human brain: divergent neural, academic, and mental health profiles of functional versus socio emotional AI use

La vue d'ensemble

Ces trois histoires posent, chacune à leur façon, la même question : est-ce qu'on mesure vraiment ce qu'on croit mesurer ? CoDaS cherche des signaux objectifs de dépression dans vos données de sommeil — et en trouve, modestement mais honnêtement. L'étude sur les biais d'interviewer révèle que des centaines de modèles existants mesurent peut-être la structure d'un questionnaire plutôt que la souffrance d'un patient. Et l'étude sur l'usage de l'IA rappelle que le contexte d'utilisation change radicalement ce qu'on observe. Ce que ça dit sur le domaine : la psychiatrie computationnelle est en train de faire sa propre autocritique, et c'est une bonne nouvelle. Elle produit des outils, elle commence aussi à les auditer. Le risque n'est pas de manquer de données — nous en avons trop. C'est de se laisser convaincre par des chiffres élevés qui mesurent le mauvais truc. Ces trois papiers ensemble me rendent modestement optimiste : le domaine commence à distinguer les deux.

À surveiller

À surveiller dans les semaines qui viennent : des réplications indépendantes de l'étude sur les biais d'interviewer — si d'autres équipes confirment sur de nouveaux jeux de données, le domaine va devoir revoir ses benchmarks en profondeur. Pour CoDaS, la question ouverte est celle de la direction causale : un essai d'intervention sur le sommeil qui mesurerait ensuite les symptômes dépressifs serait l'étape logique. C'est le genre d'essai qu'on pourrait voir d'ici 12 à 18 mois si quelqu'un a le financement.

Pour aller plus loin

Merci de m'avoir lu — à très vite. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe