DeepScience — Mental Health

DeepScience · Mental Health · Digest quotidien

Votre montre sait. L'IA se trompe. La dépression résiste.

Parce que détecter la dépression avec des outils numériques est plus difficile — et plus fragile — qu'on ne le croit.

            April 17, 2026
          

Bonne journée de lecture, aujourd'hui. 264 papiers au compteur — j'en ai sorti trois qui méritent votre attention. Un sur ce que votre montre connectée révèle (vraiment) de votre santé mentale, un sur comment vous utilisez ChatGPT et ce que ça change dans votre cerveau, et un dernier qui va vous faire lever un sourcil : certaines IA qui « détectent » la dépression lisent les questions du médecin, pas vos réponses. Allez, c'est parti.

Les histoires du jour

              01 / 03
            

Une IA passe au crible les données de 9 000 montres pour trouver des signes de dépression

Votre montre enregistre tout — mais la vraie question, c'est ce qu'elle sait de votre état mental.

Chaque nuit, votre montre note l'heure à laquelle vous vous êtes endormi, la durée de votre sommeil, votre fréquence cardiaque au repos. Ces données dorment sur un serveur. Une équipe de chercheurs vient de montrer qu'on peut les faire parler autrement. Leur outil s'appelle CoDaS. Imaginez une chaîne de montage où chaque poste est occupé par un programme IA différent : l'un génère des hypothèses, un autre fait les calculs, un troisième tente de réfuter les résultats, un quatrième vérifie que ça tient face à la littérature médicale. Ensemble, ils ont passé au crible les données de 9 279 participants, issues de trois grandes études observationnelles. Le résultat le plus frappant : dans deux cohortes de dépression différentes, c'est l'irrégularité du sommeil — pas sa durée, mais sa variabilité d'un jour à l'autre — qui ressort comme signal fort. Pas de dormir peu qui compte, mais de dormir à des heures imprévisibles. Comme une voiture qui consomme plus si vous accélérez et freinez en permanence plutôt que de rouler à vitesse constante : le corps supporte mal l'incohérence de rythme. Au total, CoDaS a identifié 41 candidats biomarqueurs — des mesures portables potentiellement liées à la dépression. Le hic : ces corrélations sont réelles mais modestes. L'amélioration de prédiction apportée par ces biomarqueurs sur un modèle démographique de base est de l'ordre de 4 %. Ce n'est pas nul, mais ça n'en fait pas un test de dépistage. Et nous restons dans du corrélationnel — aucune de ces études ne prouve que l'irrégularité du sommeil cause la dépression. La direction de la causalité reste entièrement ouverte.

Glossaire

biomarqueur — Une mesure biologique ou comportementale — ici issue d'une montre connectée — qui peut servir d'indicateur d'un état de santé.

corrélationnel — Qui mesure une association entre deux variables, sans pouvoir dire laquelle cause l'autre.

cohorte — Un groupe de personnes suivies ensemble dans le cadre d'une étude, souvent sur la durée.

Source: CoDaS: AI Co-Data-Scientist for Biomarker Discovery via Wearable Sensors

              02 / 03
            

Utiliser l'IA pour travailler protège le cerveau — l'utiliser pour se confier l'affecte

Est-ce que parler à ChatGPT comme à un ami change quelque chose dans votre cerveau — et pas dans le bon sens ?

Vous utilisez peut-être l'IA pour rédiger des emails, corriger du code, préparer un exposé. Ou peut-être que vous lui confiez vos doutes et vos ruminations nocturnes. Une équipe de l'Université de Toronto vient de montrer que ces deux usages, même s'ils passent par le même outil, n'engagent pas du tout le même cerveau — et n'ont pas les mêmes effets sur votre santé mentale. 222 étudiants ont passé une IRM structurelle — un scanner qui mesure le volume de matière grise dans différentes zones du cerveau — et répondu à des questionnaires détaillant leur usage de l'IA générative. Les chercheurs ont distingué l'usage fonctionnel (recherche, rédaction, apprentissage) de l'usage socio-émotionnel (conversation, soutien, compagnie). Résultat : l'usage fonctionnel est associé à un plus grand volume de matière grise dans les régions préfrontales, celles qui soutiennent la concentration, la planification et la mémoire de travail. L'usage socio-émotionnel, lui, est associé à un plus faible volume dans les régions temporales supérieures et dans l'amygdale — les zones qui traitent les interactions humaines et les émotions. Ces mêmes personnes déclarent plus de dépression et d'anxiété sociale. Pensez à un marteau : si vous l'utilisez pour planter des clous, votre poignet se renforce. Si vous l'utilisez comme oreiller, autre chose se passe. Le hic — et c'est un hic important : l'étude est transversale, elle photographie un moment. Impossible de savoir si l'usage socio-émotionnel crée la détresse, ou si les personnes en détresse s'y tournent naturellement. De plus, seulement 6,8 % des étudiants avaient un usage socio-émotionnel fréquent. Ce n'est pas la majorité, et on ne peut pas généraliser trop vite.

Glossaire

IRM structurelle — Un type de scanner cérébral qui mesure le volume et l'épaisseur des différentes régions du cerveau, sans injecter de produit de contraste.

matière grise — La partie du cerveau qui contient les corps des neurones ; son volume dans une région donnée est souvent associé à l'intensité du traitement qui s'y fait.

amygdale — Une petite structure cérébrale en forme d'amande, centrale dans le traitement des émotions et la réponse à la menace.

étude transversale — Une étude qui observe les participants à un seul instant, sans les suivre dans le temps — ce qui empêche de conclure sur les causes.

Source: Mapping generative AI use in the human brain: divergent neural, academic, and mental health profiles of functional versus socio emotional AI use

              03 / 03
            

Ces IA qui « détectent » la dépression lisent les questions du médecin, pas vos réponses

Un modèle IA qui ne lit que les questions du clinicien — pas un mot du patient — détecte la dépression mieux que celui qui écoute le patient.

Imaginez qu'un chercheur veuille construire une IA capable de détecter la dépression à partir d'entretiens cliniques enregistrés. Il lui donne des centaines d'interviews, avec le diagnostic pour chaque patient. L'IA apprend. Les scores montent. Tout semble bien se passer. Sauf qu'une équipe de chercheurs vient de révéler quelque chose d'inconfortable : dans trois bases de données majeures utilisées pour ce type de travail — ANDROIDS, DAIC-WOZ et E-DAIC — un modèle entraîné uniquement sur les phrases du clinicien (les questions posées, pas les réponses du patient) détecte la dépression aussi bien, voire mieux, qu'un modèle entraîné sur ce que dit le patient. Sur la base ANDROIDS, l'IA-clinicien atteint un score F1 de 0,98. L'IA-patient plafonne à 0,79. Le modèle lit les questions et « voit » la dépression. Pas parce qu'il est magique : c'est parce que les interviewers posent des questions légèrement différentes, dans un ordre légèrement différent, selon leur perception intuitive du patient. Ces micro-variations laissent des traces dans les données — et l'IA les exploite sans le savoir. C'est comme un jury qui noterait des candidats à l'aveugle, mais en lisant la feuille de questions que le jury lui-même avait préparée pour chaque candidat. L'information fuit par un autre canal. Soyons honnêtes : ça ne veut pas dire que toutes les IA de détection sont inutiles. Mais ça veut dire que leurs bons scores dans ces études sont en partie factices. N'importe quel outil entraîné sur ces bases sans précaution hérite de ce biais. Les chercheurs — dont des équipes ayant analysé 580 participants sur trois pays — alertent : avant de déployer, il faut auditer.

Glossaire

score F1 — Une mesure de précision d'un modèle de classification qui combine le taux de vrais positifs et le taux de faux positifs en un seul chiffre entre 0 et 1 — 1 étant parfait.

biais de données — Une erreur systématique dans les données d'entraînement d'un modèle qui lui fait apprendre quelque chose qu'on ne voulait pas lui apprendre.

Source: When Consistency Becomes Bias: Interviewer Effects in Semi-Structured Clinical Interviews

La vue d'ensemble

Ces trois papiers pointent dans des directions différentes, mais ils disent ensemble une même chose : mesurer la dépression avec des outils numériques est encore un chantier ouvert — et plus fragile qu'on ne l'espère. CoDaS nous dit qu'on peut extraire des signaux utiles des montres connectées, à condition de ne pas surinterpréter des corrélations modestes. L'étude de Toronto nous dit que la manière dont vous utilisez un outil technologique n'est pas neutre pour votre cerveau — que le même ChatGPT peut être ressource ou béquille selon l'usage. Et l'étude sur les biais d'interviewer nous rappelle que les données sur lesquelles on entraîne les IA de santé mentale sont moins propres qu'on ne le croit. Ce qui relie tout ça : la santé mentale est difficile à mesurer, et les raccourcis — une montre, un chatbot, une base de données d'entretiens — peuvent aider. Mais seulement si on regarde honnêtement leurs limites. Le vrai travail commence après les bons scores.

À surveiller

Gardez un œil sur les études longitudinales sur l'usage de l'IA et la santé mentale — l'étude de Toronto est une photo, on a besoin d'un film. Sur le front des biomarqueurs portables, l'essai RADAR-MDD en Europe suit des milliers de patients avec montres et smartphones sur plusieurs années : ses prochaines publications devraient nous dire si les signaux de CoDaS tiennent dans le temps. Et si vous vous intéressez à l'audit des bases de données de dépression, la question à surveiller est simple : est-ce que les équipes qui publient des scores éblouissants commencent à tester leurs modèles sur les seules transcriptions de l'interviewer ? Si oui, combien d'études vont devoir être reconsidérées ?

Pour aller plus loin

Merci de m'avoir lu — à demain. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe