DeepScience — Mental Health

DeepScience · Mental Health · Digest quotidien

Votre montre sait, l'IA se trompe, et personne ne s'en rend compte.

Trois papiers qui montrent pourquoi mesurer la dépression avec des algorithmes est plus compliqué qu'il n'y paraît.

            April 22, 2026
          

Journée dense aujourd'hui — 282 papiers en circulation, et j'ai passé la matinée à trier pour vous épargner les surveys théoriques sur les jumeaux numériques du cerveau. Ce qui a retenu mon attention : trois travaux qui parlent tous du même problème par trois bouts différents. On cherche à mesurer la dépression de façon objective, automatique, scalable. Et les trois papiers nous disent en chœur : attention à ce que vous mesurez vraiment.

Les histoires du jour

              01 / 03
            

Une IA fouille vos données de montre connectée pour détecter la dépression.

Votre montre connectée sait peut-être que vous allez mal avant que vous le réalisiez vous-même.

C'est l'hypothèse derrière CoDaS, un système d'IA développé pour analyser les données de capteurs portables de près de 9 300 personnes et y chercher des signaux numériques de dépression. L'idée centrale est simple. Au lieu d'un questionnaire ou d'un médecin, on laisse un agent automatisé fouiller les données de votre bracelet — pas pour détecter un événement isolé, mais pour repérer des irrégularités de rythme. Pensez à la météo : ce n'est pas une seule journée de pluie qui inquiète les prévisionnistes, c'est quand les jours de pluie deviennent imprévisibles, sans patron clair. CoDaS a trouvé que la variabilité de la durée de sommeil — les soirs où vous dormez huit heures, suivis de nuits à quatre heures, sans raison apparente — est associée à la dépression dans deux cohortes indépendantes. Des corrélations modestes mais statistiquement solides : ρ=0,252 et ρ=0,126 respectivement. Le système fonctionne en plusieurs phases : il génère des hypothèses, les teste statistiquement, joue l'avocat du diable contre ses propres résultats, puis synthétise tout dans un rapport. Évalué par quinze experts humains à l'aveugle, CoDaS a obtenu les meilleures notes parmi tous les systèmes comparés. Le hic ? Une corrélation n'est pas une cause. Dormir irrégulièrement peut précéder la dépression, l'accompagner, ou simplement coïncider avec elle. Et l'amélioration de prédiction que CoDaS apporte reste modeste : un gain de ΔR²=0,04 sur une dépression déjà partiellement prédite par d'autres variables. C'est un vrai signal. Ce n'est pas un diagnostic.

Glossaire

biomarqueur numérique — Un signal mesurable à partir d'un appareil électronique — rythme cardiaque, nombre de pas, durée de sommeil — utilisé comme indicateur d'un état de santé.

ΔR² — La portion supplémentaire de variance expliquée qu'un nouveau facteur apporte à un modèle de prédiction : plus c'est élevé, plus la variable ajoutée est utile.

cohorte indépendante — Un groupe de personnes différent de celui utilisé pour construire le modèle, permettant de vérifier que les résultats ne sont pas un artefact du premier échantillon.

Source: CoDaS: AI Co-Data-Scientist for Biomarker Discovery via Wearable Sensors

              02 / 03
            

Un algorithme détecte la dépression en écoutant le chercheur, pas le patient.

Imaginez un examen où l'IA corrige les copies en lisant uniquement les questions du professeur — et obtient quand même 98 % de bonnes réponses.

C'est exactement ce qu'une équipe de chercheurs a découvert dans les outils automatiques de détection de la dépression. Dans les entretiens cliniques standardisés utilisés pour entraîner ces modèles, l'interviewer suit un script fixe : mêmes questions, même ordre, mêmes positions dans la conversation. L'équipe a eu l'idée simple mais dérangeante de n'entraîner les modèles d'IA que sur les tours de parole de l'interviewer — et non du patient. Résultat sur le dataset ANDROIDS : un score de 0,98 sur 1. Contre 0,79 quand on donne au modèle les réponses du patient. L'IA a appris à reconnaître les patients dépressifs à partir du comportement du chercheur qui les interrogeait. Le problème est structurel. L'interviewer adapte — consciemment ou non — son rythme, ses relances, sa façon de rebondir à l'état de la personne en face. L'IA n'a pas appris à détecter la dépression. Elle a appris à détecter comment un humain entraîné se comporte face à quelqu'un de dépressif. C'est un biais qui traverse trois datasets distincts (anglais nord-américain et italien) et deux architectures de modèles différentes. Le hic : l'effet n'est pas uniforme. Sur le dataset E-DAIC, le modèle entraîné sur l'interviewer fait légèrement moins bien que celui entraîné sur le patient. Ce n'est pas une loi universelle. Mais la leçon reste entière : avant de déployer un outil de détection automatique de la dépression, demandez-vous ce que votre modèle a vraiment appris à reconnaître.

Glossaire

macro-F1 — Une mesure de performance d'un classificateur qui prend en compte à la fois les faux positifs et les faux négatifs, calculée en moyenne sur toutes les catégories.

dataset — Un ensemble de données étiquetées utilisé pour entraîner ou évaluer un modèle d'IA — ici, des enregistrements d'entretiens cliniques avec leur diagnostic associé.

Source: When Consistency Becomes Bias: Interviewer Effects in Semi-Structured Clinical Interviews

              03 / 03
            

Les IA qui jouent des patients psychiatriques sonnent juste — mais mentent sur les chiffres.

Les grands modèles de langage sont de très bons acteurs — mais de mauvais statisticiens.

C'est ce que révèle PsychBench, un audit mené par une équipe de chercheurs qui ont demandé à quatre IA — GPT-4o-mini, DeepSeek-V3, Gemini-3-Flash, GLM-4.7 — de simuler 28 800 profils de patients psychiatriques, puis ont comparé ces profils aux données de population réelles américaines. Prenez un photographe qui reproduit chaque portrait à la perfection, mais qui, sur l'ensemble d'un album de famille, efface systématiquement tous les grands-parents et tous les bébés. Chaque photo est convaincante. L'album, lui, ment. C'est ce que font ces LLMs — grands modèles de langage — avec la maladie mentale : chaque patient simulé est cliniquement cohérent (zéro violation de critères diagnostiques sur 28 714 cas évalués), mais la distribution globale est aplatie. DeepSeek-V3 compresse la variance jusqu'à 62 % : les cas très légers et très sévères disparaissent, tout le monde converge vers un profil moyen. Plus troublant encore : 36,66 % des patients simulés changent de catégorie diagnostique entre deux passages du même test — alors que les corrélations entre les deux passages restent supérieures à 0,90. La simulation semble stable en surface. Elle est instable en profondeur. Le hic est double. D'abord, ces LLMs servent souvent à générer des données d'entraînement ou des patients de synthèse pour tester des outils cliniques — si les données sont biaisées, les outils le seront aussi. Ensuite, les biais suivent des lignes démographiques concrètes : les personnes transgenres, par exemple, sont dramatiquement sous-représentées dans les scores de détresse simulés. Ce n'est pas un détail technique. C'est une erreur qui a des conséquences.

Glossaire

LLM (grand modèle de langage) — Un système d'IA entraîné sur d'immenses volumes de texte, capable de générer des réponses cohérentes en langage naturel — comme ChatGPT ou Gemini.

variance — La dispersion des valeurs dans un ensemble de données : une faible variance signifie que tout le monde se ressemble, une forte variance signifie qu'on trouve des profils très différents les uns des autres.

cohérence-fidélité (dissociation) — Le fait qu'un modèle produise des cas individuels plausibles tout en ratant la distribution statistique de la population réelle.

Source: PsychBench: Auditing Epidemiological Fidelity in Large Language Model Mental Health Simulations

La vue d'ensemble

Voilà ce que ces trois papiers disent ensemble : nous construisons une infrastructure de mesure automatique de la dépression — capteurs, modèles de langage, entretiens codifiés — avant d'avoir résolu les questions de base sur ce que ces outils mesurent vraiment. CoDaS trouve de vrais signaux dans vos données de sommeil. C'est encourageant. Mais le papier sur les biais d'interviewer nous rappelle que les données sur lesquelles on entraîne ces systèmes sont truffées de raccourcis cachés. Et PsychBench montre que quand on essaie de compenser le manque de données réelles avec des données synthétiques générées par des LLMs, on introduit des biais de population qui ne se voient pas au premier coup d'œil. Soyons honnêtes : ce n'est pas une raison de jeter le bébé avec l'eau du bain. Ces limitations sont identifiées, documentées, publiées. C'est exactement ce que la science est censée faire. Mais si quelqu'un vous présente un outil de dépistage automatique de la dépression comme une solution prête à l'emploi, posez-lui ces trois questions : sur quoi a-t-il été entraîné, qui a vérifié les biais, et à quelle population se compare-t-il ?

À surveiller

Le vrai test pour CoDaS sera de voir si ces biomarqueurs de sommeil tiennent dans un cadre prospectif — c'est-à-dire si la variabilité de sommeil prédit une dépression future et pas seulement une dépression déjà présente. Sur le front des LLMs en psychiatrie, attendez-vous à voir d'autres audits du type PsychBench sur des modèles non anglophones : le problème de représentation démographique pourrait être encore plus prononcé hors du contexte américain.

Pour aller plus loin

Merci de m'avoir lu — prenez soin de votre sommeil, même si votre montre vous surveille. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe