All digests
General publicFRMental Healthweekly

[Mental Health] Votre voix, votre cerveau, vos mots : l'IA nous lit mal.

DeepScience — Mental Health
DeepScience · Mental Health · Digest quotidien

Votre voix, votre cerveau, vos mots : l'IA nous lit mal.

Trois études montrent qu'on construit des outils de diagnostic mental sans toujours mesurer ce qu'on croit mesurer.
June 08, 2026
Journée dense aujourd'hui — 527 papiers en entrée pour la verticale santé mentale, ce qui est beaucoup. J'en ai retenu trois qui racontent en réalité la même histoire sous trois angles différents. Je vous explique laquelle. Allez, c'est parti.
Les histoires du jour
01 / 03

Trente secondes de votre voix suffisent pour détecter une dépression

Pas besoin de dire que vous allez mal — votre façon de prononcer les syllabes le dit peut-être déjà.

Trente secondes d'enregistrement, n'importe quel sujet de conversation. Une équipe de chercheurs a entraîné un modèle d'IA sur les enregistrements de 34 457 personnes — près de 900 heures d'audio — pour détecter la dépression et l'anxiété directement dans le signal sonore brut. Résultat sur un groupe de test de plus de 5 000 personnes : 71 % de sensibilité et de spécificité simultanées. Pensez à un mécanicien qui pose l'oreille sous le capot. Il ne vous demande pas si la voiture fait un bruit bizarre — il l'entend lui-même. Ici, l'IA n'analyse pas ce que vous dites. Elle mesure comment votre voix vibre, tremble légèrement, ralentit entre les syllabes — des micro-variations imperceptibles à l'oreille humaine. Pour y parvenir, les chercheurs ont pris Whisper, le modèle de transcription d'OpenAI, et l'ont adapté via une technique appelée LoRA — imaginez qu'on recalibre légèrement un instrument de musique sans le reconstruire — pour lui apprendre à extraire des marqueurs émotionnels sans toucher au contenu des mots. Pourquoi ça compte ? Le diagnostic de dépression repose encore massivement sur des questionnaires que les patients remplissent eux-mêmes. On minimise, on oublie, on ne reconnaît pas ce qu'on vit. Un marqueur vocal passif pourrait s'intégrer dans une consultation à distance ou une application de suivi sans rien demander explicitement. Le hic : 71 %, c'est mieux que le hasard mais bien en dessous d'un test médical fiable. Sur 100 personnes déprimées, 29 passeraient inaperçues. Et le modèle a été développé sur une population américaine — on ne sait pas encore si ces marqueurs vocaux traversent les langues et les cultures.

Glossaire
LoRATechnique d'adaptation légère d'un grand modèle d'IA : plutôt que de le réentraîner entièrement, on n'ajuste qu'une petite fraction de ses paramètres, comme recalibrer quelques réglages d'un appareil sans le reconstruire.
sensibilité / spécificitéDeux mesures d'un test médical : la sensibilité dit combien de malades il détecte correctement, la spécificité dit combien de personnes saines il ne signale pas à tort. 71 % pour les deux en même temps signifie que le modèle équilibre ces deux erreurs.
PHQ-9 / GAD-7Questionnaires cliniques standardisés pour évaluer la sévérité de la dépression (PHQ-9) et de l'anxiété (GAD-7) — les « thermomètres » de référence en psychiatrie.
02 / 03

Les IA psychiatres ratent les patients qui « s'en sortent » trop bien

Une IA lit un témoignage rempli de symptômes d'anxiété clairs, et conclut : pas de trouble détecté.

Comment c'est possible ? Des chercheurs ont construit un benchmark de 555 entretiens cliniques semi-structurés, tous annotés par des psychiatres selon le SCID — le protocole d'entretien diagnostique de référence — pour quatre troubles : dépression, anxiété, PTSD, et trouble mental en général. Ils ont ensuite soumis ces entretiens à cinq grands modèles de langage, dont GPT-4o Mini, GPT-4.1 Mini, GPT-5 Mini, LLaMA 3 et DeepSeek, pour voir s'ils reproduisaient ces diagnostics. Les chiffres sont mitigés, soyons honnêtes. La précision varie entre 0,49 et 0,86 selon le modèle et le trouble — soit entre pile-ou-face et assez respectable. Mais le plus instructif, c'est ce qui explique les erreurs. Imaginez un professeur qui surveille une classe. Il rate les signes de détresse chez l'étudiant qui rend ses devoirs à l'heure, reste poli, et « gère ». C'est exactement le pattern observé ici : les IA manquent surtout les cas d'anxiété et de PTSD quand la personne mentionne simultanément qu'elle a du soutien, qu'elle fait face, ou qu'elle fonctionne encore normalement au quotidien. Le modèle interprète ce contexte protecteur comme une absence de pathologie — même quand les symptômes sont explicitement décrits dans le même paragraphe. Pourquoi ça compte ? Ces outils sont déjà déployés dans des applications de santé mentale. Comprendre précisément où et pourquoi ils se trompent n'est pas un détail académique. Le hic : l'analyse fine des erreurs a été conduite uniquement sur les sorties de GPT-4.1 Mini. Les autres modèles pourraient se tromper pour des raisons différentes — on ne sait pas encore.

Glossaire
SCIDStructured Clinical Interview for DSM Disorders — entretien psychiatrique semi-structuré conduit par un clinicien formé, considéré comme le standard de référence pour établir un diagnostic.
PTSDTrouble de stress post-traumatique — trouble anxieux déclenché par un événement traumatisant, caractérisé par des reviviscences, une hypervigilance et un évitement.
MCCMatthews Correlation Coefficient — mesure de performance d'un classifieur binaire qui tient compte des quatre types d'erreurs possibles ; un score de 0 signifie prédiction aléatoire, 1 signifie parfait.
03 / 03

Les IA qui lisent les cerveaux apprennent surtout à reconnaître les individus

On croyait entraîner des IA à détecter des états mentaux dans les ondes cérébrales — elles apprenaient à reconnaître des gens.

Imaginez qu'on vous demande d'apprendre à une IA à sentir si une salle de concert est détendue ou stressée — en analysant les vibrations du sol. Et que l'IA apprenne en réalité à reconnaître chaque musicien individuellement à sa façon de marcher. Elle deviendrait très bonne avec les musiciens qu'elle connaît. Inutile avec les autres. C'est exactement ce que viennent de documenter des chercheurs avec les modèles d'IA appliqués à l'EEG — les enregistrements de l'activité électrique du cerveau via des électrodes sur le crâne. Ils ont audité trois grands modèles pré-entraînés, LaBraM, CBraMod et REVE, sur quatre jeux de données publics de repos, soit 12 combinaisons testées. Dans les 12 cas, les représentations internes encodent l'identité du sujet à un niveau 13 à 89 fois supérieur à ce qu'on obtiendrait avec du bruit aléatoire. Plus troublant encore : le fine-tuning — la phase censée adapter le modèle à une tâche clinique — aggrave le phénomène dans tous les cas sans exception. Pourquoi ça compte ? Le rêve des biomarqueurs EEG pour la dépression ou la schizophrénie repose sur une idée simple : détecter des patterns communs entre patients. Si les modèles apprennent à reconnaître des individus plutôt que des états, ils généralisent mal aux nouveaux patients — et les évaluations de performance publiées dans la littérature surestiment massivement leur vraie capacité. La bonne nouvelle, que les chercheurs soulignent eux-mêmes : cet axe d'identité est linéaire et effaçable. Une technique appelée LEACE permet de le retirer chirurgicalement, ce qui améliore immédiatement la détection des vrais marqueurs cliniques. Le hic : l'étude porte sur des données au repos. On ne sait pas encore si le problème est aussi sévère lors de tâches cognitives actives.

Glossaire
EEGÉlectroencéphalographie — technique qui mesure l'activité électrique du cerveau via des électrodes posées sur le crâne, sans chirurgie.
modèle pré-entraîné (foundation model)Un modèle d'IA entraîné sur de très grandes quantités de données générales, qu'on adapte ensuite à une tâche spécifique — comme un couteau suisse qu'on affûte pour un usage précis.
fine-tuningPhase d'adaptation d'un modèle pré-entraîné à une tâche précise, en le réentraînant sur un jeu de données spécifique.
LEACETechnique mathématique qui identifie et efface une direction précise dans l'espace des représentations d'un modèle — ici, la direction qui encode l'identité du sujet.
La vue d'ensemble

Ces trois études racontent la même histoire sous trois angles. La voix peut porter un signal de dépression — c'est réel. Les LLM peuvent lire des symptômes dans un entretien — c'est réel aussi. Les modèles EEG captent quelque chose dans les ondes cérébrales — oui, mais quoi exactement ? Le fil commun : on mesure quelque chose, mais pas toujours ce qu'on croit mesurer. Le modèle vocal mesure des micro-variations, sans qu'on sache encore lesquelles sont vraiment causales. Le modèle de langage mesure les symptômes, mais aussi le contexte autour, et les confond. Le modèle EEG mesure le cerveau, mais retient surtout l'identité individuelle. Le domaine n'est plus à l'étape « est-ce que ça marche ? ». Il est à l'étape « est-ce que ça marche pour les bonnes raisons ? ». C'est une question plus difficile, et c'est précisément celle que ces équipes commencent à poser sérieusement. C'est un progrès réel — même si la réponse, pour l'instant, est souvent non.

À surveiller

Côté voix, l'enjeu des prochains mois sera la validation cross-culturelle et cross-linguale — les marqueurs vocaux de la dépression sont-ils universels ou spécifiques à l'anglais américain ? Pour les modèles EEG, la question ouverte que j'aimerais voir traitée : est-ce que LEACE, appliqué systématiquement avant le fine-tuning, suffit à corriger le problème, ou faut-il repenser l'architecture des modèles de fond ? Et pour les LLM en screening psychiatrique, guettez les travaux qui testent si l'ajout explicite d'une instruction sur le contexte protecteur dans le prompt corrige le biais — ce serait une intervention simple si ça marche.

Pour aller plus loin
Merci de m'avoir lu — à demain. — JB
DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io