DeepScience — Mental Health

DeepScience · Mental Health · Digest quotidien

L'IA dans la tête : trois vérités qui dérangent.

Parce que l'IA s'invite dans la santé mentale — et ni l'optimisme ni la panique ne suffisent à comprendre ce qui se passe vraiment.

            May 03, 2026
          

Trois papiers m'ont retenu aujourd'hui, pas parce qu'ils annoncent une révolution, mais parce qu'ils posent les bonnes questions au bon moment. La journée est dense, calibrée — pas de coup de théâtre, mais beaucoup de matière à penser. Je vous propose exactement trois histoires, et une mise en garde qui traverse les trois.

Les histoires du jour

              01 / 03
            

Les IA inventent des patients crédibles mais statistiquement faux.

GPT génère un profil de patient dépressif parfaitement cohérent — demandez la même chose demain, et dans 37 % des cas, ce patient ne remplit plus les critères diagnostiques.

Imaginez un miroir de fête foraine. Il reflète votre visage de façon plausible — vos traits sont reconnaissables. Mais si vous faites défiler cent personnes devant lui, tout le monde ressort avec le même teint, la même corpulence, les mêmes angles. La diversité réelle a disparu. C'est exactement ce que vient de documenter une équipe qui a généré 28 800 profils synthétiques de patients en demandant à quatre grands modèles de langage — GPT-4o-mini, DeepSeek-V3, Gemini et GLM-4.7 — de simuler des personnes issues de 120 groupes démographiques différents. Résultat ? Au niveau individuel, les modèles sont impeccables : zéro violation des critères du DSM-5, les symptômes s'enchaînent de façon cliniquement cohérente. Mais au niveau de la population, c'est une autre histoire. La dispersion des scores de dépression — c'est-à-dire l'étendue des profils, du plus léger au plus sévère — est écrasée de 14 % à 62 % selon le modèle. Les cas extrêmes disparaissent. Et surtout : 36,66 % des profils franchissent ou abandonnent le seuil diagnostique selon la tentative — même question, même modèle, deux jours d'écart. Pourquoi ça compte ? Parce qu'on commence à utiliser ces modèles pour entraîner des outils cliniques, tester des thérapies, simuler des patients dans des études. Si les données d'entraînement sont faussées vers le « cas moyen », les outils qui en sortent seront aveugles aux patients atypiques — souvent les plus vulnérables. Le hic honnête : l'étude porte sur des instruments de mesure standardisés en anglais, dans des groupes démographiques américains. Les biais seraient peut-être différents en français ou en contexte européen. Et les modèles testés sont ceux de fin 2024 — le champ évolue vite.

Glossaire

DSM-5 — Le Manuel diagnostique et statistique des troubles mentaux, référence internationale pour poser un diagnostic psychiatrique.

PHQ-9 — Un questionnaire à 9 questions qui mesure la sévérité des symptômes dépressifs sur une échelle standardisée.

variance — En statistique, la dispersion des valeurs autour d'une moyenne — une variance compressée signifie que tout le monde ressemble au cas moyen.

Source: PsychBench: Auditing Epidemiological Fidelity in Large Language Model Mental Health Simulations

              02 / 03
            

Utiliser l'IA comme outil ou comme ami : les effets ne sont pas les mêmes dans le cerveau.

Deux étudiants passent autant de temps avec une IA — mais l'un l'utilise pour réviser, l'autre pour combler sa solitude. Leur IRM ne ressemble pas du tout.

Pensez à la différence entre utiliser un GPS pour apprendre un nouveau quartier et se laisser guider passivement sans jamais regarder autour de vous. Dans le premier cas, vous construisez une carte mentale. Dans le second, vous l'externalisez. Une équipe de chercheurs chinois a scanné le cerveau de 222 étudiants universitaires et leur a demandé comment ils utilisaient l'IA générative — ChatGPT et ses équivalents. Pas combien, mais comment. Deux profils émergent clairement. L'usage fonctionnel — rédiger, réviser, chercher des informations, résoudre des problèmes — est associé à une plus grande quantité de matière grise dans le cortex préfrontal dorsolatéral, la région impliquée dans la planification et la prise de décision, et à une meilleure connectivité du réseau hippocampique, qui joue un rôle central dans la mémoire. Ces étudiants ont aussi des meilleures notes. L'usage socio-émotionnel — utiliser l'IA comme confident, comme présence, comme substitut relationnel — est lui associé à davantage de symptômes dépressifs et d'anxiété sociale, et à une réduction du volume de certaines régions liées aux émotions. Je simplifie. C'est une étude transversale : on photographie le cerveau et les comportements au même moment, donc on ne peut pas affirmer que l'usage cause ces différences — peut-être que les personnes déjà anxieuses se tournent davantage vers l'IA pour combler un vide. L'étude porte sur des étudiants chinois de 21 ans en moyenne — la généralisation reste à tester. Mais la distinction fonctionnel/socio-émotionnel est convaincante et mérite d'être suivie.

Glossaire

cortex préfrontal dorsolatéral — Une zone du cerveau, juste derrière le front, impliquée dans la planification, la concentration et la régulation des décisions.

hippocampe — Une structure cérébrale en forme de cheval de mer, centrale pour la mémoire et l'apprentissage.

étude transversale — Une étude qui observe tout au même moment, sans suivre les participants dans le temps — elle décrit une association mais ne prouve pas une cause.

Source: Mapping generative AI use in the human brain: divergent neural, academic, and mental health profiles of functional versus socio emotional AI use

              03 / 03
            

En thérapie écrite, comment vous racontez compte plus que ce que vous dites.

Comptez les mots « triste » ou « seul » dans un texte thérapeutique — vous obtenez une info utile. Regardez comment l'histoire est construite — vous obtenez une info bien meilleure.

Depuis des années, les chercheurs en santé mentale computationnelle comptent les mots. Combien de fois quelqu'un écrit-il « mort », « vide », « peur » ? C'est ce qu'on appelle l'analyse lexicale — et c'est une façon honnête de commencer à automatiser la détection de la dépression dans les écrits thérapeutiques. Mais une équipe a testé autre chose sur 830 textes produits dans des séances d'écriture thérapeutique en Chine, couvrant des adultes, des enfants après catastrophe naturelle et des adolescents en milieu scolaire. Ils ont comparé trois niveaux d'analyse : les mots eux-mêmes, le sens global des phrases — capturé par des représentations mathématiques du langage appelées embeddings —, et la structure narrative : comment l'histoire est organisée, si elle a un début-milieu-fin, si la causalité est claire, si les émotions progressent. Pensez à un film de cinéma. On peut analyser chaque réplique individuellement. Mais c'est le montage — la façon dont les scènes s'enchaînent, créent une tension, se résolvent — qui dit si l'histoire vous atteint vraiment. La structure narrative remporte la compétition haut la main pour prédire la dépression, l'anxiété et le stress post-traumatique. Deux signatures ressortent : la dépression est associée à une désorganisation temporelle — l'histoire n'avance pas, elle tourne en rond. L'anxiété, elle, manque d'ancrage spatial — l'auteur ne situe pas les événements dans un lieu précis, comme si tout flottait. Le hic : l'étude est entièrement en chinois, sur des contextes culturels très spécifiques. La structure narrative en français ou en arabe n'obéit peut-être pas aux mêmes patterns. Et les LLMs utilisés pour évaluer les récits ne sont pas audités pour leurs biais propres.

Glossaire

embeddings — Des représentations mathématiques du sens d'un texte — une façon de mesurer si deux phrases veulent dire la même chose, même avec des mots différents.

analyse lexicale — Compter et peser les mots dans un texte pour en déduire des tendances psychologiques — la méthode la plus ancienne et la plus simple.

structure narrative — L'organisation d'une histoire : sa progression temporelle, sa logique causale, la façon dont les émotions s'y déploient.

Source: Multi-Level Narrative Evaluation Outperforms Lexical Features for Mental Health

La vue d'ensemble

Ce que ces trois papiers disent ensemble, c'est que nous sommes au milieu d'une bascule. L'IA entre dans la santé mentale — pour simuler des patients, pour analyser des écrits thérapeutiques, pour accompagner des individus. Et les trois études soulèvent la même question en filigrane : à quel niveau d'analyse doit-on faire confiance à ces outils ? PsychBench montre que la crédibilité individuelle peut masquer une distorsion systémique. L'étude sur l'usage de l'IA montre que le même outil produit des effets opposés selon l'intention qu'on y met. L'étude narrative montre que ce qui prédit vraiment la souffrance n'est pas là où on cherchait. Pris ensemble, ces travaux plaident pour une précision de niveau supérieur : pas « l'IA est utile » ou « l'IA est dangereuse », mais « pour qui, pour quoi, à quelle échelle, avec quelles garanties ». Ce n'est pas une conclusion confortable. Mais c'est celle qu'on mérite si on veut que ces outils servent vraiment les personnes les plus vulnérables.

À surveiller

Côté LLMs en psychiatrie, surveillez les résultats des premiers essais cliniques randomisés sur les chatbots thérapeutiques en Europe — plusieurs études sont en cours en 2026 et les premières données devraient tomber d'ici l'automne. La question ouverte que j'aimerais voir répondue : est-ce que la structure narrative comme biomarqueur tient dans d'autres langues et cultures ? Un réplication en français ou en espagnol serait décisive.

Pour aller plus loin

Merci de m'avoir lu jusqu'ici — c'est dense aujourd'hui, mais c'est précisément quand c'est dense qu'il vaut la peine de s'arrêter. À demain. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe