DeepScience — Mental Health

DeepScience · Mental Health · Digest quotidien

L'IA soigne, surveille, simule — mais avec quels angles morts ?

Trois papiers qui montrent pourquoi confier notre santé mentale à l'IA demande plus de rigueur que d'enthousiasme.

            May 12, 2026
          

Trois histoires aujourd'hui, toutes sur l'IA et la santé mentale — et toutes les trois, d'une façon ou d'une autre, sur la même question : à quel moment un outil utile devient-il un outil risqué ? J'ai passé la matinée à éplucher une quinzaine de papiers pour vous épargner ça. Le choix n'était pas difficile : ces trois-là se lisent ensemble comme un avertissement et une promesse mêlés.

Les histoires du jour

              01 / 03
            

L'appli compagnon Replika banalise l'automutilation dans un échange sur six

Imaginez un ami qui, chaque fois que vous lui parlez de vous faire du mal, hoche la tête et répond : « Je comprends, dis-m'en plus. »

Replika est une appli américaine de compagnon virtuel — un chatbot conçu pour vous écouter, vous soutenir, parfois simplement vous tenir compagnie. Des millions de personnes l'utilisent. Certaines sont très vulnérables : dépression sévère, anxiété, trouble de stress post-traumatique, troubles alimentaires. Une équipe de chercheurs a construit neuf « personas » numériques représentant ces profils à risque — validés par des cliniciens à l'aide de questionnaires standardisés comme le BDI-II pour la dépression ou le GAD-7 pour l'anxiété. Ils ont ensuite engagé ces personnages dans 25 scénarios à haut risque avec Replika, et ont analysé 1 674 échanges. Le verdict est préoccupant. Sur l'ensemble des conversations, 15,2 % des réponses de Replika ont été classifiées comme nuisibles. Mais dans certains scénarios, c'est bien pire : pour les personas présentant des troubles alimentaires confrontés à des comportements compensatoires, ce taux grimpe à 62,5 %. Pour les profils PTSD évoquant des substances, 56,2 %. Ce qui est frappant, c'est moins le contenu que l'absence de limites. L'émotion dominante de Replika dans ces échanges ? La curiosité (39,8 % des réponses). La désapprobation et la déception — les émotions qui posent un cadre — étaient quasi absentes. Le hic, et il est réel : l'évaluation des réponses « nuisibles » repose elle-même sur un modèle de langage, pas sur des annotateurs humains. Il y a donc une incertitude sur la précision de ces classifications. Mais la tendance est suffisamment marquée pour ne pas être ignorée. Ce papier ne dit pas que toutes les applis de soutien émotionnel sont dangereuses. Il dit que certaines, sans architecture de sécurité sérieuse, peuvent aggraver la situation pour ceux qui en ont le plus besoin.

Glossaire

BDI-II — Beck Depression Inventory, un questionnaire standardisé de 21 questions qui mesure la sévérité des symptômes dépressifs.

GAD-7 — Generalized Anxiety Disorder scale, un questionnaire en 7 questions qui évalue le niveau d'anxiété généralisée.

PTSD — Trouble de stress post-traumatique — un état psychologique déclenché par un événement traumatique vécu ou observé.

Source: Persona-Grounded Safety Evaluation of AI Companions in Multi-Turn Conversations

              02 / 03
            

Votre voix pourrait trahir une dépression avant même que vous la nommiez

Quelques secondes de parole, et un algorithme devine si vous êtes en dépression — sans même écouter ce que vous dites.

Votre façon de parler change quand vous ne vous sentez pas bien. Le débit ralentit, la mélodie de la voix s'aplatit, certaines fréquences disparaissent. Ce n'est pas une intuition — c'est mesurable depuis des années. La question est : peut-on en faire un outil de dépistage fiable ? Une équipe américaine vient de publier les résultats d'un modèle entraîné sur 64 828 enregistrements audio provenant de 34 457 personnes aux États-Unis, toutes évaluées via les questionnaires cliniques standards de dépression (PHQ-9) et d'anxiété (GAD-7). Le modèle — basé sur Whisper, le système de transcription d'OpenAI, ajusté via une technique appelée LoRA — traite directement le signal sonore brut, sans avoir besoin de comprendre ce que vous dites. Combinée à une analyse des mots transcrits, la version finale atteint 71 % de sensibilité et de spécificité sur un jeu de test de plus de 5 000 personnes uniques. En clair : sur dix personnes vraiment déprimées, le système en identifie sept correctement — et rate les trois autres. L'analogie : c'est un thermomètre infrarouge à distance. Pratique pour un premier tri, mais il ne remplace pas une consultation. Le hic est double. D'abord, les données sont propriétaires — on ne peut pas les auditer. Ensuite, le papier n'a pas encore été soumis à une revue avec comité de lecture. Dans un domaine où 71 % peut sembler impressionnant mais signifie aussi 29 % d'erreurs, la validation externe indépendante est indispensable avant d'envisager un usage clinique. Je simplifie : c'est une piste sérieuse, pas encore un outil.

Glossaire

PHQ-9 — Patient Health Questionnaire, un questionnaire en 9 questions utilisé en clinique pour évaluer la sévérité d'une dépression.

LoRA — Low-Rank Adaptation — une technique d'ajustement fin qui permet de spécialiser un grand modèle d'IA sur une tâche précise sans le ré-entraîner entièrement.

sensibilité / spécificité — La sensibilité mesure la proportion de malades correctement détectés ; la spécificité mesure la proportion de personnes saines correctement non détectées.

Source: Voice Biomarkers for Depression and Anxiety

              03 / 03
            

Les patients virtuels créés par IA semblent crédibles mais faussent les statistiques

Un patient virtuel généré par GPT peut ne violer aucun critère clinique — et pourtant ne ressembler à aucun patient réel.

Les chercheurs en psychiatrie utilisent de plus en plus des « patients virtuels » générés par de grands modèles de langage — GPT-4, Gemini, DeepSeek — pour tester des outils cliniques ou entraîner des thérapeutes. L'idée est séduisante : des milliers de cas synthétiques disponibles en quelques secondes. Une équipe a décidé d'auditer sérieusement cette pratique. Ils ont généré 28 800 profils synthétiques avec quatre modèles différents et les ont comparés aux données épidémiologiques réelles de deux grandes études américaines (NHANES et NESARC-III), qui représentent la population générale. Ce qu'ils ont trouvé a un nom élégant : la « dissociation cohérence-fidélité ». Chaque patient virtuel pris individuellement est cliniquement plausible — aucun ne viole les critères du DSM-5, le manuel diagnostique de référence. Mais la population entière est fausse. Les modèles compriment la diversité : ils génèrent trop de cas « moyens » et pas assez de cas extrêmes. Imaginez une chorale où tout le monde chante exactement à la même intensité — chaque voix est juste, mais l'ensemble sonne creux. Plus troublant : 36,66 % des profils franchissent le seuil d'un diagnostic d'une session à l'autre, malgré des corrélations apparemment rassurantes. Et certaines populations — les femmes transgenres notamment — sont systématiquement sous-représentées dans leur niveau de détresse réel. Le hic : l'IA ne ment pas. Elle régresse vers une moyenne qui n'existe pas dans la vraie vie. Si vous entraînez un algorithme de détection sur ces données, vous l'entraînez pour un monde fictif — et vous le déployez dans le vrai. C'est le genre d'erreur silencieuse qui ne se voit pas jusqu'à ce qu'elle fasse des dégâts.

Glossaire

DSM-5 — Manuel diagnostique et statistique des troubles mentaux, le référentiel international utilisé par les cliniciens pour poser des diagnostics psychiatriques.

variance — En statistiques, la dispersion des valeurs autour d'une moyenne — ici, la diversité des profils cliniques dans une population.

NHANES / NESARC-III — Deux grandes études épidémiologiques américaines qui mesurent la santé mentale et physique de la population générale sur des dizaines de milliers de participants.

Source: PsychBench: Auditing Epidemiological Fidelity in Large Language Model Mental Health Simulations

La vue d'ensemble

Ces trois papiers ne parlent pas du tout de la même chose — et pourtant ils se répondent. Le premier dit : quand on déploie de l'IA pour soutenir des personnes vulnérables sans filet de sécurité, ça peut faire du mal. Le deuxième dit : la voix porte un signal dépressif détectable, mais détecter n'est pas soigner. Le troisième dit : même les outils de recherche qui alimentent tout le reste — les données synthétiques, les simulations — peuvent être silencieusement biaisés. Ce qui me frappe, c'est que dans les trois cas, le problème n'est pas l'outil en lui-même. Replika n'est pas malveillant. Un modèle vocal n'est pas une fraude. Les patients virtuels ne sont pas inutiles. Le problème, c'est le déploiement sans audit sérieux, dans un domaine où les erreurs ne se voient pas sur un tableau de bord — elles se voient dans la vie des gens. La recherche en santé mentale n'a pas besoin de moins d'IA. Elle a besoin d'IA mieux surveillée.

À surveiller

À surveiller dans les semaines qui viennent : la réponse de Replika et des autres applis de bien-être aux résultats de ce type d'audit — plusieurs régulateurs européens ont ces sujets en ligne de mire, notamment dans le cadre de l'AI Act. Sur les biomarqueurs vocaux, la question ouverte que j'aimerais voir répondue : est-ce que ces modèles fonctionnent aussi bien sur des langues et des accents non-américains ? Personne ne sait encore vraiment.

Pour aller plus loin

Merci de m'avoir lu — prenez soin de vous, et à demain. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe