DeepScience — Mental Health

DeepScience · Mental Health · Digest quotidien

L'IA simule des patients, mais ment sur leur diversité

Trois études qui montrent où la technologie aide vraiment en santé mentale — et où elle fabrique des illusions.

            April 24, 2026
          

Deux cent quatre-vingt-dix papiers en circulation cette semaine sur la santé mentale. J'en ai retenu trois qui se parlent sans le savoir. L'un regarde ce que l'IA fait au cerveau des étudiants selon la façon dont ils l'utilisent. Un autre pose une question inconfortable sur les chatbots thérapeutes. Et le troisième suit onze mille enfants américains pendant quatre ans pour comprendre ce qui accélère — ou retarde — la première bière, la première cigarette. Allez, c'est parti.

Les histoires du jour

              01 / 03
            

IA pour bosser ou pour combler la solitude : deux effets opposés

Vous utilisez ChatGPT pour rédiger des e-mails ou résumer des articles — ou pour avoir quelqu'un à qui parler à deux heures du matin ?

Une équipe de chercheurs a recruté 222 étudiants universitaires, leur a fait passer une IRM cérébrale haute résolution, et leur a posé des questions précises sur leur usage des IA génératives — appelons-les AICA dans le papier. Pas juste « combien d'heures », mais : est-ce que vous les utilisez pour accomplir des tâches concrètes (chercher de l'info, rédiger, coder), ou est-ce que vous leur parlez pour un soutien émotionnel, de la compagnie, du réconfort ? Les résultats sont nets, et un peu dérangeants. Ceux qui utilisent l'IA de manière fonctionnelle — comme un outil, comme vous utilisez un couteau de cuisine pour couper plutôt que pour tenir compagnie — ont de meilleures notes (la corrélation avec la moyenne générale tient après correction statistique rigoureuse) et un volume de matière grise plus important dans deux régions du cerveau : le cortex préfrontal dorsolatéral, qui gère la planification et la prise de décision, et une zone visuelle appelée cortex calcarin. Leurs réseaux cérébraux autour de l'hippocampe — une structure clé pour la mémoire — semblent également mieux organisés. Ceux qui utilisent l'IA à des fins socio-émotionnelles, eux, présentent un tableau différent : davantage de dépression rapportée, plus d'anxiété sociale, et un volume de matière grise réduit dans des zones liées au traitement des émotions. Le hic, et il est de taille : c'est une étude transversale. On a photographié tout le monde au même moment. On ne peut pas savoir si l'usage socio-émotionnel de l'IA cause les problèmes de santé mentale, ou si ce sont les personnes déjà en difficulté qui s'y tournent davantage. La flèche causale, personne ne la connaît encore. Et seuls 6,8 % des participants utilisaient fréquemment l'IA de façon socio-émotionnelle — c'est un petit groupe. Mais l'étude pose la bonne question au bon moment.

Glossaire

cortex préfrontal dorsolatéral — Une région du cerveau située juste derrière le front, impliquée dans la planification, la concentration et la prise de décision.

matière grise — Le tissu cérébral composé principalement de corps de neurones — un volume plus important est généralement associé à une connectivité locale plus dense.

hippocampe — Une structure cérébrale en forme de virgule, essentielle pour la formation des souvenirs et la navigation spatiale.

Source: Mapping generative AI use in the human brain: divergent neural, academic, and mental health profiles of functional versus socio emotional AI use

              02 / 03
            

Quand l'IA joue au psychiatre, elle invente un patient moyen qui n'existe pas

Imaginez qu'on forme des médecins sur des mannequins qui ne saignent jamais trop, ne crient jamais trop fort, et ressemblent tous à la même personne.

Des chercheurs ont soumis quatre grands modèles de langage — GPT-4o-mini, DeepSeek-V3, Gemini-3-Flash et GLM-4.7 — à une expérience simple en apparence. Ils leur ont demandé de simuler 28 800 profils de patients psychiatriques, répartis selon des combinaisons de race, genre, statut socio-économique et situation familiale. Puis ils ont comparé ces profils simulés aux données épidémiologiques réelles issues de grandes enquêtes américaines de santé publique. Le constat est frappant. Les modèles produisent des individus qui semblent cliniquement cohérents — pas de contradiction flagrante dans les symptômes. Mais au niveau de la population, c'est une catastrophe silencieuse. Pensez à une salle de cours dans laquelle tous les élèves auraient exactement la même note moyenne : pas de très bons, pas de très mauvais. C'est exactement ce que font les IA avec la santé mentale. Elles compriment la variance — elles effacent les cas extrêmes, les gens qui souffrent vraiment beaucoup, les gens qui vont vraiment bien. DeepSeek-V3 réduit cette diversité de 62 % par rapport à la réalité. Pire : 36,66 % des profils simulés changent de catégorie diagnostique entre deux runs identiques. En clair, si vous posez deux fois la même question au modèle, un patient sur trois bascule de « déprimé » à « pas déprimé » ou l'inverse. Et les modèles surestiment systématiquement la dépression de 3,6 à 6,1 points sur l'échelle PHQ — sauf pour les femmes transgenres, qu'ils sous-estiment massivement. Pourquoi est-ce important ? Parce que des chercheurs et des entreprises commencent à entraîner et tester des outils cliniques sur ces simulations. Si les données de référence sont fausses, tout ce qui s'ensuit l'est aussi. Soyons honnêtes : personne n'avait audité ça à cette échelle avant.

Glossaire

variance — En statistique, la mesure de l'étendue des différences dans une population — une variance élevée signifie qu'il y a beaucoup de cas très différents les uns des autres.

PHQ (Patient Health Questionnaire) — Un questionnaire standardisé de neuf questions utilisé en clinique pour mesurer la sévérité des symptômes dépressifs, avec un score de 0 à 27.

épidémiologie — L'étude de la distribution des maladies dans une population — qui tombe malade, combien, et dans quelles circonstances.

Source: PsychBench: Auditing Epidemiological Fidelity in Large Language Model Mental Health Simulations

              03 / 03
            

Ce qui protège vraiment les ados de leur première conso : les parents, pas les gènes

Onze mille enfants de dix ans, suivis pendant quatre ans, et une question : qu'est-ce qui déclenche la première consommation — l'ADN ou l'environnement ?

L'étude ABCD est le plus grand suivi longitudinal de développement cérébral de l'enfant aux États-Unis. Des chercheurs ont utilisé ses données pour modéliser, chez 11 868 participants suivis depuis l'âge de dix ans environ, l'âge auquel chacun commençait à consommer de l'alcool, du tabac ou du cannabis — si tant est qu'il le fasse. À quatre ans de suivi, 39,7 % avaient consommé au moins une substance. C'est beaucoup. Ils ont croisé deux types de données : des scores de risque génétique — des indices calculés à partir de l'ADN qui estiment une prédisposition héréditaire à la consommation — et des facteurs environnementaux mesurés régulièrement : impulsivité, qualité du sommeil, surveillance parentale, consommation de caféine, résultats scolaires. Les gènes comptent. Le score de risque génétique lié à la nicotine multiplie par près de trois le risque d'initiation à n'importe quelle substance. C'est un signal réel. Mais dans les modèles causaux — ceux qui essaient d'isoler ce qui cause vraiment quoi, plutôt que ce qui est simplement corrélé — la surveillance parentale reste le facteur modifiable le plus puissant. Un enfant qui vit dans un environnement avec un suivi parental élevé a deux à trois fois moins de risque d'initiation précoce. Le hic : les analyses causales s'appuient sur des méthodes statistiques sophistiquées qui demandent des hypothèses fortes, et le contexte américain n'est pas directement transposable. Je simplifie aussi : « surveillance parentale » ne veut pas dire contrôle — les questionnaires mesurent la connaissance que les parents ont de l'emploi du temps et des fréquentations de leurs enfants. Un vrai pas en avant sur la compréhension des trajectoires précoces.

Glossaire

score de risque polygénique (PRS) — Un chiffre calculé à partir de l'ADN d'une personne qui résume l'effet combiné de milliers de variants génétiques sur un trait ou une maladie — c'est une prédisposition statistique, pas un destin.

modèle de survie — Une méthode statistique qui s'intéresse non pas à « est-ce que l'événement arrive » mais à « quand est-ce qu'il arrive » — ici, à quel âge la première consommation a lieu.

modèle causal marginal structural — Une technique statistique avancée qui tente d'estimer l'effet réel d'une variable (ex : surveillance parentale) en corrigeant les biais de confusion — pour s'approcher d'une relation de cause à effet plutôt que de simple corrélation.

Source: Time-Varying Environmental and Polygenic Predictors of Substance Use Initiation in Youth: A Survival and Causal Modeling Study in the ABCD Cohort

La vue d'ensemble

Ce que ces trois études ont en commun, c'est une même question sous-jacente : à qui nos outils s'adaptent-ils vraiment ? L'étude sur l'IA et le cerveau des étudiants montre que l'usage d'une technologie n'est pas neutre — la façon dont on s'en sert change ce qu'elle nous fait. L'audit PsychBench montre que les modèles les plus sophistiqués du monde échouent à représenter la diversité réelle de la souffrance humaine, en particulier aux marges : les cas les plus graves, les populations les moins représentées dans les données d'entraînement. Et l'étude ABCD rappelle que les prédictions génétiques, aussi réelles soient-elles, ne doivent pas éclipser les leviers environnementaux — ceux sur lesquels on peut agir. La recherche en santé mentale accumule des outils de plus en plus puissants. La vraie question pour la prochaine décennie, c'est de savoir si ces outils fonctionnent pour tout le monde ou seulement pour le patient moyen qui n'existe que dans les serveurs.

À surveiller

L'étude PsychBench va probablement faire du bruit dans les milieux qui développent des chatbots thérapeutiques — surveillez les réactions des équipes de Woebot, Wysa et des équivalents européens. Sur le front ABCD, la cohorte entre maintenant dans l'adolescence avancée : les prochaines vagues de données diront si les protections parentales tiennent à 16 ans comme à 12. Et la question qui me taraude : quand verra-t-on une étude équivalente à celle sur l'IA et le cerveau, mais avec un suivi longitudinal sur deux ou trois ans plutôt qu'une photo instantanée ?

Pour aller plus loin

Merci de m'avoir lu — à demain. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe