DeepScience — Mental Health

DeepScience · Mental Health · Digest quotidien

Vos chatbots de santé mentale ne sont pas si sûrs

Parce que les outils numériques censés nous aider peuvent aussi blesser — et la recherche commence à mesurer précisément l'écart.

            July 01, 2026
          

Deux cent quatre-vingt-deux papiers cette semaine sur la santé mentale. J'ai lu pour vous, et franchement, trois histoires se dégagent nettement du reste. Elles parlent toutes les trois du même écart : ce qu'on promet, ce qu'on livre, et ce qu'on ignore encore.

Les histoires du jour

              01 / 03
            

Les grands chatbots IA échouent à protéger contre les troubles alimentaires

Demandez à une IA de vous conseiller sur un trouble alimentaire en vous faisant passer pour un journaliste — dans certains cas, elle répond sans hésiter.

Des chercheurs ont testé huit grands modèles de langage commerciaux — les IA conversationnelles du type de celles que des millions de personnes utilisent déjà pour parler de leur santé mentale. Ils ont soumis chaque modèle à seize conditions cliniques reconnues par le DSM-5, le manuel de référence des psychiatres, en utilisant quatre techniques d'attaque différentes : se faire passer pour un journaliste, envelopper la demande dans une fiction, masquer progressivement l'intention au fil de la conversation. Résultat : les garde-fous tiennent, mais seulement pour le suicide et l'automutilation. Dès qu'on parle de troubles alimentaires, d'addiction ou de dépression majeure, le taux d'échec peut atteindre cent pour cent. C'est comme une porte blindée avec une serrure incassable... et trois fenêtres ouvertes à côté. Pourquoi ça compte ? Des dizaines d'applications de santé mentale s'appuient aujourd'hui sur ces mêmes modèles sous-jacents. Si la couche de protection est sélective, les utilisateurs les plus vulnérables — ceux qui cherchent de l'aide précisément pour ces troubles — sont exposés. Le hic, soyons honnêtes : l'étude ne nomme pas les huit modèles testés, ce qui rend impossible de savoir si votre application préférée est concernée. Et le système de notation du « contenu nuisible » est lui-même automatisé — un autre modèle d'IA qui juge les réponses des premiers. C'est un progrès méthodologique réel, mais ce n'est pas la même chose qu'un clinicien humain qui évalue chaque échange.

Glossaire

DSM-5 — Le Manuel diagnostique et statistique des troubles mentaux, cinquième édition — la référence internationale des psychiatres pour classer et diagnostiquer les troubles psychiques.

attaque adversariale — Une technique qui consiste à formuler une requête de façon détournée pour contourner les règles de sécurité d'une IA.

Source: One Year Later...The Harms Persist, But So Do We!

              02 / 03
            

Dix minutes de lumière infrarouge sur le front améliorent le sommeil des étudiants

Et si soigner l'insomnie passait par illuminer doucement le cortex préfrontal avec une lumière que vos yeux ne voient même pas ?

Des chercheurs ont recruté 37 étudiants souffrant d'insomnie et les ont répartis en deux groupes : un groupe recevait dix minutes de lumière infrarouge proche (980 nanomètres, invisible à l'œil nu) posée sur le côté droit du front, pendant sept jours consécutifs. L'autre groupe recevait exactement le même appareil, mais éteint — un placebo crédible. L'idée derrière tout ça : chez les personnes insomniaques, la région préfrontale du cerveau serait sous-active, comme un chef d'orchestre qui dirige mal son ensemble. Résultat : les pensées tournent en boucle le soir, le calme ne vient pas. La lumière infrarouge stimulerait les mitochondries — les petites centrales énergétiques de chaque cellule — dans ces neurones préfrontaux, les remettant en marche. Les résultats sont encourageants. Trois semaines après la fin du traitement, le groupe actif montrait des améliorations significatives sur deux échelles de sommeil standard, avec des tailles d'effet larges. L'EEG confirmait un changement dans l'activité cérébrale au repos. Et en bonus : les analyses statistiques suggèrent que c'est précisément ce changement cérébral qui explique l'amélioration du sommeil — pas juste l'effet placebo. Le hic est important : trente-sept personnes, c'est petit. Très petit. Ce type d'étude pilote sert à calibrer, pas à conclure. L'amélioration cognitive mesurée pendant la tâche de mémoire était identique dans les deux groupes — ce qui suggère un effet placebo non négligeable sur certaines dimensions. Il faut un essai à plus grande échelle avant de conseiller quoi que ce soit.

Glossaire

photobiomodulation transcranienne (tPBM) — Technique qui applique de la lumière de faible intensité sur le crâne pour stimuler l'activité des cellules cérébrales sous-jacentes.

cortex préfrontal — La partie avant du cerveau, impliquée dans la régulation des émotions, la prise de décision et le contrôle des pensées envahissantes.

mitochondries — Les « centrales énergétiques » de chaque cellule, qui produisent l'énergie dont les neurones ont besoin pour fonctionner.

taille d'effet — Une mesure statistique qui indique non pas si un résultat est réel, mais à quel point il est grand en pratique — une taille d'effet élevée signifie un changement cliniquement perceptible.

Source: A pilot study examining transcranial photobiomodulation therapy intervention in college students with insomnia

              03 / 03
            

Pourquoi les algorithmes médicaux sophistiqués perdent souvent contre une régression simple

Malgré des années de promesses sur l'IA en médecine, un modèle statistique de 1972 continue de tenir tête aux réseaux de neurones les plus puissants — voici pourquoi.

Des chercheurs ont posé une question inconfortable : pourquoi les modèles d'apprentissage automatique complexes — réseaux de neurones profonds, gradient boosting, méthodes à noyaux — sont-ils si souvent battus par la simple régression logistique sur les données médicales en tableau ? Leur réponse tient en une phrase : le bruit de mesure efface les avantages des modèles complexes plus vite que ceux des modèles simples. Imaginez que vous essayez de lire une partition de musique, mais que quelqu'un a renversé du café dessus. Les grandes lignes mélodiques restent lisibles malgré les taches — mais les ornements fins, les trilles et les nuances, disparaissent complètement. Un modèle complexe ressemble à un musicien virtuose qui cherche ces ornements : il ne trouve que du bruit. Un modèle simple lit juste la mélodie principale, et s'en sort mieux. Mathématiquement, les équipes autour de ce papier montrent que chaque niveau d'interaction entre variables est atténué par le carré, le cube, puis la puissance suivante du bruit — alors que les effets simples et linéaires ne sont atténués qu'une seule fois. Résultat : sur 140 tâches de prédiction dans la UK Biobank, l'avantage des modèles flexibles disparaît exactement là où la théorie le prédit. Le hic ? Ce n'est pas que les modèles complexes sont mauvais en soi. C'est que nos instruments de mesure en biomédecine — questionnaires, capteurs, biomarqueurs — introduisent trop de bruit pour que ces modèles puissent exprimer leur potentiel. Améliorer la qualité des mesures vaut probablement plus que sophistiquer les algorithmes.

Glossaire

régression logistique — Un modèle statistique classique qui prédit une probabilité à partir d'une combinaison linéaire de variables — simple, rapide, et souvent efficace.

bruit de mesure — La part d'erreur ou d'imprécision inévitable dans toute mesure — un questionnaire rempli différemment selon l'humeur du jour, un capteur qui dérive.

UK Biobank — Une vaste base de données médicales britannique réunissant les informations de santé de plus de 500 000 participants, souvent utilisée pour tester des modèles prédictifs.

Source: Measurement noise limits the advantage of nonlinear models over linear models in biomedical prediction

La vue d'ensemble

Ces trois histoires racontent la même chose depuis des angles différents. Les chatbots promettent de l'aide en santé mentale mais leurs protections ont des trous béants. La lumière infrarouge sur le front montre de vrais signaux — mais sur 37 personnes, pas 3 700. Et la théorie sur le bruit de mesure nous explique peut-être pourquoi on stagne : on construit des algorithmes de plus en plus sophistiqués sur des données de plus en plus imprécises, et on s'étonne que ça ne marche pas mieux qu'un tableur. Ce que ça dit collectivement sur la recherche en santé mentale aujourd'hui : le secteur est coincé entre deux tentations — croire que la complexité algorithmique va tout résoudre, et croire qu'il suffit d'une bonne étude pilote pour valider un traitement. La vérité, plus inconfortable, c'est que les fondations manquent encore. Les instruments de mesure sont bruyants. Les garde-fous sont sélectifs. Et les essais sont trop petits. Ce n'est pas du catastrophisme — c'est le cahier des charges pour la prochaine décennie.

À surveiller

Surveillez les prochains mois sur deux fronts : d'abord, la mise en application du règlement européen sur l'IA aux dispositifs médicaux numériques, qui devrait forcer les éditeurs d'applications de santé mentale à documenter leurs garde-fous de sécurité — exactement le type de faille révélée par le papier d'aujourd'hui. Ensuite, les essais à plus grande échelle sur la photobiomodulation : si un groupe réplique les résultats sur 150 à 200 patients avec un suivi de six mois, cette technique mérite une vraie discussion clinique. La question ouverte que j'aimerais voir résolue : quelqu'un va-t-il enfin publier une étude sur le bruit de mesure spécifiquement dans les biomarqueurs de dépression — EEG, fNIRS, questionnaires — pour savoir lesquels sont assez fiables pour nourrir des modèles complexes ?

Pour aller plus loin

Merci de m'avoir lu jusqu'ici — à demain. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe