DeepScience — Artificial Intelligence

DeepScience · Artificial Intelligence · Digest quotidien

L'IA invente des références, oublie de coopérer, se trompe en médecine

Trois études montrent que les angles morts de l'IA ne sont pas abstraits — ils arrivent dans vos bibliographies, vos hôpitaux et vos systèmes multi-agents.

            May 11, 2026
          

Bonne journée. Pas de percée spectaculaire aujourd'hui — mais trois papiers qui méritent votre attention parce qu'ils regardent l'IA là où ça fait mal, plutôt que là où ça brille. J'ai passé ma matinée à trier 281 papiers pour vous épargner cette peine. Ce que j'en retiens : les problèmes connus s'aggravent à mesure que l'usage s'industrialise. Voici trois histoires concrètes pour vous en convaincre.

Les histoires du jour

              01 / 03
            

Les LLMs inventent des dizaines de milliers de références scientifiques chaque année

En 2025, les IA auraient inventé au minimum 146 932 références scientifiques qui n'existent pas — et elles se retrouvent dans de vraies publications.

Imaginez un étudiant qui rend un mémoire avec vingt sources en bibliographie : la moitié sont des titres plausibles, des auteurs réels, des revues connues — mais les articles n'ont jamais été écrits. C'est exactement ce qui se passe à grande échelle dans la littérature académique depuis 2023. Une équipe de chercheurs a audité 111 millions de références issues de 2,5 millions de publications sur quatre plateformes — arXiv, bioRxiv, SSRN et PubMed Central — entre 2020 et 2025. Leur méthode : comparer chaque référence citée aux bases Semantic Scholar et OpenAlex. Ce qui ne match nulle part est potentiellement halluciné. Résultat : le taux de citations introuvables était stable avant fin 2022. Il a commencé à grimper dès début 2023 — soit pile au moment de la démocratisation de ChatGPT. L'accélération la plus forte date de mi-2024. Estimation conservative pour 2025 : 146 932 citations fantômes rien que sur ces quatre corpus. Le taux varie selon les plateformes — SSRN (prépublications en économie et droit) affiche 1,91 %, le plus élevé. Détail qui pique : les références inventées citent de façon disproportionnée des chercheurs déjà très connus et majoritairement masculins. L'IA hallucine vers ce qu'elle connaît le mieux. Le hic : la corrélation temporelle est forte, mais ce n'est pas une preuve formelle que ces citations viennent des LLMs — elles pourraient aussi résulter de négligences humaines amplifiées par les outils d'aide à la rédaction. Les auteurs le reconnaissent. Ce qui est certain, c'est que quelque chose a changé en 2023, et que les conséquences pour la confiance dans la littérature scientifique sont réelles et mesurables.

Glossaire

hallucination — Quand un modèle de langage génère une information fausse mais formulée avec confiance, comme inventer un titre d'article qui n'existe pas.

corpus — Ensemble de documents textuels utilisé comme base de données pour une analyse.

Source: LLM hallucinations in the wild: Large-scale evidence from non-existent citations

              02 / 03
            

Plus les agents IA se souviennent, moins ils coopèrent — et on sait pourquoi

Donner plus de mémoire à un agent IA le rend moins coopératif — et ce n'est pas parce qu'il devient méfiant.

Imaginez un colocataire qui se souvient de chaque petite friction des deux dernières années : le loyer payé en retard une fois, la vaisselle mal rangée, la remarque de trop. À force de relire ce passé, il arrête d'envisager l'avenir commun. Il ne vous fait pas moins confiance à proprement parler — il pense juste de moins en moins à demain. C'est précisément ce qu'une équipe de chercheurs a observé en faisant jouer sept grands modèles de langage à des jeux de dilemme social — des situations où coopérer est collectivement meilleur, mais risqué individuellement. Ils ont fait varier la quantité d'historique de jeu accessible à chaque agent, sur 500 rondes, en répétant l'expérience avec quatre jeux différents et trois configurations aléatoires. Sur 28 combinaisons modèle-jeu testées, 18 montrent une dégradation de la coopération quand la mémoire s'allonge. La question était : pourquoi ? Les chercheurs ont analysé 378 000 traces de raisonnement. Réponse surprenante : ce n'est pas la méfiance qui augmente. C'est la pensée tournée vers l'avenir — la projection, l'anticipation du bénéfice mutuel — qui s'érode. Preuve expérimentale : quand on remplace l'historique réel par un historique synthétique et coopératif de même longueur, la coopération remonte. C'est le contenu des souvenirs, pas leur volume, qui pose problème. Un adaptateur de fine-tuning entraîné à raisonner « vers l'avenir » corrige partiellement le phénomène — et transfère à des jeux que le modèle n'a jamais vus. Le hic : tous les tests sont faits avec des paires de modèles identiques. Des équipes d'agents hétérogènes, plus proches des vrais systèmes déployés, pourraient se comporter très différemment. L'étude ouvre plus de questions qu'elle n'en ferme.

Glossaire

dilemme social — Situation de jeu où chaque participant a intérêt à tricher individuellement, mais où tout le monde perd si tout le monde triche — le dilemme du prisonnier en est l'exemple classique.

fine-tuning — Procédure qui consiste à ré-entraîner un modèle de langage existant sur un jeu de données ciblé pour modifier un comportement précis.

LoRA — Technique légère de fine-tuning qui n'ajuste qu'une petite fraction des paramètres du modèle, ce qui la rend peu coûteuse.

Source: The Memory Curse: How Expanded Recall Erodes Cooperative Intent in LLM Agents

              03 / 03
            

Les IA médicales donnent des réponses confiantes même quand les images sont fausses ou corrompues

Montrez une radio partiellement effacée à une IA médicale : elle vous donnera quand même un diagnostic — sans signaler qu'elle ne peut pas voir.

Un bon médecin, face à une radio floue ou à une question mal posée, dit : « Je ne peux pas conclure avec ça. » C'est une compétence à part entière, distincte du diagnostic lui-même. Est-ce que les IA médicales savent faire ça ? Une équipe a construit MedVIGIL, un banc d'essai de 300 cas cliniques tirés de quatre bases de données médicales publiques, étendu à 2 556 questions à choix multiples. Pour chaque cas, ils ont introduit des perturbations délibérées : des prémisses fausses dans les questions, des formulations trompeuses, des images dont la zone diagnostique clé est masquée ou remplacée, ou des cas rédigés sans image du tout pour voir si le modèle s'appuie vraiment sur le visuel. Quatre radiologistes certifiés ont supervisé la construction et l'annotation. Le score de référence humaine : 83,3 sur 100 (MCS, un score composite), avec 5,8 % de « défaillances silencieuses » — c'est-à-dire des cas où le radiologue répond sans signaler le problème. Résultat pour les IA : le meilleur modèle testé, Claude Opus 4.7, atteint 69,2 — soit 14 points sous l'humain. GPT-4o chute à 44,1 sur l'axe sécurité seul. Et la plupart des modèles répondent avec fluidité et assurance même quand les images sont dégradées ou les questions construites sur de fausses bases. Pas de « je ne sais pas ». Pas d'alerte. Le hic — et il est important : MedVIGIL est un benchmark de laboratoire. Les conditions réelles d'utilisation clinique sont différentes, avec des workflows de vérification humaine. Mais si ces outils sont intégrés dans des chaînes de décision sans filet, ce défaut de calibration devient un vrai risque.

Glossaire

VLM (Vision-Language Model) — Un modèle d'IA capable de traiter à la fois du texte et des images, comme analyser une radio en réponse à une question médicale.

défaillance silencieuse — Quand un système répond avec confiance à une question mal posée ou sur une preuve insuffisante, sans signaler l'incertitude.

MCS (MedVIGIL Composite Score) — Un score agrégé sur plusieurs dimensions de performance — exactitude, robustesse, sécurité — résumé en une note unique pour éviter qu'un modèle cache ses faiblesses en excellant sur un seul axe.

Source: MedVIGIL: Evaluating Trustworthy Medical VLMs Under Broken Visual Evidence

La vue d'ensemble

Ce que ces trois papiers ont en commun, c'est une question sur la confiance — et sur ce qu'on perd quand on ne la calibre pas bien. Les LLMs inventent des références parce qu'ils sont optimisés pour produire du texte plausible, pas pour dire « je ne sais pas où j'ai vu ça ». Les agents multi-agents coopèrent moins bien quand leur mémoire s'allonge parce que personne n'a explicitement entraîné la pensée prospective à résister au passé. Les modèles médicaux répondent avec assurance face à des preuves brisées parce que « abstenir de répondre » n'est pas encore un comportement naturel dans leur entraînement. Trois domaines différents, même angle mort : l'IA sait produire une réponse. Elle apprend encore à savoir quand ne pas en produire. C'est là, précisément, que se joue la prochaine tranche de travail sérieux — pas dans les benchmarks de performance, mais dans les benchmarks d'honnêteté.

À surveiller

Sur les hallucinations de citations, surveillez les réactions des grandes revues scientifiques — Nature et Science n'ont pas encore pris de position formelle sur la vérification des bibliographies assistées par IA. Sur MedVIGIL, la question ouverte est de savoir si les éditeurs de logiciels médicaux (radiologie, pathologie) intégreront ce type d'audit dans leurs processus de certification. Sur la mémoire des agents, je serais curieux de voir si les résultats tiennent avec des équipes d'agents hétérogènes — c'est le prochain test naturel.

Pour aller plus loin

Merci de m'avoir lu — prenez soin de vérifier vos bibliographies. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe