DeepScience — Artificial Intelligence

DeepScience · Artificial Intelligence · Digest quotidien

Les IA se font manipuler, hallucinent, et s'effondrent sans filet.

Trois études qui montrent pourquoi faire confiance à un modèle d'IA sans comprendre ses limites est une mauvaise idée.

            June 13, 2026
          

Bonne journée — dense, honnête, et un peu inquiétante. Trois papiers ont retenu mon attention aujourd'hui, pas parce qu'ils annoncent des percées, mais parce qu'ils décrivent avec précision là où les modèles d'IA flanchent. Ce sont exactement les sujets dont on parle trop rarement. Je vous propose trois histoires.

Les histoires du jour

              01 / 03
            

Une seule fausse page web suffit à piéger un modèle d'IA.

Vous demandez à un assistant IA de vous recommander un produit — et il vous cite avec assurance une marque qui n'existe pas.

Imaginez un ami qui prépare vos conseils d'achat en lisant trois articles trouvés sur le web. Maintenant imaginez que l'un de ces articles a été subtilement falsifié par quelqu'un qui veut vous vendre quelque chose. C'est exactement ce que des chercheurs ont simulé avec le benchmark FORGE — et les résultats méritent qu'on s'y arrête. L'équipe a testé 12 modèles, commerciaux et open-source, en leur soumettant des pages de résultats de recherche où un faux produit ou une fausse marque avait été discrètement inséré. Résultat : avec une seule page falsifiée, certains modèles recommandaient la marque inventée dans 27 % des cas. Avec trois pages falsifiées, les modèles les plus vulnérables grimpaient à 73,8 %. Le chiffre qui surprend le plus, c'est celui-ci : dire au modèle « sois sceptique vis-à-vis des sources » empire les choses. Pour Gemini 3.1 Pro, ce conseil de prudence augmentait le taux d'erreur de 44 points de pourcentage. Pourquoi ? Probablement parce que le modèle, mis en garde, surcompense et cherche à démontrer son ouverture d'esprit — il accorde alors encore plus de poids aux informations nouvelles, y compris les fausses. Le hic — et c'est important : cette étude porte sur des recommandations de produits, pas sur tous les usages. Et les défenses testées (filtrage par consensus, prompts de scepticisme) réduisent les attaques seulement en étouffant aussi 52 à 79 % des recommandations légitimes. Autrement dit, il n'existe pas encore de solution propre. Ce que ça confirme, surtout, c'est que ces modèles héritent directement des biais — et des manipulations — du web qu'ils consultent.

Glossaire

benchmark — Un ensemble de tests standardisés pour mesurer et comparer les performances d'un modèle sur des tâches précises.

open-source — Un modèle dont le code source et parfois les paramètres sont rendus publics, permettant à n'importe qui de le télécharger et l'utiliser.

prompts de scepticisme — Des instructions ajoutées à la question posée au modèle pour lui demander d'évaluer la fiabilité des sources avant de répondre.

Source: One Polluted Page Is Enough: Evaluating Web Content Pollution in Generative Recommenders

              02 / 03
            

Les IA spécialisées en imagerie médicale hallucinent plus que les généralistes.

Le modèle d'IA entraîné spécifiquement sur des radios pulmonaires fait plus d'erreurs que le modèle généraliste — et ce n'est pas un bug, c'est une conséquence directe de la façon dont on l'a formé.

Dans l'imagerie médicale, une hallucination n'est pas une bizarrerie amusante. C'est un modèle qui décrit une fracture absente, indique le mauvais côté du corps, ou invente une mesure. Une revue de littérature publiée sur arxiv synthétise l'état des connaissances sur ce problème, et elle contient un résultat contre-intuitif que je n'ai pas vu venir. Pensez à un cuisinier formé uniquement pour faire des crêpes. Il les réussit parfaitement — mais si vous lui demandez de faire une omelette, il est perdu. Il a tellement optimisé sa gestuelle pour la crêpe qu'il a perdu la flexibilité de base. Les modèles d'IA médicale, c'est pareil. Les auteurs de cette revue rapportent que les modèles généralistes — ceux entraînés sur un immense éventail de données — obtiennent un taux médian d'hallucinations sous contrôle de 76,6 %, contre 51,3 % pour les modèles spécialisés en imagerie médicale. L'écart est statistiquement significatif (p = 0,012). Le surapprentissage sur un domaine étroit semble induire ce que les auteurs appellent une « confabulation par surajustement » — le modèle comble les lacunes avec ce qu'il a trop souvent vu. Le hic honnête : il s'agit d'une revue narrative, pas d'une étude expérimentale originale. Les auteurs agrègent des résultats de benchmarks existants, qui ne sont pas toujours comparables entre eux. Je simplifie. Et le chiffre sur le prompt « chaîne de pensée » — jusqu'à 86,4 % de réduction des hallucinations — varie énormément selon les études citées. Ce que ça ne dit pas : que les modèles généralistes sont prêts pour la clinique. Ça dit que spécialiser trop vite, sans données suffisantes, peut être contre-productif.

Glossaire

hallucination (IA) — Quand un modèle génère des informations fausses mais présentées avec assurance, comme si elles étaient vraies.

benchmark — Un ensemble de tests standardisés pour mesurer et comparer les performances d'un modèle.

surajustement (overfitting) — Quand un modèle s'adapte trop précisément aux données sur lesquelles il a été entraîné et perd sa capacité à généraliser à de nouvelles situations.

chaîne de pensée (chain-of-thought) — Une technique qui demande au modèle de décomposer son raisonnement étape par étape avant de donner une réponse finale.

Source: Hallucination in Medical Imaging AI: A Cross-Modality Analytical Framework for Taxonomy, Detection, and Mitigation under Regulatory Constraints

              03 / 03
            

Sans accès au web, les meilleurs modèles s'effondrent à 6 % de réussite.

Retirez ses outils de recherche à Claude Opus, et son score chute de 45 % à 6 % — soit la performance d'un moteur de recherche des années 90.

Voici une question qui devrait inquiéter quiconque pense que les grands modèles de langage « savent des choses » : que se passe-t-il quand on leur retire l'accès au web ? L'équipe derrière EvoBrowseComp a construit un benchmark de 800 questions — 400 en anglais, 400 en chinois — conçu pour résister à la mémorisation. Chaque question est générée automatiquement à partir de données fraîches sur le web, et le benchmark se met à jour régulièrement pour éviter que les modèles n'y aient été exposés pendant leur entraînement. Pensez à un examen dont les sujets changent chaque semaine : impossible de bachoter. Résultat : Claude Opus 4.6, l'un des modèles les plus performants actuellement disponibles, obtient 44,8 % de bonnes réponses quand il dispose d'outils de recherche web. Retirez-lui ces outils, et il tombe à 6 %. Une chute de presque 39 points. Les autres modèles testés suivent la même courbe — aucun ne dépasse 11 % sans accès à des outils. Ce que ça révèle, c'est que la compétence perçue de ces modèles repose en grande partie sur leur capacité à chercher en temps réel — pas sur une connaissance mémorisée fiable. Comme un bon étudiant qui sait parfaitement utiliser une bibliothèque, mais qui serait beaucoup moins à l'aise les mains dans le dos. Le hic : 44,8 % avec les outils, c'est déjà loin de la perfection. Les questions restent difficiles. Et cette étude porte sur un type précis de tâches — la recherche d'informations factuelles récentes. Elle ne dit rien sur ce que les modèles font bien par ailleurs. Mais elle invite à une prudence saine : un modèle déconnecté est un modèle à moitié aveugle.

Glossaire

benchmark — Un ensemble de tests standardisés pour mesurer et comparer les performances d'un modèle.

contamination des données (data contamination) — Quand les questions d'un test d'évaluation ont déjà été vues par le modèle pendant son entraînement, faussant ainsi ses résultats.

modèle de langage (LLM) — Un programme d'IA entraîné sur d'immenses quantités de texte pour prédire et générer du langage naturel.

Source: EvoBrowseComp: Benchmarking Search Agents on Evolving Knowledge

La vue d'ensemble

Trois études, trois angles différents — et pourtant elles racontent la même chose. Les modèles d'IA actuels sont plus fragiles, plus manipulables, et plus dépendants de leur environnement qu'on ne le présente souvent. Ils se laissent piéger par une seule page falsifiée. Ils hallucinent davantage quand on les spécialise trop vite. Et ils s'effondrent dès qu'on leur retire l'accès aux données fraîches. Ce n'est pas une raison de jeter le bébé avec l'eau du bain. Ces outils font des choses remarquables dans des conditions maîtrisées. Mais ces trois papiers posent collectivement une question que l'industrie évite souvent : à qui incombe la responsabilité de connaître ces limites — aux chercheurs, aux entreprises qui déploient ces systèmes, ou aux utilisateurs ? Soyons honnêtes : aujourd'hui, c'est surtout l'utilisateur qui trinque quand quelque chose se passe mal. Et la majorité des utilisateurs ne savent pas qu'un assistant IA peut recommander un produit fantôme avec la même assurance qu'un vrai.

À surveiller

À surveiller dans les prochaines semaines : les premières réglementations concrètes de l'EU AI Act sur les systèmes à haut risque en médecine entrent progressivement en vigueur — les résultats sur les hallucinations en imagerie vont devenir un argument central dans les dossiers de conformité. Je serais aussi curieux de voir si des équipes publient des contre-mesures robustes à la pollution web des LLMs : pour l'instant, aucune défense testée dans le papier FORGE ne tient vraiment la route.

Pour aller plus loin

Merci de m'avoir lu — prenez soin de vérifier vos sources, même quand c'est une machine qui vous les donne. À demain. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe