DeepScience — Artificial Intelligence

DeepScience · Artificial Intelligence · Digest quotidien

Quand l'IA se trompe, se méfie, ou invente.

Trois papiers pour comprendre pourquoi les IA font des erreurs — et pourquoi les corriger est plus compliqué qu'il n'y paraît.

            June 12, 2026
          

Bonne journée. 297 papiers disponibles aujourd'hui — c'est beaucoup pour une seule semaine de juin. J'en ai retenu trois qui parlent tous du même problème sous des angles différents : les IA commettent des erreurs, et les solutions qu'on tente pour les corriger créent parfois de nouveaux problèmes. Allez c'est parti.

Les histoires du jour

              01 / 03
            

Une seule fausse page web suffit à tromper les IA de recommandation.

Une seule fiche produit falsifiée dans les résultats de recherche — et l'IA vous recommande un article qui n'existe pas.

Imaginez un restaurateur concurrent qui glisse un faux menu dans la vitrine de votre restaurant. Un client passe, lit, entre et commande un plat qui n'est pas le vôtre. C'est exactement ce que les auteurs de ce papier ont simulé sur des assistants IA capables de fouiller le web pour vous conseiller un achat. L'équipe a construit un outil de test baptisé FORGE : 225 vrais produits, 15 catégories (smartphones, vêtements, restaurants…), cinq situations d'achat courantes. Pour chaque produit réel, ils ont injecté une fausse fiche dans les pages web récupérées par le moteur — sans jamais toucher au vrai web. Puis ils ont demandé à douze grands modèles de langage, commerciaux et open-source, de recommander le meilleur produit. Le résultat est inquiétant : une seule page truquée suffit à tromper les modèles dans 2 % à 27 % des cas, selon le modèle. Si les trois premiers résultats de recherche sont tous falsifiés, le taux de manipulation grimpe jusqu'à 73,8 % pour les modèles les plus vulnérables. Pourquoi ça compte : de plus en plus d'assistants IA utilisent ce type d'architecture — ils récupèrent des pages web, les synthétisent, puis recommandent. Si n'importe qui peut polluer une seule page pour détourner ces recommandations, c'est une attaque peu coûteuse et difficile à détecter. Le hic : les défenses testées ne fonctionnent pas bien. Demander au modèle d'être « méfiant » aggrave les choses pour certains — notamment Gemini 3.1 Pro, dont le taux d'erreur a bondi de 44 points. Les filtres par consensus, eux, fonctionnent en sacrifiant trop de vraies recommandations. L'étude est principalement en chinois avec une réplication anglophone — les résultats sont probablement transposables, mais pas garantis pour tous les marchés.

Glossaire

modèle de langage — Un programme entraîné sur de grandes quantités de texte pour comprendre et produire du langage naturel — c'est le moteur de ChatGPT, Claude, Gemini et leurs équivalents.

architecture RAG — Retrieval-Augmented Generation : une façon de brancher un modèle de langage sur une recherche web en temps réel, pour qu'il réponde avec des informations fraîches plutôt que de se fier uniquement à ce qu'il a mémorisé.

Source: One Polluted Page Is Enough: Evaluating Web Content Pollution in Generative Recommenders

              02 / 03
            

L'IA médicale hallucine des fractures — et les modèles spécialisés sont pires.

Un scanner montre une fracture qui n'existe pas — et c'est le modèle spécialement entraîné pour la médecine qui l'a inventée.

Pensez à un assistant qui prépare vos dossiers administratifs. S'il est trop spécialisé sur un seul formulaire, il commence à remplir les cases avec des informations plausibles mais inventées — parce qu'il a appris à imiter la forme sans vérifier le fond. C'est, en simplifiant, ce que révèle cette revue de littérature sur les IA d'imagerie médicale. Les auteurs ont passé en revue des études portant sur cinq types d'imagerie — scanner, IRM, TEP, échographie, anatomopathologie numérique — et ont cartographié les façons dont les IA médicales « hallucinent » : structures anatomiques inventées, latéralité inversée (gauche/droite confondues), mesures fabriquées, anomalies manquées. La découverte la plus contre-intuitive : les modèles généralistes — ceux qui n'ont pas été spécifiquement entraînés sur des images médicales — obtiennent un taux de réponses sans hallucination de 76,6 %, contre seulement 51,3 % pour les modèles médicaux spécialisés. Je simplifie, et les chiffres sont issus d'une synthèse narrative (pas d'une méta-analyse rigoureuse), mais la direction est claire : surspécialiser un modèle peut le rendre confiant là où il devrait être prudent. Une technique appelée chaîne de pensée — demander au modèle de raisonner étape par étape avant de répondre — réduit les hallucinations jusqu'à 86 % dans certains contextes. Mais « certains contextes » est le mot-clé. Le hic : ce papier est une revue narrative, pas une méta-analyse. Les auteurs le disent eux-mêmes. Certains chiffres cités sont accompagnés de p-values dont on ne sait pas très bien comment elles ont été calculées sur des données aussi hétérogènes. À lire comme une carte du terrain, pas comme un verdict définitif.

Glossaire

hallucination (en IA) — Quand un modèle produit une information présentée avec assurance mais factuellement fausse ou inventée.

chaîne de pensée (chain-of-thought) — Une technique qui consiste à demander au modèle de décomposer son raisonnement en étapes intermédiaires avant de donner une réponse finale — ce qui réduit certains types d'erreurs.

revue narrative — Une synthèse de la littérature scientifique existante, sans protocole de sélection formel des études — à distinguer d'une méta-analyse, plus rigoureuse.

Source: Hallucination in Medical Imaging AI: A Cross-Modality Analytical Framework for Taxonomy, Detection, and Mitigation under Regulatory Constraints

              03 / 03
            

Demander à une IA de vérifier son propre dessin la fait régresser de 30 points.

Corriger ses erreurs en se regardant travailler — ça marche pour les humains, mais pour une IA, ça peut être catastrophique.

Quand vous faites un croquis, vous pouvez regarder ce que vous avez tracé et corriger. C'est naturel. Les chercheurs de cette équipe ont essayé d'apprendre la même chose à un modèle IA capable de comprendre des images : identifier un objet dans une photo, dessiner un cadre autour, regarder ce qu'il a tracé, et se corriger. Le premier résultat a été une catastrophe. En demandant simplement au modèle de répéter l'opération en regardant ses propres tracés précédents, les performances se sont effondrées de 79,6 % à 48,7 % de précision — une chute de 31 points. Le modèle ne se corrigeait pas : il se perdait dans ses propres erreurs, comme quelqu'un qui rature une carte au stylo jusqu'à la rendre illisible. Mais voilà la partie intéressante : l'équipe a montré que l'auto-correction visuelle est une capacité qui s'apprend. En entraînant le modèle sur seulement 2 400 exemples — un volume très modeste — avec un professeur qui lui montrait comment raisonner sur ses propres erreurs, le modèle a non seulement récupéré ses niveaux de départ, mais les a dépassés légèrement (+2 à 3 points selon la difficulté). Et tout ça sur un seul GPU. Pourquoi ça compte : la capacité à se corriger soi-même est centrale pour des IA qu'on voudrait utiliser de façon autonome — en robotique, en analyse d'image médicale, en navigation. Montrer qu'on peut l'enseigner efficacement, à faible coût, est un pas concret. Le hic : les tests ont été faits sur 505 images seulement, avec un modèle de taille modeste (4 milliards de paramètres). Et les gains, bien que réels, sont modestes. Un petit pas, mais un vrai.

Glossaire

modèle vision-langage (VLM) — Un modèle IA capable de traiter à la fois des images et du texte — il peut décrire une photo, répondre à des questions sur une image, ou localiser des objets visuellement.

bounding box — Le rectangle que l'IA trace autour d'un objet dans une image pour indiquer où il se trouve — c'est la forme de réponse évaluée dans cette étude.

GRPO — Une technique d'apprentissage par renforcement qui permet au modèle d'apprendre à partir de ses propres tentatives, en comparant différentes réponses possibles et en favorisant les meilleures.

Source: Iterative Visual Thinking: Teaching Vision-Language Models Spatial Self-Correction through Visual Feedback

La vue d'ensemble

Regardez ces trois histoires ensemble, et vous voyez le même nœud sous trois formes différentes : les IA font des erreurs qu'elles ne détectent pas, et les solutions évidentes — spécialiser davantage, rendre le modèle méfiant, lui demander de se corriger — peuvent toutes, dans certaines conditions, aggraver les choses plutôt que les améliorer. Ce n'est pas une raison de jeter l'IA avec l'eau du bain. C'est une raison de prendre au sérieux la question de l'évaluation. La bonne nouvelle du digest d'aujourd'hui, c'est que des équipes construisent des outils de test rigoureux — FORGE pour les recommandeurs, Med-HallMark pour l'imagerie, IVT-Bench pour la correction visuelle. Avant de savoir comment corriger un problème, il faut savoir le mesurer honnêtement. C'est moins spectaculaire qu'une percée, mais c'est ce qui permet de progresser sans se raconter des histoires.

À surveiller

Le papier sur la pollution web (FORGE) pose une question ouverte urgente : peut-on concevoir des architectures de recommandation résistantes à ce type d'attaque sans sacrifier la qualité des réponses légitimes ? Aucune des défenses testées ne tient la route pour l'instant. À suivre aussi : les régulateurs américains (FDA) et européens ont des calendriers d'encadrement de l'IA médicale en cours — les conclusions sur la surspécialisation des modèles d'imagerie risquent d'alimenter ce débat plus tôt qu'on ne le pense.

Pour aller plus loin

Merci de m'avoir lu — à demain. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe