DeepScience — Artificial Intelligence

DeepScience · Artificial Intelligence · Digest quotidien

Une seule fausse page web trompe tous les grands modèles.

Trois études de ce dimanche posent la même question inconfortable : peut-on vraiment faire confiance à ce que l'IA vous dit ?

            June 14, 2026
          

J'ai passé ma matinée à parcourir 292 papiers pour vous épargner ce travail — et un fil rouge s'est imposé tout seul. Trois équipes très différentes, sur trois sujets très différents, arrivent au même endroit : nos meilleurs modèles restent étonnamment faciles à induire en erreur. Pas de catastrophisme ici, mais des chiffres concrets qui méritent qu'on s'y arrête.

Les histoires du jour

              01 / 03
            

Un seul résultat truqué suffit à manipuler vos recommandations d'achat.

Imaginez qu'un vendeur glisse un faux produit dans le rayon avant que vous arriviez — l'IA ne voit pas la différence.

Une équipe de chercheurs a construit un test qu'ils appellent FORGE : ils ont pris 225 produits réels dans 15 catégories, puis ils ont modifié discrètement les pages web que les assistants IA consultent pour vous conseiller. Pas de piratage spectaculaire : juste remplacer « Samsung » par une marque inventée dans un paragraphe de description. Résultat ? Sur les 12 modèles testés — commerciaux et open-source, sans exception — une seule page falsifiée suffit à faire recommander le faux produit dans jusqu'à 27 % des cas. Quand les trois premiers résultats de recherche sont tous trafiqués, ce taux monte à 73,8 %. C'est l'équivalent d'une recette de cuisine : si votre livre dit « ajoutez une pincée de sel » mais que quelqu'un a remplacé « sel » par « sucre » dans votre exemplaire, vous faites confiance au livre. L'IA, elle aussi, fait confiance à ce qu'elle lit. Ce qui rend le résultat particulièrement inconfortable, c'est la réponse intuitive qu'on aurait envie de donner : « il suffit de rendre le modèle plus sceptique. » Les chercheurs ont essayé. Ça empire les choses. Sur les modèles à code source fermé, une instruction demandant plus de prudence augmente le taux de manipulation de 24 points en moyenne — et de 44 points sur Gemini 3.1 Pro. Le modèle sur-compensait en cherchant confirmation là où il n'y avait que du faux. Le hic, c'est que cette étude mesure une vulnérabilité, pas une solution. Les défenses testées — filtres de consensus, instructions de prudence — échouent toutes, parfois en supprimant les vraies recommandations légitimes. La question de comment protéger ces systèmes reste ouverte.

Glossaire

open-source (ou open-weight) — Un modèle dont les paramètres sont publiquement accessibles, par opposition aux modèles commerciaux dont le fonctionnement interne reste propriétaire.

RAG (Retrieval-Augmented Generation) — Technique qui consiste à donner au modèle l'accès à des sources externes — pages web, bases de données — au moment où il répond, plutôt que de tout stocker dans sa mémoire d'entraînement.

Source: One Polluted Page Is Enough: Evaluating Web Content Pollution in Generative Recommenders

              02 / 03
            

En radiologie, les IA inventent parfois des anomalies qui n'existent pas.

Un radiologue qui inventerait une fracture inexistante perdrait sa licence — une IA qui fait pareil reçoit encore des financements.

Des chercheurs ont passé en revue la littérature existante sur les hallucinations — c'est-à-dire les inventions — des IA appliquées à l'imagerie médicale : radios, IRM, scanners, échographies, endoscopies. Ce qu'ils ont trouvé est cliniquement concret : ces systèmes peuvent fabriquer des structures anatomiques qui n'existent pas, manquer des lésions réelles, confondre le côté gauche et le côté droit, ou inventer des mesures précises. Pensez à un traducteur qui, ne comprenant pas un mot, invente quelque chose de plausible plutôt qu'avouant son ignorance. Les IA médicales font parfois exactement ça : elles produisent une réponse qui sonne juste, dans le bon vocabulaire, avec la bonne structure — mais qui est fausse. Le résultat le plus contre-intuitif de cette synthèse : les modèles généralistes s'en sortent mieux que les modèles spécialisés en médecine sur les benchmarks d'hallucination. 76,6 % de réponses sans hallucination pour les généralistes, contre 51,3 % pour les spécialisés (p = 0,012). L'explication probable : quand on affine un modèle sur un domaine étroit, il apprend à « sur-coller » aux patterns médicaux, et peut confabule là où un généraliste avouerait son incertitude. Bonne nouvelle : le recours au raisonnement pas-à-pas — demander au modèle d'expliquer son cheminement avant de conclure — réduit les hallucinations de 86,4 % dans les études analysées. Le hic : cette revue est narrative, pas systématique. Les auteurs le disent eux-mêmes : la littérature est trop hétérogène pour en tirer des méta-analyses robustes. Ces chiffres sont des signaux, pas des certitudes.

Glossaire

Hallucination (IA) — Quand un modèle génère une information fausse mais présentée avec la même assurance qu'une vraie — il invente plutôt qu'avouer son ignorance.

Fine-tuning (affinage) — Processus qui consiste à reprendre un modèle généraliste et à le ré-entraîner sur des données spécialisées pour l'adapter à un domaine précis.

Raisonnement pas-à-pas (Chain-of-Thought) — Technique qui consiste à demander au modèle de détailler son raisonnement intermédiaire avant de donner une réponse finale, ce qui réduit les erreurs.

Source: Hallucination in Medical Imaging AI: A Cross-Modality Analytical Framework for Taxonomy, Detection, and Mitigation under Regulatory Constraints

              03 / 03
            

Même avec accès au web, les meilleurs modèles trouvent moins d'une réponse sur deux.

On croyait que donner accès à internet résolvait le problème de la connaissance — un nouveau test montre que c'est plus compliqué.

Quand on évalue un modèle de langage sur un benchmark — un ensemble de questions-réponses standardisées —, il y a un problème sournois : le modèle a peut-être déjà vu les réponses pendant son entraînement. Comme un élève qui aurait eu le corrigé à l'avance, il peut obtenir un bon score sans réellement comprendre. Une équipe de chercheurs a construit EvoBrowseComp pour contourner ce problème. L'idée : poser 800 questions uniquement sur des événements survenus après janvier 2026, avec des réponses vérifiables uniquement via une recherche web active. Impossible de tricher avec la mémoire. Trois agents automatisés construisent les questions : un cherche sur le web en temps réel, un filtre les sources peu fiables, un troisième vérifie qu'il n'y a pas de raccourci logique évident. C'est comme envoyer quelqu'un chercher l'horaire d'un train en partant du principe qu'il n'a pas accès à sa mémoire — il doit vraiment aller chercher l'information. Les résultats sont sobres. Claude Opus 4.6, actuellement l'un des meilleurs modèles disponibles, atteint 44,8 % de bonnes réponses quand il peut utiliser des outils de recherche web. Sans ces outils, il tombe à 6 %. Le même écart — de l'ordre de 40 points — se retrouve sur tous les modèles testés. Ce n'est pas un échec : ça confirme que la recherche active aide vraiment. Mais 44,8 %, c'est loin d'un assistant qu'on peut croire sur parole. Le hic : 800 questions, c'est un échantillon limité. Et la difficulté des questions est calibrée volontairement haute — ce n'est pas représentatif de l'usage quotidien. Je simplifie, et les auteurs ne prétendent pas le contraire.

Glossaire

Benchmark — Un ensemble standardisé de questions ou de tâches qui permet de comparer les performances de différents modèles sur une base commune.

Mémorisation paramétrique — Le fait qu'un modèle « sache » quelque chose parce qu'il l'a vu pendant son entraînement, plutôt que parce qu'il l'a cherché activement.

Agent (IA) — Un système d'IA capable d'effectuer des actions — chercher sur le web, exécuter du code, appeler des outils — pour accomplir une tâche, plutôt que de simplement répondre à une question.

Source: EvoBrowseComp: Benchmarking Search Agents on Evolving Knowledge

La vue d'ensemble

Ces trois papiers ne parlent pas de la même chose — l'un traite de recommandations commerciales, l'autre d'imagerie médicale, le troisième de recherche web. Mais ils convergent vers un diagnostic commun : nous avons construit des systèmes remarquablement fluents, et cette fluidité masque leur incertitude. Ce qui me frappe, c'est que les solutions naïves échouent toutes les trois. Rendre le modèle plus sceptique aggrave la manipulation. Spécialiser le modèle en médecine augmente les hallucinations. Donner accès au web double ou triple les performances, mais on reste sous la barre des 50 % sur les tâches difficiles. Ce n'est pas une raison de jeter le bébé avec l'eau du bain. Ces travaux existent précisément parce que des équipes cherchent à comprendre et corriger ces limites. Mais ils nous rappellent quelque chose d'important : la confiance dans ces systèmes doit se gagner cas d'usage par cas d'usage, pas être accordée en bloc. Nous n'en sommes pas encore là.

À surveiller

Côté médical, le débat sur la certification des IA d'imagerie avance en ce moment à la FDA et à l'EMA — les prochains mois devraient produire des orientations plus précises sur la tolérance aux hallucinations dans les dispositifs médicaux. Côté manipulation web, la question que j'aimerais voir traitée : est-ce qu'un modèle entraîné à détecter activement les insertions malveillantes s'en sort mieux ? Je n'ai pas vu de papier convaincant là-dessus encore.

Pour aller plus loin

Merci de m'avoir lu — à demain. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe