DeepScience — Artificial Intelligence

DeepScience · Artificial Intelligence · Digest quotidien

L'IA cite, retient, comprend — mais vraiment ?

Trois études mesurent l'écart entre ce que l'IA semble faire et ce qu'elle fait réellement.

            May 10, 2026
          

279 papiers aujourd'hui — une journée dense. J'en ai sélectionné trois qui, mis côte à côte, racontent la même histoire sous des angles différents : l'IA médicale, les agents à mémoire, les outils de recherche. Dans chaque cas, la surface est convaincante. Le fond, moins. Allez, c'est parti.

Les histoires du jour

              01 / 03
            

L'IA regarde des vidéos chirurgicales et se trompe sur six questions sur dix

759 heures de chirurgies filmées, et le meilleur modèle disponible répond correctement à moins de la moitié des questions cliniques.

Imaginez que vous confiez à un stagiaire la tâche de regarder dix heures de vidéo chirurgicale, puis de répondre à des questions précises. Il faut repérer le bon geste, au bon moment, dans la bonne séquence. C'est exactement ce que les auteurs de MedHorizon ont demandé aux meilleurs modèles d'IA visuels disponibles — et le résultat est sobre. L'équipe a constitué un ensemble de 340 vidéos cliniques complètes représentant 759 heures de chirurgies et d'examens sur 7 organes différents. Ils ont construit 1 253 questions à choix multiples ancrées dans ces vidéos, vérifiées par des experts humains. Le meilleur modèle testé atteint 41,1 % de bonnes réponses. Le hasard pur, sur quatre choix, en donne 25 %. L'écart existe, mais il est mince. Ce qui aggrave le constat : donner plus d'images au modèle ne l'aide pas. En médecine, un moment diagnostique crucial — un tissu anormal qui apparaît deux secondes, un geste chirurgical décisif — représente en moyenne 0,166 % des images d'une procédure. Trois secondes sur une procédure de trente minutes. Les stratégies habituelles, qui consistent à piocher plus d'images, passent à côté de l'aiguille dans la botte de foin. Pourquoi ça compte : des dizaines d'équipes travaillent à intégrer l'IA dans les formations chirurgicales, les audits de qualité, l'assistance peropératoire. MedHorizon montre qu'on ne peut pas simplement brancher un modèle de vision généraliste sur des vidéos médicales et espérer que ça fonctionne. Le hic : MedHorizon est un benchmark — une mesure, pas un plafond. Il ne dit pas que l'IA ne progressera jamais sur ces tâches. Il donne enfin un terrain commun pour mesurer des progrès réels. C'est précieux, même quand le score est décevant.

Glossaire

modèle multimodal — Un système d'IA capable de traiter simultanément plusieurs types de données : texte, images, et dans ce cas, vidéo.

benchmark — Un jeu de tests standardisé qui permet de comparer les performances de différents systèmes sur une même tâche définie.

Source: MedHorizon: Towards Long-context Medical Video Understanding in the Wild

              02 / 03
            

Les agents IA oublient que le monde a changé — et agissent comme si non

Votre assistant IA se souvient que vous habitez Paris — mais vous avez déménagé à Lyon il y a trois mois et vous ne le lui avez jamais dit explicitement.

Pensez à quelqu'un qui note tout dans un carnet. Il écrit que votre réunion hebdomadaire est le mardi à 14h. Trois semaines plus tard, vous lui dites en passant que vous avez changé votre organisation — les réunions sont maintenant le jeudi. Il n'a pas mis à jour son carnet. La prochaine fois qu'il vous convoque, c'est pour mardi. C'est exactement le problème que les auteurs du benchmark STALE ont mis en évidence dans les agents IA à mémoire. Ces systèmes stockent des informations sur vous et votre contexte pour être plus utiles au fil du temps. Mais quand une nouvelle information invalide une ancienne — sans jamais dire explicitement « efface ce que tu savais » — les modèles ne font pas la mise à jour. Les chercheurs ont construit 400 scénarios de ce type, couvrant plus de 100 situations du quotidien, avec des contextes allant jusqu'à 150 000 tokens — l'équivalent de plusieurs romans. Résultat : les meilleurs modèles testés, y compris les plus avancés du marché, atteignent 55,2 % de précision en moyenne. Pour des tâches où la bonne réponse existe dans le contexte, c'est préoccupant. Pourquoi ça compte : les assistants IA à mémoire longue se déploient rapidement dans les outils professionnels — gestion de projet, support client, assistants personnels. Un agent qui agit sur des informations périmées sans s'en rendre compte peut générer des erreurs silencieuses difficiles à détecter. Le hic : STALE est lui aussi un benchmark de laboratoire. Les scénarios sont construits — le monde réel est parfois plus explicite dans ses mises à jour. Mais le problème des conflits implicites, lui, est bien réel et sous-estimé.

Glossaire

conflit implicite — Situation où une information nouvelle invalide une information ancienne stockée, sans jamais le dire directement — l'IA doit l'inférer par le contexte.

agent à mémoire — Un système d'IA capable de stocker des informations entre différentes conversations pour personnaliser son comportement dans le temps.

token — Unité de base que les modèles de langage traitent — environ 0,75 mot en français. 150 000 tokens représentent environ 110 000 mots.

Source: STALE: Can LLM Agents Know When Their Memories Are No Longer Valid?

              03 / 03
            

Les IA de recherche citent des vraies sources avec de fausses informations

Le lien fonctionne, l'article est pertinent, mais ce que l'IA en dit est faux — jusqu'à 61 % du temps.

Un rapport bien formaté avec des notes de bas de page numérotées inspire confiance. C'est précisément le problème que les auteurs de cette étude ont décidé de mesurer proprement. Leur protocole : évaluer 14 modèles d'IA — des grands noms commerciaux comme des modèles ouverts — sur leur capacité à citer des sources dans des rapports de recherche. Ils ont distingué trois niveaux de vérification. Premier niveau : est-ce que le lien fonctionne ? Deuxième niveau : est-ce que le contenu de la page est pertinent par rapport à la question posée ? Troisième niveau : est-ce que ce que l'IA affirme est réellement écrit dans la source citée ? Les deux premiers niveaux sont presque parfaits : les meilleurs modèles maintiennent des liens valides à plus de 94 % et une pertinence au-dessus de 80 %. Mais la précision factuelle — ce qui compte vraiment — s'effondre : entre 39 % et 77 % selon les modèles. Un rapport sur deux à trois peut contenir des affirmations factuellement incorrectes tout en citant des sources qui existent et qui paraissent crédibles. Ce qui aggrave le problème : plus l'IA fait de recherches — en multipliant ses appels à des outils de recherche — plus la précision factuelle chute. En passant de 2 à 150 recherches, la précision baisse en moyenne de 42 points. Chercher plus ne signifie pas comprendre mieux. Le hic : l'étude ne teste que la citation — pas la qualité du raisonnement global du rapport. Et les scores varient selon les domaines. Mais elle donne enfin un outil pour mesurer ce problème systématiquement, là où on s'en remettait souvent à l'intuition.

Glossaire

hallucination de citation — Phénomène où un modèle d'IA génère une référence bibliographique qui semble valide — lien fonctionnel, titre plausible — mais dont le contenu ne soutient pas ce qu'il affirme.

appel à un outil — Action par laquelle un agent IA déclenche une recherche web, une requête dans une base de données, ou toute autre opération externe pour trouver de l'information.

Source: Cited but Not Verified: Parsing and Evaluating Source Attribution in LLM Deep Research Agents

La vue d'ensemble

Trois papiers, trois angles différents, un même constat : il y a un écart systématique entre ce que l'IA semble faire et ce qu'elle fait réellement. L'IA médicale semble regarder une vidéo chirurgicale — elle en capte en fait une fraction infime et tire à pile ou face sur le reste. L'agent à mémoire semble se souvenir de votre contexte — il le fait, mais il ne sait pas quand l'oublier. L'outil de recherche semble citer ses sources — il le fait, mais les affirmations sont factuellement fausses près d'une fois sur deux. Ce n'est pas un argument pour abandonner ces outils. C'est un argument pour arrêter de les évaluer sur leur apparence. Ces trois études font un travail utile et ingrat : elles mesurent proprement ce qu'on aurait pu laisser flou. Et elles indiquent où il faut creuser : la précision dans les contextes longs, la mise à jour des croyances, la vérification factuelle à la source. Voilà où se joue la prochaine décennie.

À surveiller

Les conférences ACL et ICML de l'été 2025 devraient produire des papiers directement en réponse à ces benchmarks — notamment sur la gestion de la mémoire longue et la vérification factuelle en contexte de recherche. La question ouverte que j'aimerais voir traitée : est-ce qu'un modèle peut apprendre à savoir quand il ne sait pas — et le dire clairement, plutôt que de citer avec confiance une source qui ne soutient pas son propos ?

Pour aller plus loin

Merci de m'avoir lu — à demain. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe