DeepScience — Artificial Intelligence

DeepScience · Artificial Intelligence · Digest quotidien

L'IA voit, mais ne regarde pas vraiment.

Trois études montrent que les meilleurs modèles du moment excellent à paraître capables — et échouent là où ça compte vraiment.

            May 03, 2026
          

257 papiers disponibles aujourd'hui. J'en ai lu beaucoup trop pour vous. La journée n'était pas spectaculaire en termes de grandes découvertes — pas de percée soudaine — mais elle était dense en résultats qui méritent qu'on s'arrête. Trois histoires sur la même question centrale : est-ce que l'IA comprend vraiment ce qu'elle traite, ou est-elle très douée pour en donner l'impression ?

Les histoires du jour

              01 / 03
            

GPT-5 et Gemini ne savent pas pointer une lésion sur une échographie

Demandez au meilleur modèle d'IA du moment de pointer la tumeur sur une image médicale : il se trompe quatre fois sur cinq.

Imaginez un radiologue qui vous répond avec assurance « c'est une lésion suspecte au rein gauche » — mais qui, quand vous lui demandez de la montrer du doigt sur l'image, place son doigt n'importe où dans la salle. C'est à peu près ce que révèle une équipe de chercheurs qui a audité cinq grands modèles d'IA de pointe — Gemini 2.5 Pro, GPT-5, o3, GLM-4.5V, Qwen 2.5 VL — sur des images médicales réelles. Le test avait deux volets. D'abord, répondre à des questions cliniques classiques : quel organe, quelle pathologie, quelle catégorie ? Ensuite, localiser visuellement la zone concernée sur l'image — dessiner un cadre autour de la lésion. Sur ce deuxième volet, le meilleur modèle obtient un score de chevauchement de 0,23 sur 1. En clair : la zone désignée par l'IA ne couvre la vraie lésion qu'à 23 % en moyenne. C'est l'équivalent d'un chirurgien qui opère approximativement dans la bonne région du corps. Pire encore : quand on demande au modèle de d'abord localiser, puis de répondre à la question clinique, la précision des réponses baisse pour chacun des cinq modèles testés. Et les chercheurs ont repéré un autre angle inquiétant — une confusion régulière entre gauche et droite, ce qu'ils appellent « laterality confusion ». En chirurgie, c'est le type d'erreur qui finit en commission disciplinaire. Le hic : cette étude n'est pas un test de terrain dans un hôpital réel, mais une évaluation sur des bases de données standardisées. Les modèles n'étaient pas intégrés dans un workflow clinique. Ce qu'on mesure ici, c'est la compétence de base — et elle est déjà insuffisante. Un modèle fine-tuné sur ces mêmes données (Qwen 2.5 VL, 7 milliards de paramètres) monte à 85 % de précision sur les questions ouvertes. La voie existe. Elle demande encore du travail.

Glossaire

IoU (Intersection over Union) — Mesure de chevauchement entre deux zones : 1 signifie superposition parfaite, 0 signifie aucun chevauchement — ici, le score mesure si la boîte tracée par l'IA coïncide avec la vraie lésion.

VQA (Visual Question Answering) — Tâche où un modèle d'IA doit répondre à une question en s'appuyant sur une image.

fine-tuning — Entraînement supplémentaire d'un modèle déjà existant sur un jeu de données spécialisé, pour l'adapter à une tâche précise.

Source: Auditing Frontier Vision-Language Models for Trustworthy Medical VQA: Grounding Failures, Format Collapse, and Domain Adaptation

              02 / 03
            

Vos agents IA peuvent se planter silencieusement quand les données sont légèrement corrompues

Une erreur dans un tableau Excel peut faire rater votre agent IA — ou le faire ramer trois fois plus longtemps sans que vous le remarquiez.

Supposez que vous cuisinez en suivant une recette, mais que quelqu'un a modifié un ingrédient dans la liste — du sel au lieu du sucre. Deux scénarios possibles : soit vous ratez complètement le plat, soit vous le sauvez en improvisant, mais vous passez deux heures là où il en fallait une. Les deux sont problématiques. Le premier est visible. Le second est invisible jusqu'à ce que vous regardiez la facture. Une équipe de chercheurs a injecté des perturbations contrôlées dans des données réelles — des modifications dans des tableaux, des PDF, des images, des fichiers audio — puis a laissé tourner des systèmes multi-agents sur 614 exécutions complètes, avec trois modèles différents (GPT-5-mini, LLaMA-3.1-70B, Qwen3-235B), sur des tâches tirées du benchmark GAIA. Résultat : dans 40 % des cas, le système diverge fortement de son chemin normal mais arrive quand même à la bonne réponse — en consommant en médiane 1,5 fois plus de ressources. C'est la dérive silencieuse : vous ne voyez rien, mais vous payez plus. Dans 15 % des cas, c'est l'inverse : le comportement de l'agent semble normal en surface, mais la réponse finale est fausse. Ce dernier cas est le plus dangereux — il passe les garde-fous habituels sans les déclencher. Le hic, et il est important : cette étude utilise des tâches de benchmark bien définies, pas des workflows d'entreprise réels. Les perturbations sont aussi contrôlées et intentionnelles — dans la vraie vie, la corruption de données est souvent plus subtile et moins systématique. Mais le résultat de fond reste : surveiller uniquement le comportement apparent d'un agent ne suffit pas à détecter qu'il se trompe.

Glossaire

multi-agent — Système où plusieurs modèles d'IA collaborent, chacun prenant en charge une partie d'une tâche plus large.

benchmark GAIA — Ensemble de tâches réelles conçues pour évaluer les capacités des agents IA sur des problèmes concrets (navigation web, traitement de fichiers, calculs).

trace d'exécution — Enregistrement détaillé des étapes suivies par un agent — quels outils il a utilisés, dans quel ordre, et avec quels résultats intermédiaires.

Source: Trace-Level Analysis of Information Contamination in Multi-Agent Systems

              03 / 03
            

Les IA qui « lisent » des schémas électroniques ignorent en fait l'image

Donnez une image blanche à un modèle d'IA censé lire un schéma électronique : il produit quand même le bon code.

Voici une expérience mentale. Vous demandez à quelqu'un de retranscrire une partition musicale en notes. Il vous rend un résultat parfait. Mais quand vous remplacez la partition par une feuille vierge — il vous rend le même résultat. Il ne lisait pas la musique. Il se souvenait de la chanson parce que vous lui aviez dit le titre. C'est exactement ce que découvre une équipe de chercheurs qui a audité huit grands modèles multimodaux sur une tâche concrète : convertir un schéma de circuit électronique en code Verilog (le langage qui décrit comment un circuit se comporte). Sur le benchmark C2VEVAL, les modèles obtiennent de bons scores — jusqu'au moment où les chercheurs font une chose simple : remplacer l'image réelle par une image entièrement blanche. Les scores restent presque identiques pour les huit modèles. Les modèles ne regardaient pas le schéma. Ils exploitaient les noms des composants inscrits dans l'en-tête textuel de la tâche pour retrouver des templates mémorisés. Quand l'équipe anonymise ces noms — en remplaçant chaque identifiant par une position neutre — les performances s'effondrent. Seulement 8 à 9 % des cas montrent une vraie compréhension visuelle du schéma. Les chercheurs ont ensuite entraîné leur propre modèle, VeriGround (4 milliards de paramètres), avec des données anonymisées et un mécanisme de refus — le modèle apprend à dire « je n'ai pas assez d'information pour répondre ». Résultat : VeriGround dépasse GPT-4o et se rapproche de GPT-5.4 sur les tâches difficiles. Le hic : cette expérience porte sur un domaine très spécifique — la conception de circuits. Mais la leçon est probablement plus large : chaque fois qu'on évalue un modèle sur sa capacité à « voir », il faut vérifier qu'il ne contourne pas l'image par un raccourci textuel.

Glossaire

Verilog — Langage de description matérielle utilisé pour programmer des circuits électroniques — l'équivalent d'une partition pour un circuit.

modèle multimodal — Modèle d'IA capable de traiter à la fois du texte et des images dans la même interface.

template mémorisé — Ici, un schéma de code standard appris pendant l'entraînement, que le modèle reproduit quand il reconnaît un nom familier — sans analyser l'image.

Source: From Mirage to Grounding: Towards Reliable Multimodal Circuit-to-Verilog Code Generation

La vue d'ensemble

Trois histoires différentes, même diagnostic de fond : nos meilleurs modèles d'IA excellent à produire des réponses qui ressemblent à de la compréhension — et échouent dès qu'on teste la compréhension réelle. Les modèles médicaux répondent bien aux questions cliniques, mais ne voient pas vraiment l'image. Les agents multi-tâches continuent de produire des sorties plausibles même quand leurs données d'entrée sont corrompues. Et les modèles de vision industriels ignorent les schémas pour exploiter les métadonnées textuelles. Ce n'est pas une coïncidence. C'est une caractéristique structurelle de la façon dont ces systèmes sont entraînés et évalués : optimisés pour la bonne réponse finale, pas pour le bon chemin. Le problème n'est pas que l'IA est mauvaise. C'est que nos métriques habituelles ne voient pas où elle triche. La vraie question pour les semaines qui viennent n'est pas « quel modèle est le plus puissant » — c'est « comment construire des évaluations qui ne se laissent pas contourner ».

À surveiller

À surveiller : les conférences ACL et MICCAI de cet été devraient produire de nouveaux benchmarks d'évaluation médicale multimodale — probablement avec des protocoles de localisation plus stricts, directement influencés par ce type d'audit. Sur le plan des agents, la question ouverte que j'aimerais voir traitée : est-ce qu'un agent peut apprendre à signaler lui-même qu'il opère sur des données corrompues, avant de rendre une réponse fausse ?

Pour aller plus loin

Merci de m'avoir lu. À demain. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe