DeepScience — Artificial Intelligence

DeepScience · Artificial Intelligence · Digest quotidien

Les IA « voient » moins bien qu'elles ne le prétendent

Trois papiers du jour pour comprendre où l'IA bute encore : la vision, les rapports médicaux, et la sécurité du code de recherche.

            April 20, 2026
          

Journée dense aujourd'hui — 275 papiers disponibles, ce qui m'a pris un bon moment à trier. J'en ai gardé trois. Un résultat vraiment contre-intuitif sur la vision des IA, un système multi-agents qui joue à l'interne-chef de service en radiologie, et un benchmark qui pose une question inconfortable : peut-on faire confiance au code qui sous-tend la recherche en IA ? Allez c'est parti.

Les histoires du jour

              01 / 03
            

Montrer une image à une IA de vision... lui fait faire plus d'erreurs

Vous ajoutez une image à un problème de maths — et l'IA répond moins bien qu'avec le texte seul. Attendez, quoi ?

Une équipe de chercheurs a construit un benchmark appelé CROSSMATH : des grilles de puzzles mathématiques, présentées soit en texte pur, soit en image seule, soit en image et texte combinés. Le contenu est rigoureusement identique — des annotateurs humains l'ont vérifié pour chaque exemple. Résultat ? Les modèles dits « de vision » — ceux qu'on entraîne spécifiquement à lire des images — s'en sortent le mieux quand on leur donne uniquement du texte. Dès qu'on ajoute une image, les performances chutent. Et quand on ne donne que l'image, c'est encore pire. Pourquoi est-ce que ça compte ? Parce que ces modèles sont présentés comme capables de « voir et raisonner ». On les utilise déjà pour analyser des radios, des graphiques, des captures d'écran. Si leur raisonnement reste fondamentalement textuel et qu'ils peinent à extraire l'information d'une image, ça change beaucoup de choses sur ce qu'on peut leur confier. Imagez un musicien qui sait parfaitement lire une partition écrite, mais qui déchiffre difficilement la même mélodie en notation graphique — même mélodie, juste une autre forme. C'est un peu ce que montre CROSSMATH. Le hic : les chercheurs ont aussi montré qu'un entraînement ciblé sur des images peut largement combler l'écart — Qwen3.5-9B, un modèle de taille modeste, a significativement progressé après fine-tuning. Donc ce n'est pas une fatalité. Mais ça souligne que la plupart des modèles actuels n'ont tout simplement pas été assez exposés à raisonner dans l'espace visuel. Je simplifie un peu — les chiffres précis ne sont pas disponibles dans la version publiée du papier, mais la direction est claire et vérifiée sur 250 exemples contrôlés.

Glossaire

benchmark — Un ensemble de tests standardisés qui permettent de comparer les performances de différents modèles dans des conditions identiques.

fine-tuning — Entraînement supplémentaire d'un modèle déjà existant sur un jeu de données spécifique, pour améliorer ses performances sur une tâche précise.

modèle de vision (VLM) — Un modèle d'IA capable de traiter à la fois du texte et des images — Vision-Language Model en anglais.

Source: Do Vision-Language Models Truly Perform Vision Reasoning? A Rigorous Study of the Modality Gap

              02 / 03
            

Une IA joue à l'interne-chef de service pour rédiger vos comptes-rendus de scanner

Un scanner thoracique produit des centaines de coupes — et un radiologue qui écrit le compte-rendu peut se tromper, être fatigué, ou manquer un détail. Et si une IA structurée comme une équipe hospitalière pouvait l'assister ?

Le système s'appelle MARCH, pour Multi-Agent Radiology Clinical Hierarchy. L'idée est directe : reproduire la hiérarchie d'un service hospitalier avec des IA. Un premier agent joue le rôle de l'interne — il produit un brouillon du compte-rendu à partir du scanner. Des agents « chefs de clinique » révisent ce brouillon en allant chercher des cas similaires dans une base de données (c'est ce qu'on appelle la récupération augmentée — le modèle ne travaille pas de mémoire, il consulte). Enfin, des agents « praticiens seniors » — ici GPT-4.1 et GPT-4o — débattent jusqu'à consensus avant de valider le rapport final. L'équipe a évalué MARCH sur RadGenome-ChestCT, un jeu de données de 25 692 scanners thoraciques provenant de 21 304 patients. Le système affiche de meilleures performances que les approches concurrentes sur la fidélité clinique et la précision linguistique, selon les auteurs. Pourquoi ça compte : les erreurs dans les comptes-rendus radiologiques ont des conséquences concrètes — un cancer manqué, une pneumonie sous-estimée. Réduire les hallucinations — c'est-à-dire les affirmations inventées — dans des rapports médicaux automatiques est un vrai enjeu de sécurité, pas un exercice académique. Le hic, et il est important : le papier est tronqué avant la section des résultats. Les chiffres précis — scores BLEU, F1 clinique — ne sont pas disponibles dans la version que nous avons analysée. L'annonce est prometteuse, la méthode est rigoureuse sur le papier, mais il faudra la version complète pour juger vraiment. Gardez un œil sur ça.

Glossaire

hallucination (IA) — Quand un modèle d'IA génère une information fausse mais présentée avec confiance — comme inventer un résultat médical qui n'est pas dans le scanner.

récupération augmentée (RAG) — Technique où le modèle consulte une base de documents réels au moment de répondre, plutôt que de s'appuyer uniquement sur sa mémoire d'entraînement.

fidélité clinique — Mesure dans quelle mesure un rapport médical généré automatiquement correspond aux informations réellement présentes dans les images médicales.

Source: MARCH: Multi-Agent Radiology Clinical Hierarchy for CT Report Generation

              03 / 03
            

Peut-on détecter un sabotage caché dans le code d'un papier de recherche en IA ?

Quelqu'un modifie discrètement le code d'une expérience de recherche pour que les résultats semblent meilleurs qu'ils ne le sont. Une IA peut-elle le détecter ?

C'est la question que pose ASMR-Bench, un benchmark construit par une équipe qui a pris 9 bases de code issues de vrais papiers de recherche en machine learning et y a glissé des sabotages subtils — des modifications qui ne changent pas la structure générale du code mais retournent les conclusions de l'expérience. Pas un bug grossier : une petite altération qui fait dire au papier le contraire de ce que les données montrent vraiment. Ensuite, ils ont demandé à des IA de jouer les auditeurs. Mission : détecter si le code a été modifié, et si oui, trouver où. Résultat ? Le meilleur auditeur testé, Gemini 3.1 Pro, atteint un score AUROC de 0,77 — ce qui signifie qu'il distingue correctement les codes sabotés des codes propres dans environ 77 % des cas. Pas catastrophique, mais loin d'être fiable. Et il identifie correctement la faille spécifique dans seulement 42 % des cas en premier essai. Pourquoi est-ce que ça nous concerne ? Parce que de plus en plus de code de recherche en IA est écrit avec l'aide d'IA. Si les mêmes outils ne savent pas détecter des manipulations subtiles, ça crée un angle mort réel dans la chaîne de validation scientifique. Ce n'est pas de la science-fiction : le scénario est plausible dès aujourd'hui. Le hic : les sabotages ont tous été créés par un seul attaquant humain — le premier auteur du papier. Ce n'est que 11 variantes sur 9 codebases. C'est un début, pas une preuve généralisable. Mais c'est le genre de question qu'il vaut mieux poser maintenant.

Glossaire

AUROC — Une mesure de la capacité d'un modèle à distinguer deux catégories (ici : code sabotage ou non). Un score de 1.0 serait parfait, 0.5 équivaut à tirer à pile ou face.

codebase — L'ensemble du code source d'un projet ou d'une expérience — tout ce qu'il faut pour reproduire les résultats d'un papier.

auditeur (IA) — Dans ce contexte, un modèle d'IA auquel on soumet un papier et son code pour qu'il détecte d'éventuelles incohérences ou manipulations.

Source: ASMR-Bench: Auditing for Sabotage in ML Research

La vue d'ensemble

Ces trois papiers ne parlent pas du même sujet, mais ils convergent vers la même mise en garde : l'IA avance, et en avançant elle révèle ses angles morts. Les modèles de vision ne voient pas vraiment — ils raisonnent en texte et peinent à extraire l'information d'une image. C'est un problème fondamental que les chercheurs commencent seulement à mesurer proprement. MARCH tente de compenser ce type de fragilité en empilant plusieurs agents qui se contrôlent mutuellement — une approche sensée, mais dont on attend encore les vrais chiffres. Et ASMR-Bench soulève quelque chose d'inconfortable : si nos meilleurs modèles ne savent pas détecter un sabotage dans du code de recherche, qui surveille les surveillants ? Ce n'est pas du pessimisme. C'est exactement ce que la recherche honnête est censée faire : nommer les limites avant qu'elles deviennent des problèmes dans le monde réel. Ces trois équipes ont eu le courage de poser des questions gênantes. C'est rassurant, en fait.

À surveiller

À surveiller dans les prochaines semaines : la version complète de MARCH avec ses résultats chiffrés — si les scores F1 cliniques confirment les annonces, ça devient une référence sérieuse pour la radiologie assistée. Plus largement, la conférence CVPR 2025 (mi-juin) sera un bon moment pour voir si la communauté vision prend au sérieux la question du « modality gap » que CrossMath vient de mettre en lumière. Et si vous suivez la sécurité de l'IA, regardez si d'autres équipes reproduisent les résultats d'ASMR-Bench avec plus de codebases — 11 exemples, c'est trop peu pour généraliser.

Pour aller plus loin

Merci de m'avoir lu — à demain. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe