DeepScience — Artificial Intelligence

DeepScience · Artificial Intelligence · Digest quotidien

Les IA décident trop vite et lisent mal les images

Parce que comprendre où l'IA déraille, c'est le début de la corriger — et certains y arrivent déjà.

            April 18, 2026
          

Trois papiers aujourd'hui, et honnêtement une belle cohérence entre eux. L'un montre qu'une IA peut lire un scanner pulmonaire avec une rigueur nouvelle ; les deux autres expliquent pourquoi, sans contrainte, les modèles se plantent de manière très prévisible. Je vous propose de lire les trois dans cet ordre — ça forme un argument.

Les histoires du jour

              01 / 03
            

Un agent IA lit les scanners pulmonaires mieux qu'avant

Imaginez un radiologue qui, avant de donner son verdict, cocherait méthodiquement une liste de cent points d'attention — sans jamais en sauter un.

Voici ce qui s'est passé. Des chercheurs ont développé RadAgent, un agent IA pour interpréter les scanners thoraciques — ces images en coupe du thorax que vous passez quand on cherche un nodule, une embolie, une pneumonie. L'idée centrale : ne pas demander à un modèle de regarder l'image et d'improviser une réponse. Le forcer à suivre une liste de contrôle clinique, étape par étape, en appelant dix outils spécialisés dans un ordre logique. Comme un pilote avant le décollage. Les résultats sont chiffrés. Par rapport au modèle de référence, CT-Chat, RadAgent améliore la précision de détection des pathologies de 36 % en relatif. Sa robustesse face à des données trompeuses — quand on lui injecte des erreurs pour tester sa résistance — s'améliore de 42 %. Et surtout : il commence à produire des raisonnements vérifiables. Les chercheurs appellent ça la fidélité — la capacité du modèle à justifier ses conclusions de manière cohérente avec ce qu'il a réellement analysé. CT-Chat obtient zéro sur ce critère. RadAgent obtient 37 %. Pourquoi ça compte ? Dans un hôpital, une IA qui dit « il y a un nodule » sans expliquer pourquoi est difficile à auditer. Un médecin ne peut pas corriger ce qu'il ne voit pas. RadAgent laisse une trace — et ça, c'est un vrai pas vers une IA utilisable en clinique, pas juste en laboratoire. Le hic. L'évaluation a été faite sur deux bases de données — dont une externe, ce qui est encourageant. Mais aucune validation en conditions réelles : de vrais patients, de vrais délais, de vrais radiologues qui comparent côte à côte. Le saut du labo à l'hôpital reste entier. Ne surestimez pas.

Glossaire

scanner thoracique (CT-scan) — Technique d'imagerie médicale qui produit des coupes en tranches du thorax, permettant de visualiser les poumons et les structures internes en détail.

fidélité (faithfulness) — Capacité d'un modèle à produire un raisonnement explicite cohérent avec les données qu'il a réellement analysées, plutôt qu'une justification fabriquée après coup.

macro-F1 — Mesure de précision globale d'un modèle de classification qui traite chaque catégorie à égalité, même les rares.

Source: RadAgent: A tool-using AI agent for stepwise interpretation of chest computed tomography

              02 / 03
            

Les IA ne savent pas où elles regardent dans l'espace

Fermez les yeux. Tournez à gauche de 90°. Qu'est-ce que vous voyez maintenant devant vous ? Vous le savez. L'IA, elle, rate ce test une fois sur deux.

Des chercheurs ont construit VRUBench — un test uniquement en texte, sans images. On demande à un modèle de décrire ce qu'il « verrait » après des rotations dans un espace imaginaire. Pas compliqué en apparence : « vous faites face au nord, vous tournez de 90° à droite, que voyez-vous à votre gauche ? » Le genre de question qu'un enfant de dix ans résout en fermant les yeux. Résultat : les humains réussissent à 100 %. Le meilleur modèle testé — Qwen3-VL — plafonne à environ 60 %. Et voici le détail qui surprend : les modèles entraînés à la fois sur des images et du texte s'en sortent mieux que ceux entraînés sur du texte seul, même quand le test ne contient aucune image. L'entraînement visuel a donc transmis quelque chose d'utile pour raisonner dans l'espace — mais pas assez. Les chercheurs ont ensuite regardé à l'intérieur des modèles, couche par couche. Les premières couches encodent bien les rotations successives. Mais dans les couches finales — là où le modèle fabrique sa réponse — l'information se dégrade. C'est comme si votre cerveau recevait correctement les instructions de navigation, mais les perdait juste avant d'ouvrir la bouche. Pourquoi ça compte ? La navigation spatiale est un prérequis pour la robotique, l'assistance à domicile, la simulation. Si l'IA ne peut pas mentalement « se situer » après une rotation, elle ne peut pas planifier de manière fiable dans un environnement physique. Le hic. VRUBench est synthétique et contrôlé — rotations nettes de 90° ou 180°, monde structuré en cases. Ce n'est pas le désordre d'une vraie cuisine ou d'un vrai couloir d'hôpital.

Glossaire

VLM (Vision-Language Model) — Modèle d'IA entraîné à comprendre à la fois des images et du texte, comme GPT-4o ou Qwen3-VL.

probing linéaire — Technique qui consiste à entraîner un classifieur simple sur les activations internes d'un réseau de neurones pour vérifier si une information précise y est encodée.

Source: How Do LLMs and VLMs Understand Viewpoint Rotation Without Vision? An Interpretability Study

              03 / 03
            

Les IA se forgent une opinion trop tôt et s'y accrochent

Vous avez déjà rencontré quelqu'un qui se forge une opinion en trente secondes, puis passe la conversation entière à la défendre ? Les modèles d'IA font exactement pareil.

Des chercheurs ont suivi, pas à pas, comment 18 modèles visuels-linguistiques évoluaient dans leur raisonnement sur des questions de maths et de sciences. Plutôt que de regarder uniquement la réponse finale, ils ont tracé la « confiance » du modèle à chaque étape — comme un électrocardiogramme de la pensée en temps réel. Ce qu'ils ont trouvé s'appelle l'inertie de réponse. Le modèle choisit une réponse très tôt dans son raisonnement. Puis, au lieu de réviser, il passe le reste du temps à défendre ce premier choix — même quand les indices visuels contredisent clairement ce choix. Les chercheurs ont même glissé exprès des indices textuels trompeurs en contradiction avec l'image. Les modèles suivaient les mots, pas les yeux. Plus troublant encore : les modèles entraînés à « réfléchir avant de répondre » — c'est ce qu'on appelle le raisonnement en chaîne, ou chain-of-thought — s'en sortent un peu mieux. Mais ils présentent un nouveau problème. Leur raisonnement écrit paraît solide, ancré dans l'image, convaincant. En réalité, il suit les mots trompeurs. La forme est soignée. Le fond est faux. Et vous ne le voyez pas. Pourquoi ça compte ? Si vous utilisez une IA pour analyser un document avec tableaux et graphiques, ou pour interpréter une image médicale, vous avez besoin qu'elle pèse vraiment ce qu'elle voit — pas qu'elle rédige un raisonnement convaincant fondé sur des mots-clés. Le hic. L'étude porte sur des questions à choix multiples — ce qui facilite la mesure de la confiance à chaque étape, mais simplifie la réalité. En réponse ouverte, la dynamique pourrait être différente. Je simplifie.

Glossaire

inertie de réponse (answer inertia) — Phénomène où un modèle d'IA fixe son choix de réponse très tôt dans son raisonnement et renforce ce choix au lieu de le réviser, même face à des preuves contraires.

raisonnement en chaîne (chain-of-thought) — Technique qui consiste à demander à un modèle d'écrire étape par étape son raisonnement avant de donner une réponse finale, dans l'espoir d'améliorer la qualité du résultat.

VLM (Vision-Language Model) — Modèle d'IA capable de traiter à la fois des images et du texte.

Source: Reasoning Dynamics and the Limits of Monitoring Modality Reliance in Vision-Language Models

La vue d'ensemble

Ces trois histoires forment un argument cohérent si on les lit ensemble. RadAgent montre qu'en forçant l'IA à procéder par étapes vérifiables — comme un médecin qui suit un protocole — on obtient des gains mesurables et une trace auditable. VRUBench et l'étude sur l'inertie de réponse expliquent pourquoi cette discipline structurelle est indispensable : laissés à eux-mêmes, les modèles prennent des raccourcis prévisibles. Ils figent leur réponse trop vite. Ils écoutent les mots plutôt que les images. Ils se perdent dans l'espace. Ce ne sont pas des bugs aléatoires. Ce sont des angles morts structurels — et les chercheurs commencent à les cartographier avec précision. La direction qui se dessine n'est pas une IA plus autonome. C'est une IA mieux encadrée, dont on sait exactement où elle déraille. Et comprendre précisément, c'est le vrai début de corriger intelligemment.

À surveiller

Je regarderai si RadAgent fait l'objet d'une annonce d'essai clinique dans les prochains mois — c'est l'étape suivante logique, et les délais dans ce domaine sont longs mais balisés. Plus largement, les conférences ACL et ICML cet été seront un baromètre utile pour voir si les problèmes de raisonnement spatial et d'inertie de réponse commencent à trouver des solutions architecturales concrètes, ou si on continue à accumuler des benchmarks sans réponse.

Pour aller plus loin

Merci de m'avoir lu — à demain. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe