DeepScience — Artificial Intelligence

DeepScience · Artificial Intelligence · Digest quotidien

L'IA en médecine avance. Le reste, c'est compliqué.

Trois papiers d'aujourd'hui dessinent l'IA telle qu'elle est vraiment : capable sur des tâches précises, aveugle sur des choses élémentaires.

            April 19, 2026
          

Deux cent soixante-dix-sept papiers ce week-end — j'ai filtré pour vous. Trois histoires ont retenu mon attention : une sur ce que l'IA commence à faire vraiment bien en radiologie, une sur ce qu'elle est incapable de faire (dire « je ne sais pas »), et une sur un angle mort surprenant : elle ne sait pas tourner mentalement dans l'espace. Une journée dense, avec quelques vrais résultats chiffrés — ça change.

Les histoires du jour

              01 / 03
            

Un assistant IA lit les scanners thoraciques étape par étape — et s'améliore vraiment

Un radiologue expérimenté ne regarde pas un scanner en une seule fois — il suit une checklist mentale, outil après outil. RadAgent fait pareil.

Imaginez un cuisinier qui, au lieu d'improviser un plat d'un coup, suit une recette étape par étape : d'abord les légumes, puis la sauce, puis l'assemblage. C'est exactement ce que fait RadAgent, le système développé par une équipe dont les travaux sont déposés sur arXiv. Plutôt que de demander à un modèle de langage de « lire » un scanner 3D d'un seul geste, RadAgent orchestre dix outils spécialisés — un pour détecter les nodules, un autre pour évaluer la densité pulmonaire, etc. — en suivant une checklist validée par des cliniciens. Les chiffres sont concrets. En précision diagnostique, RadAgent dépasse de 6 points en macro-F1 son prédécesseur CT-Chat — soit une amélioration relative de 36 %. Sous conditions adversariales (quand on perturbe l'image ou le contexte), le gain monte à 24,7 points, soit +42 %. Et sur la « fidélité » — est-ce que le système peut expliquer pas à pas pourquoi il arrive à sa conclusion ? — RadAgent atteint 37 % là où CT-Chat plafonne à 0 %. Pourquoi ça compte : en radiologie, les erreurs tuent. Un système capable d'expliquer son raisonnement est plus facile à contrôler, à corriger, à faire valider par un médecin. Le hic : 37 % de fidélité, c'est un vrai progrès — mais ce n'est pas 100 %. L'évaluation est conduite sur des jeux de données internes et un seul jeu externe. On ne sait pas encore si RadAgent se comporte aussi bien sur des scanners issus d'hôpitaux avec des équipements différents, des populations différentes. La checklist clinique qui guide le système a été validée par des médecins, mais le processus de validation n'est pas entièrement détaillé dans le papier. Un pas vrai. Pas une solution complète.

Glossaire

macro-F1 — Mesure de précision qui pénalise également les erreurs sur les maladies rares et les maladies fréquentes, au lieu de noyer les premières dans la moyenne.

conditions adversariales — Tests dans lesquels on perturbe volontairement les données d'entrée (image ou texte) pour voir si le modèle résiste aux erreurs ou aux pièges.

fidélité (faithfulness) — Capacité d'un modèle à expliquer son raisonnement de façon cohérente avec les outils et étapes qu'il a réellement utilisés.

Source: RadAgent: A tool-using AI agent for stepwise interpretation of chest computed tomography

              02 / 03
            

L'IA ne sait presque jamais dire « je ne sais pas » — et c'est un vrai problème

Posez une question sans réponse possible à un modèle d'IA — il vous répondra quand même, presque à chaque fois.

Pensez à un ami très bavard qui, plutôt que d'admettre qu'il ne sait pas, invente une réponse plausible à toutes vos questions. C'est le comportement documenté par une équipe de chercheurs qui publie sur arXiv avec le benchmark MM-AQA — 2 079 questions conçues pour être sans réponse possible, dérivées de deux référentiels publics (MMMU et MMLongBench-Doc). Leur constat : sous utilisation standard, les modèles de vision-langage — ceux qui combinent image et texte — s'abstiennent de répondre dans une infime minorité de cas, même quand ils n'ont manifestement pas les éléments pour répondre. Plus troublant encore : quand l'image est partiellement dégradée ou que les indices visuels contredisent le texte, les modèles ne bloquent pas — ils tentent une réconciliation et répondent faux. Aucun système testé ne dépasse simultanément 65 % de précision sur les questions auxquelles on peut répondre ET sur celles auxquelles on ne peut pas. Il y a un arbitrage brutal : soit le modèle répond beaucoup (et se trompe sur les questions sans réponse), soit il s'abstient souvent (et rate des réponses correctes). Les architectures multi-agents — où plusieurs modèles se contrôlent mutuellement — améliorent l'abstention, mais au prix d'une baisse de précision générale. Pourquoi ça compte : dans un contexte médical, juridique, ou de sécurité, un système qui invente une réponse quand il devrait se taire est plus dangereux qu'un système qui répond moins souvent. Le hic : MM-AQA est construit à partir de questions académiques à choix multiples. Les situations réelles sont plus complexes. Les chercheurs reconnaissent eux-mêmes que les résultats ne s'extrapolent pas directement à des usages ouverts. C'est un diagnostic, pas encore une solution.

Glossaire

abstention — Capacité d'un modèle à refuser de répondre quand les informations disponibles sont insuffisantes ou contradictoires.

modèle de vision-langage (VLM) — Modèle d'IA qui traite à la fois des images et du texte pour répondre à des questions ou générer des descriptions.

benchmark — Jeu de données standardisé utilisé pour mesurer et comparer les performances des modèles sur une tâche précise.

Source: Knowing When Not to Answer: Evaluating Abstention in Multimodal Reasoning Systems

              03 / 03
            

Demandez à une IA de tourner mentalement dans l'espace — elle échoue là où vous réussissez

Un humain résout à 100 % un puzzle de rotation dans l'espace décrit en texte. Le meilleur modèle testé plafonne à 60 %.

C'est un exercice que vous avez peut-être vu dans un test de logique : « Vous êtes face au Nord. Vous tournez de 90° à droite. Puis de 180° à gauche. Dans quelle direction regardez-vous ? » Une équipe de chercheurs qui publie sur arXiv a construit VRUBench, un benchmark entièrement en texte pour ce type de tâche, et a testé plusieurs grandes familles de modèles de langage et de vision-langage. Résultat : les humains résolvent ces puzzles avec 100 % de précision. Le meilleur modèle testé — Qwen3-VL, un modèle de vision-langage — atteint environ 60 %. Les modèles de texte seul font encore moins bien. Curieusement, les modèles entraînés sur des images s'en sortent mieux que leurs équivalents texte seul, même sur des tâches purement textuelles — comme si voir des plans et des cartes pendant l'entraînement aide à raisonner dans l'espace. Les chercheurs ne s'arrêtent pas aux scores. Ils ont ouvert les modèles pour comprendre pourquoi. Leur diagnostic : les modèles encodent bien la direction d'une rotation (« je tourne à droite »), mais perdent de vue leur orientation absolue (« j'étais face au Nord ») dans les couches profondes du réseau. C'est comme si quelqu'un suivait les instructions de navigation mais oubliait son point de départ à mi-chemin. Bonus pratique : ils ont identifié un petit groupe de « têtes d'attention » responsables de ce comportement. Un entraînement ciblé sur ces seules têtes améliore les performances en n'utilisant que 50 % du temps de calcul d'un entraînement complet. Le hic : VRUBench reste un benchmark contrôlé. Le nombre exact d'exemples testés et les tests statistiques de significativité ne sont pas tous visibles dans la version disponible du papier. Les améliorations obtenues par entraînement ciblé restent modestes en absolu.

Glossaire

tête d'attention — Composant interne d'un transformer — le type d'architecture derrière la plupart des grands modèles — qui décide quels éléments du contexte sont pertinents pour traiter un mot ou un token donné.

couche (layer) — Étage de traitement dans un réseau de neurones ; l'information passe successivement par plusieurs dizaines ou centaines de couches avant de produire une réponse.

transformer — Architecture de réseau de neurones aujourd'hui dominante pour les modèles de langage, basée sur des mécanismes d'attention qui pondèrent l'importance des différents éléments d'un contexte.

Source: How Do LLMs and VLMs Understand Viewpoint Rotation Without Vision? An Interpretability Study

La vue d'ensemble

Trois papiers, trois angles sur la même réalité : l'IA progresse vite sur des tâches très délimitées — lire un scanner en suivant une checklist, par exemple — mais reste structurellement fragile dès qu'on lui demande de gérer l'incertitude ou l'espace. Ce qui me frappe aujourd'hui, c'est le fossé entre performance brute et fiabilité réelle. RadAgent fait mieux que son prédécesseur sur des métriques précises. Mais les deux autres papiers nous rappellent que les mêmes types de modèles ne savent ni dire « je ne sais pas », ni tourner mentalement dans l'espace — deux capacités que vous utilisez chaque jour sans y penser. Ce n'est pas un argument pour jeter l'IA en médecine avec l'eau du bain. C'est un argument pour être précis sur ce qu'on lui demande de faire, et pour ne pas confondre « meilleur que la version précédente » avec « prêt à fonctionner seul ».

À surveiller

Sur RadAgent, la prochaine étape critique est une validation externe à grande échelle — sur des hôpitaux avec des équipements et des populations différentes. Sur le problème d'abstention, MM-AQA pose un diagnostic mais ne propose pas encore de solution robuste : suivez si des équipes publient des approches d'entraînement spécifiques à l'abstention dans les semaines qui viennent. Et sur la rotation spatiale — une question ouverte que j'aimerais voir répondue : est-ce que ce déficit vient du manque de données spatiales à l'entraînement, ou d'une limite plus fondamentale de l'architecture transformer ?

Pour aller plus loin

Merci de m'avoir lu — à demain. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe