DeepScience — Artificial Intelligence

DeepScience · Artificial Intelligence · Digest quotidien

Les IA qui ne savent jamais dire stop

Quand une IA refuse d'admettre ses limites ou s'entête sur une mauvaise piste, c'est toute la fiabilité du système qui vacille.

            April 17, 2026
          

Trois papiers aujourd'hui, et une cohérence qui m'a sauté aux yeux en les lisant : tous parlent de ce que les IA font mal quand elles ne savent pas qu'elles se trompent. Un beau sujet, et pas un sujet facile. Je vous propose d'y aller ensemble.

Les histoires du jour

              01 / 03
            

Un agent IA lit vos scanners thoraciques — et montre son travail

Imaginez un médecin junior qui coche une liste avant de conclure, plutôt que de trancher d'un seul coup d'œil — c'est exactement l'idée derrière RadAgent.

Chaque année, des millions de scanners thoraciques — ces images en coupes de votre cage thoracique — sont lus par des radiologues. C'est un travail d'une précision extrême : vérifier les poumons, le cœur, les vaisseaux, les ganglions, et ne pas rater la petite anomalie qui change tout. L'équipe derrière RadAgent a construit un système d'IA qui fonctionne comme un interne très méthodique. Il part d'une liste de contrôle clinique, et pour chaque point, appelle l'outil adapté : segmentation d'organe, détection d'épanchement, questions sur des coupes en 2D ou 3D. Comme un chirurgien qui suit un protocole avant d'ouvrir, plutôt qu'improviser d'un bloc. Les résultats sont concrets. RadAgent améliore la précision diagnostique de 6 points par rapport au modèle de base CT-Chat, soit une progression relative de 36 %. Sa robustesse face à des questions pièges monte de presque 25 points. Et surtout — c'est le point qui m'a le plus frappé — il produit des réponses traçables jusqu'aux images dans 37 % des cas, contre exactement 0 % pour son concurrent direct. Ce n'est pas rien : ça veut dire qu'on peut vérifier d'où vient la conclusion. Le hic ? Ces chiffres viennent de benchmarks, pas d'un vrai service de radiologie avec de vrais patients en flux réel. Passer du labo à la salle de lecture, c'est toujours un saut difficile. Aucun essai clinique n'est mentionné. La direction est bonne — mais on n'y est pas encore, et je simplifie en disant que 6 points de F1 se traduiront directement en moins d'erreurs pour vous.

Glossaire

macro-F1 — Mesure de précision qui traite toutes les catégories de maladies à égalité, même les plus rares — une façon plus honnête d'évaluer un diagnostic polyvalent.

segmentation d'organe — Technique qui délimite automatiquement les contours d'un organe sur une image médicale, pour mieux l'analyser isolément.

Source: RadAgent: A tool-using AI agent for stepwise interpretation of chest computed tomography

              02 / 03
            

Les IA visuelles décident trop tôt et s'entêtent ensuite

Vous connaissez quelqu'un qui a décidé avant même d'ouvrir le dossier, et qui ne change plus d'avis quoi qu'on lui montre — les IA font pareil.

Une équipe de chercheurs a analysé 18 modèles de vision-langage — les IA capables de regarder une image et de raisonner dessus — sur des problèmes de sciences et de mathématiques. Ils ont suivi, étape par étape, comment chaque modèle construisait sa réponse. Et ce qu'ils ont trouvé s'appelle l'« inertie de réponse ». Voilà ce qui se passe : très tôt dans le raisonnement, le modèle se fixe sur une piste. Et au lieu de la remettre en question au fil des étapes, il la renforce. Pire : même quand l'image suffit à elle seule pour trouver la bonne réponse, un indice textuel trompeur dans l'énoncé suffit à faire dérailler le modèle. Il suit le texte, pas ce qu'il voit. Les modèles entraînés spécifiquement à « raisonner » s'en sortent légèrement mieux — ils se corrigent davantage en cours de route. Mais voilà le paradoxe que les chercheurs ont mis en lumière : leurs traces de raisonnement sont plus longues, plus fluides, plus convaincantes à lire. Et pourtant elles suivent quand même le piège textuel, discrètement. Autrement dit, plus l'IA semble raisonner sérieusement, plus il devient difficile de détecter qu'elle se trompe. Ce que ça ne veut pas dire : que le raisonnement à voix haute est inutile. Ça veut dire qu'on ne peut pas lui faire confiance les yeux fermés. La fluidité d'une réponse n'est pas une preuve de sa justesse. C'est une distinction que nous, humains, avons aussi du mal à faire — et ce papier rappelle qu'il faut y rester attentif.

Glossaire

modèle de vision-langage — Un modèle d'IA capable de traiter à la fois du texte et des images, et de raisonner sur les deux simultanément.

chaîne de raisonnement (Chain-of-Thought) — Technique qui force un modèle à écrire ses étapes intermédiaires de réflexion avant de donner une réponse finale.

Source: Reasoning Dynamics and the Limits of Monitoring Modality Reliance in Vision-Language Models

              03 / 03
            

Les IA multimodales ne savent pas dire « je ne sais pas »

Posez une question impossible à une IA — image floue, document incomplet, énoncé contradictoire — et regardez ce qu'elle fait : elle répond quand même.

Une équipe de chercheurs a construit un benchmark appelé MM-AQA : 2 079 questions conçues pour être sans bonne réponse possible. Certaines parce que l'image est insuffisante. D'autres parce que les preuves dans le document ne permettent pas de conclure. Des questions qui, honnêtement, méritent la réponse « je n'ai pas assez d'éléments ». Ils ont ensuite testé trois grands modèles de vision-langage — les IA qui combinent texte et image — dans différentes configurations. Résultat : sous conditions normales, ces modèles refusent très rarement de répondre. Ils comblent les trous. Ils inventent avec assurance. Les approches multi-agents — où plusieurs IA se vérifient mutuellement, comme un jury — améliorent un peu les choses. Mais elles créent un nouveau problème : plus le système apprend à s'abstenir sur les questions sans réponse, moins il répond correctement aux questions qui en ont une. C'est un équilibre fragile, comme un étudiant trop prudent qui finit par douter de tout et laisse la moitié de sa copie vierge. Aucun système testé ne dépasse 65 % de précision sur les deux tableaux à la fois — répondre juste quand il faut répondre, et se taire quand il faut se taire. Le problème, semble-t-il, n'est pas un manque de raisonnement mais un manque de calibration : le modèle ne sait pas évaluer sa propre incertitude. Franchement, ce n'est pas anecdotique. Dans une aide médicale, juridique ou de recherche, une IA qui ne sait pas dire « je n'ai pas assez d'éléments » peut faire des dégâts bien réels.

Glossaire

abstention — Capacité d'un modèle à refuser de répondre quand les informations disponibles sont insuffisantes pour le faire correctement.

calibration — Alignement entre la confiance affichée par un modèle et sa probabilité réelle d'avoir raison — un modèle bien calibré doute quand il doit douter.

benchmark multimodal — Jeu de tests standardisé qui évalue une IA sur des tâches combinant texte et images.

Source: Knowing When Not to Answer: Evaluating Abstention in Multimodal Reasoning Systems

La vue d'ensemble

Ces trois papiers parlent tous du même problème, vu sous trois angles différents : nous construisons des IA de plus en plus capables, mais leur rapport à l'incertitude reste profondément dysfonctionnel. RadAgent montre qu'une architecture plus structurée — imposer une liste de contrôle, forcer la traçabilité — peut corriger une partie du problème dans un domaine précis comme la radiologie. C'est encourageant. Mais les deux autres papiers rappellent que ces corrections restent fragiles. Les modèles s'entêtent sur de mauvaises pistes tout en paraissant raisonner sérieusement. Ils répondent avec aplomb à des questions auxquelles ils ne peuvent pas répondre. Et plus leurs traces de raisonnement sont fluides, plus il est difficile de détecter que quelque chose cloche. Ce que ça nous dit collectivement : la confiance qu'on peut accorder à une IA ne se lit pas dans la qualité apparente de sa réponse. Elle se construit dans l'architecture, dans les contraintes imposées, dans les tests adversariaux. La fiabilité n'est pas un trait de caractère — c'est une propriété d'ingénierie. Et on n'en est qu'au début.

À surveiller

La conférence ACL 2025 en juillet sera un bon moment pour voir si des équipes proposent des solutions concrètes au problème d'abstention — c'est un sujet qui monte vite. Sur RadAgent, je serai curieux de voir si une équipe clinique publie une validation prospective dans un vrai service de radiologie. C'est le saut qui manque, et c'est lui qui comptera.

Pour aller plus loin

Merci de m'avoir lu — à demain. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe