DeepScience — Artificial Intelligence

DeepScience · Artificial Intelligence · Digest quotidien

L'IA répond quand elle devrait se taire.

Aujourd'hui : une IA médicale qui invente des réponses, des modèles aveugles au temps, et une machine qui a appris à cliquer en regardant YouTube.

            May 15, 2026
          

Deux cent quatre-vingts papiers ce jeudi. J'en ai retenu trois — pas les plus techniques, mais les plus honnêtes sur ce que l'IA sait et ne sait pas faire. Une journée qui gratte là où ça fait mal, avec quand même une surprise plutôt encourageante à la fin.

Les histoires du jour

              01 / 03
            

Quand l'IA médicale répond au lieu d'admettre qu'elle ne sait pas

Imaginez un médecin qui, face à une question sans bonne réponse, en invente une quand même — sept fois sur dix.

Des chercheurs ont soumis cinq grands modèles de langage — GPT, Claude, Gemini, DeepSeek, Grok — à des questions médicales à choix multiples. Le piège : la bonne réponse avait été retirée. Aucune des options proposées n'était correcte. La réponse attendue était donc : « Je ne sais pas », « Je préfère ne pas répondre », ou « Consultez un médecin ». Résultat : environ 70 % du temps, les modèles ont quand même choisi une réponse. Ils ont commis ce que les auteurs appellent une « fermeture prématurée » — l'équivalent d'un joueur de Jeopardy qui appuie sur le buzzer sans avoir la réponse, juste pour ne pas laisser le silence s'installer. Pourquoi ça compte ? Parce que de plus en plus de gens utilisent ces outils pour des questions de santé. Un modèle qui dit « prenez ce médicament » quand la bonne réponse est « il faut voir un spécialiste » n'est pas neutre. Sur les 191 questions adversariales rédigées par des médecins, 78 % des réponses étaient inappropriées. Il y a une bonne nouvelle, modeste. Quand on ajoute une instruction de prudence dans le prompt — en gros, on demande explicitement au modèle d'admettre ses limites — le taux de fausses réponses tombe de 70 % à environ 48 %. C'est mieux. C'est encore trop. Le hic : l'étude ne teste que des questions médicales. On ne sait pas si le phénomène est aussi marqué dans d'autres domaines, ni si les modèles plus récents ont comblé cet écart. Et 48 %, c'est loin d'être rassurant quand les enjeux sont cliniques.

Glossaire

fermeture prématurée — Comportement d'un modèle qui choisit une réponse définitive là où il devrait s'abstenir, s'escalader ou demander des clarifications.

prompt — L'instruction ou la question qu'on envoie à un modèle de langage pour obtenir une réponse.

adversarial — Se dit d'une question conçue exprès pour mettre le modèle en difficulté, souvent rédigée par des experts pour tester ses limites.

Source: Quantifying and Mitigating Premature Closure in Frontier LLMs

              02 / 03
            

Les meilleurs modèles d'IA ne savent pas lire le temps dans une vieille image

Montrez à un modèle d'IA une sculpture indienne vieille de deux mille ans — il va probablement l'interpréter avec des lunettes du XXIe siècle.

Une équipe de chercheurs a constitué un ensemble de 600 questions à partir de 1 600 artefacts culturels indiens couvrant des millénaires — de la préhistoire à l'ère moderne. Ils ont ensuite soumis ces questions à dix grands modèles visuels, les mêmes qu'on retrouve dans nos outils du quotidien. Les questions étaient du type : « Cette technique de fabrication existait-elle à cette époque ? », « Quel matériau était disponible à cette période ? », « Quel style artistique correspond à cet objet ? » Le meilleur modèle testé, GPT dans sa version la plus récente, a répondu correctement dans 58,7 % des cas. C'est à peine mieux qu'un pile ou face amélioré. Les autres modèles font encore moins bien, et ça ne s'améliore pas vraiment en augmentant la taille des modèles. Pourquoi ce phénomène ? Les auteurs parlent d'anachronisme culturel : les modèles ont été entraînés sur des milliards de documents contemporains, et quand ils voient une image ancienne, ils projettent dessus des concepts d'aujourd'hui — comme quelqu'un qui verrait une forge médiévale et dirait « c'est une cuisine industrielle ». Pourquoi ça compte pour vous ? Les musées, les archéologues, les historiens de l'art, les équipes patrimoine commencent à utiliser ces outils. Si le modèle confond les siècles, les erreurs se propagent discrètement. Le hic : le benchmark est construit uniquement sur des artefacts indiens. On ne sait pas si les résultats seraient différents avec des artefacts européens ou asiatiques mieux représentés dans les données d'entraînement. C'est une limite que les auteurs auraient pu mentionner plus franchement.

Glossaire

anachronisme culturel — Le fait d'interpréter un objet ou une image ancienne avec des concepts, des matériaux ou des références qui n'existaient pas à l'époque.

benchmark — Un ensemble de tests standardisés servant à mesurer et comparer les performances de différents modèles.

modèle visuel — Un modèle d'IA capable de traiter des images en plus du texte, pour répondre à des questions sur ce qu'il voit.

Source: On the Cultural Anachronism and Temporal Reasoning in Vision Language Models

              03 / 03
            

Une IA a appris à utiliser des milliers d'applis en regardant des tutoriels en ligne

300 000 heures de tutoriels vidéo, zéro humain pour les annoter, et à l'arrivée un agent qui sait où cliquer.

Une équipe de chercheurs a eu une idée simple en apparence : internet regorge de vidéos où des gens expliquent comment utiliser des logiciels. Des tutoriels Excel, des guides de navigation dans des applis mobiles, des démonstrations de logiciels professionnels. Pourquoi ne pas s'en servir pour entraîner une IA à utiliser des interfaces ? C'est le principe de Video2GUI. Le pipeline part de 500 millions de métadonnées de vidéos, filtre agressivement pour ne garder que les tutoriels de qualité, et en extrait automatiquement des trajectoires d'interaction : à tel moment, l'utilisateur a cliqué là, tapé ceci, navigué vers cet écran. Au final : 12,7 millions de trajectoires issues de 4,2 millions de vidéos — sur 1 500 applications et sites différents. Pensez à un apprenti cuisinier qui regarde des milliers d'heures de cuisine en vidéo avant de toucher une casserole. Il ne fait rien lui-même, mais il a intégré les gestes. C'est exactement ce que fait Video2GUI : de l'apprentissage par observation à grande échelle. Résultat concret : en entraînant deux modèles existants sur ces données, les auteurs observent des améliorations de 5 à 20 % sur des tests standardisés de navigation d'interface. Pourquoi ça compte ? Les agents capables d'utiliser des applications — remplir des formulaires, naviguer dans des outils complexes, automatiser des tâches — sont l'un des cas d'usage les plus attendus de l'IA. Cette approche montre qu'on peut accélérer leur formation sans payer des armées d'annotateurs humains. Le hic : les vidéos sont extraites automatiquement. La qualité des trajectoires dépend de la qualité des tutoriels, et personne n'a encore mesuré combien d'erreurs se cachent dans ces 12 millions d'exemples.

Glossaire

trajectoire d'interaction — La séquence de clics, frappes au clavier et navigations qu'un utilisateur effectue pour accomplir une tâche dans une interface.

pipeline — Une chaîne de traitements automatisés où chaque étape prend le résultat de la précédente pour produire un résultat final.

agent — Un programme d'IA capable d'agir de manière autonome dans un environnement — ici, de naviguer et cliquer dans une interface graphique.

Source: Video2GUI: Synthesizing Large-Scale Interaction Trajectories for Generalized GUI Agent Pretraining

La vue d'ensemble

Ce que ces trois histoires ont en commun, c'est une question d'honnêteté — celle que les modèles ont, ou n'ont pas, sur leurs propres limites. L'IA médicale répond quand elle devrait se taire. Le modèle visuel interprète le passé avec les lunettes du présent sans signaler l'incongruité. L'agent GUI, lui, apprend mieux que jamais — mais personne ne garantit la qualité de ce qu'il a ingéré. On parle souvent de ce que l'IA « peut faire ». Ce qui ressort aujourd'hui, c'est plutôt ce qu'elle ne sait pas qu'elle ne sait pas faire. C'est différent, et c'est plus difficile à corriger. Rajouter des paramètres n'y change rien — le meilleur modèle sur les artefacts culturels ne fait que 58 % avec la taille maximale disponible. L'enjeu n'est pas de rendre les modèles plus grands, mais de les rendre calibrés : capables de mesurer leur propre incertitude et de l'exprimer plutôt que de la masquer sous une réponse confiante.

À surveiller

À surveiller dans les prochaines semaines : les études de replication sur la fermeture prématurée dans des domaines non médicaux — juridique, financier, scolaire. Le phénomène est probablement universel, mais les données manquent encore pour le confirmer. Et du côté des agents GUI, attendez de voir si Video2GUI est rendu public : si le dataset de 12 millions de trajectoires devient accessible, beaucoup d'équipes vont s'en emparer.

Pour aller plus loin

Merci de m'avoir lu — prenez soin de vous, et méfiez-vous des IA trop sûres d'elles. À demain. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe