DeepScience — Artificial Intelligence

DeepScience · Artificial Intelligence · Digest quotidien

Les robots pensent mieux quand ils visualisent leur plan

Trois papiers sur ce que l'IA ne sait pas encore vraiment faire : agir sur la durée, reproduire la science, comprendre la physique.

            May 04, 2026
          

Journée dense en bilans et benchmarks — le genre de journée où les chercheurs publient des chiffres qui font réfléchir. Je vous propose trois histoires aujourd'hui, toutes reliées par un même fil rouge : l'IA produit quelque chose de convaincant en surface, mais elle peine encore à raisonner sur ce qu'elle fait.

Les histoires du jour

              01 / 03
            

Un robot qui imagine son plan en images ET en mots réussit deux fois mieux

Sans plan visuel, un robot tombe à 37 % de réussite. Avec, il monte à 92 %. La différence ? Il s'imagine ce à quoi doit ressembler chaque étape.

Imaginez un cuisinier qui, avant de commencer, écrit la liste de toutes ses étapes ET se fait une image mentale de ce à quoi chaque plat intermédiaire devrait ressembler. C'est exactement ce qu'une équipe de chercheurs a reproduit dans un robot. Leur système s'appelle IVLR — Interleaved Vision-Language Reasoning, que je traduirais librement par « raisonnement entrelacé texte-image ». L'idée : avant d'agir, le robot génère une sorte de plan de vol qui alterne des sous-objectifs écrits (« attrape le cube rouge ») et des images clés attendues (« voici à quoi doit ressembler ma main à cette étape »). Ce plan guide ensuite chaque mouvement en temps réel. Le résultat est frappant. Sur LIBERO-Long — un ensemble de tâches longues en simulation —, le robot avec traces entrelacées réussit 92,4 % du temps. Sans aucune trace, le même robot tombe à 37,7 %. Retirez seulement la partie visuelle ? 62 %. Retirez seulement le texte ? 68,4 %. Les deux modalités ensemble font la différence. Le hic, soyons honnêtes : les tests se déroulent entièrement en simulation, pas dans un vrai atelier. Les performances chutent quand on déplace un objet de 2 centimètres ou qu'on masque 30 % du plan. Ce n'est pas un robot prêt pour votre cuisine. C'est une preuve de concept solide, qui montre que la façon dont un agent se « représente » son plan — en mots et en images, dans le bon ordre — change tout. La question ouverte reste : est-ce que ça tient dans le monde réel ?

Glossaire

LIBERO-Long — Environnement de simulation qui évalue des robots sur des séquences de tâches longues — attraper, déplacer, empiler des objets dans un ordre précis.

trace interleaved — Plan explicite généré avant l'action, alternant des sous-objectifs écrits et des images attendues à chaque étape.

Source: Thinking in Text and Images: Interleaved Vision--Language Reasoning Traces for Long-Horizon Robot Manipulation

              02 / 03
            

Les agents IA reproduisent moins d'une expérience scientifique sur deux

Donnez à une IA un article scientifique et demandez-lui de reproduire les résultats : elle échoue dans près d'un cas sur deux.

Une équipe de chercheurs a construit un benchmark appelé AUTOMAT pour poser une question simple mais importante : est-ce qu'un agent IA peut lire un papier de recherche et reproduire ses résultats de façon autonome ? Ils ont sélectionné 85 tâches de reproduction issues de vrais articles de science des matériaux — un domaine où les calculs sont complexes et les outils très spécialisés. Pour chaque tâche, un expert humain a validé ce que le résultat devrait être. Cinq configurations d'agents basés sur différents modèles récents ont ensuite tenté de reproduire ces résultats, en autonomie complète, sur un cluster de calcul. Bilan : le meilleur agent atteint 54,1 % de succès. Moins d'une tâche sur deux. Et ce score est le meilleur — les autres font pire. Quand l'agent reçoit le code ou les données de départ, ça va mieux. Quand il doit reconstruire la procédure depuis le texte de l'article seul — comme un vrai chercheur le ferait — les résultats s'effondrent. Les trois causes d'échec principales : procédure incomplète, déviations méthodologiques, et fragilité face aux outils spécifiques du domaine. Pensez à un apprenti cuisinier à qui on donne une recette publiée dans un journal de gastronomie : les techniques sont décrites, mais les détails tacites manquent. L'IA, elle, ne peut pas appeler le chef pour clarifier. Le hic : ce benchmark couvre un domaine très spécialisé. On ne peut pas en conclure que l'IA échoue partout à reproduire la science. Mais 54 % est un signal sérieux que « lire et comprendre un papier » ne suffit pas encore à agir dessus.

Glossaire

benchmark — Ensemble de tâches standardisées qui permettent de mesurer et comparer les performances de différents systèmes IA.

agent IA — Programme capable de prendre des décisions et d'exécuter des actions en autonomie pour atteindre un objectif — ici, écrire et lancer du code.

from-paper vs from-artifact — Distinction entre reproduire depuis le texte seul de l'article (plus difficile) et reproduire en ayant accès au code ou aux données fournis par les auteurs.

Source: Can Coding Agents Reproduce Findings in Computational Materials Science?

              03 / 03
            

Nos IA génèrent de belles images mais ne comprennent pas la physique

Demandez à une IA de générer un puzzle dont les pièces s'emboîtent : elle produit quelque chose de beau, et pourtant les formes ne s'assemblent pas vraiment.

Ce papier — une synthèse de plus de 500 travaux publiés — propose une carte en cinq niveaux de l'évolution des modèles de génération visuelle : du simple générateur d'apparences au niveau 1, jusqu'au système qui comprend et simule le monde au niveau 5. Où en est-on ? Quelque part entre les deux, et souvent plus proches du bas qu'on ne le croit. Les auteurs ont soumis les modèles à une série de tests qualifiés de « stress tests » — pas un benchmark rigoureux, j'y reviens. Résultat : les systèmes actuels échouent de façon cohérente sur trois fronts. La rigidité géométrique d'abord : les pièces d'un puzzle générées semblent plausibles mais ne s'emboîtent pas vraiment. La physique causale ensuite : un objet censé couler selon les lois de l'eau peut flotter, ou l'inverse. La cohérence dans le temps enfin : après plusieurs modifications en chaîne d'une image, la qualité se dégrade en silence et le système ne peut pas revenir à l'état initial. Pensez à un peintre très doué qui reproduit l'apparence de l'eau avec un talent remarquable, mais qui ne sait pas qu'elle coule vers le bas. C'est à peu près là où en sont les meilleurs modèles. Le hic — et c'est important : c'est un article de position, pas une étude empirique contrôlée. Les tests sont des démonstrations qualitatives choisies par les auteurs de l'INSERM. Je simplifie : les failles sont réelles, mais leur mesure précise reste à faire. Ce que les auteurs appellent à construire — des évaluations de cohérence structurelle, temporelle, causale — n'existe pas encore vraiment.

Glossaire

génération visuelle — Capacité d'un modèle IA à produire des images ou des vidéos à partir d'une description ou d'une instruction.

cohérence causale — Respect des relations de cause à effet dans le monde physique — par exemple, que l'eau coule vers le bas ou qu'un objet lourd s'enfonce.

FID / CLIP score — Métriques courantes pour évaluer la qualité visuelle d'une image générée — elles mesurent si l'image est belle et cohérente avec le texte, pas si elle est physiquement juste.

Source: Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling

La vue d'ensemble

Trois papiers, trois domaines différents — robots, science computationnelle, images générées. Et pourtant, le même constat revient : l'IA excelle à produire quelque chose de convaincant en surface, mais elle bute dès qu'il faut tenir sur la durée, respecter des contraintes physiques réelles, ou reconstruire un raisonnement à partir d'un texte dense. Ce n'est pas du pessimisme. Le robot qui alterne texte et images pour planifier ses gestes, c'est un vrai pas en avant. Mais 54 % de réussite en reproduction scientifique, des puzzles qui ne s'emboîtent pas, des robots qui se perdent quand on déplace un objet de 2 centimètres — tout ça pointe vers la même limite : l'IA apprend à imiter la forme des choses sans encore maîtriser leur logique interne. Le défi n'est pas de produire du beau. C'est de comprendre pourquoi ça tient.

À surveiller

À surveiller dans les semaines qui viennent : les résultats sur des robots physiques réels avec des architectures similaires à IVLR — la simulation est prometteuse, mais le vrai test reste le monde réel. La question ouverte que j'aimerais voir traitée : est-ce qu'un agent IA peut atteindre 80 % de réussite en reproduction scientifique si on lui fournit de meilleures descriptions de procédure ? Ce serait un signal que le problème est dans les papiers autant que dans les modèles.

Pour aller plus loin

Merci de m'avoir lu — à demain. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe