DeepScience — Artificial Intelligence

DeepScience · Artificial Intelligence · Digest quotidien

Voir sans agir, se faire pirater, et robots autonomes.

L'IA sait regarder, mais pas toujours quoi faire — et ça change tout pour les systèmes qui comptent vraiment.

            June 19, 2026
          

Trois papiers aujourd'hui qui méritent votre attention, pas parce qu'ils annoncent une percée spectaculaire, mais parce qu'ils mettent le doigt sur quelque chose de précis et d'utile. Un fossé entre la perception et l'action, une équipe d'agents IA manipulée dans une centrale simulée, et des robots qui s'améliorent seuls la nuit. Allez c'est parti.

Les histoires du jour

              01 / 03
            

Les modèles d'IA voient juste mais n'agissent pas en conséquence.

Un modèle compte trois oranges dans un bol — puis échoue à vous dire laquelle retirer. Ce n'est pas de la maladresse. C'est structurel.

Imaginez qu'on vous montre une grille de symboles et qu'on vous pose deux questions à la suite. Première question : combien y a-t-il de symboles identiques ? Vous répondez « trois ». Parfait. Deuxième question : il y en a un qui est différent des autres — lequel enlevez-vous ? Et là, vous n'hésitez pas une seconde. Un humain non plus : 98,8 % de réussite sur les deux tâches. Les grands modèles visuels, eux, dégringolent. L'équipe derrière le banc de test ROSE a construit 7 560 scènes de ce type, en tenant l'image fixe et en changeant uniquement la question. Résultat : les modèles perdent jusqu'à 44,5 points de pourcentage entre la tâche de comptage et la tâche d'action. Qwen-3 passe de 80,3 % à 37,7 %. Gemini-3.1-Pro chute de 92,8 % à 64,2 %. GPT-5.5 s'en sort mieux — 93,8 % à 84,3 % — mais perd quand même près de 10 points. Ce qui rend le résultat troublant, c'est que ce n'est pas un problème de vision. Les chercheurs ont vérifié sur les scènes exactes où le modèle avait correctement compté : même là, il échouait à agir en conséquence. Ce n'est pas « il ne voit pas ». C'est « il ne sait pas quoi faire de ce qu'il voit ». La distinction compte énormément pour les applications réelles — un assistant médical qui identifie une anomalie sur une image mais ne sait pas quoi recommander, par exemple. Le hic : ROSE teste des scènes très construites, des grilles de symboles stylisées, loin du désordre du monde réel. Et les chercheurs l'admettent franchement — ils ne savent pas encore si ce gouffre vient de l'entraînement, de l'architecture, ou des deux. Mais le problème est maintenant mesuré. C'est la première étape pour le corriger.

Glossaire

modèle multimodal — Un système d'IA capable de traiter à la fois du texte et des images — comme un assistant qui lit et regarde en même temps.

banc de test (benchmark) — Un ensemble de tâches standardisées qui sert à mesurer et comparer les performances de différents modèles.

Source: ROSE: Benchmarking the Perception-to-Action Gap in Multimodal Models

              02 / 03
            

Des agents IA aux commandes d'une centrale simulée se font piéger une fois sur dix.

Une équipe de cinq agents IA gère une centrale nucléaire simulée — et des attaquants parviennent à compromettre ses fonctions de sécurité une fois sur dix.

Posez la question autrement : jusqu'où peut-on faire confiance à une équipe d'agents IA pour piloter un système critique ? Des chercheurs ont construit NRT-Bench, un simulateur de centrale nucléaire entièrement en texte. Cinq agents IA se partagent les rôles — opérateur, superviseur, analyste technique. Des attaquants envoient des messages piégés par quatre canaux différents : imposteur, sous-traitant compromis, message externe, agent auxiliaire infiltré. Résultat : entre 8,7 % et 12,1 % des sessions d'attaque ont provoqué une perte de fonction de sécurité critique. Une fois sur dix en gros, les agents se laissent manipuler au point de compromettre le système qu'ils protègent. Ce qui est encore plus instructif que le chiffre brut, c'est la structure des vulnérabilités. Sur 149 sessions d'attaque, aucune n'a mis en échec les quatre modèles testés simultanément. Chaque modèle a ses failles propres, presque sans recoupement avec celles des autres. Traduction : diversifier les modèles dans une équipe ne suffit pas à multiplier la sécurité — les angles d'attaque se diversifient aussi. Pire encore : les défenses elles-mêmes se comportent à l'envers selon le modèle. Le même garde-fou qui réduit les attaques réussies pour un modèle les augmente pour un autre. On ne peut pas empiler des couches de protection et espérer que ça marche partout. Le hic, et il est important : c'est un simulateur textuel abstrait, pas une vraie centrale. La menace ici est de principe, pas opérationnelle. Mais les principes qu'on laisse sans réponse finissent toujours par trouver une application concrète. C'est précisément l'utilité de ce genre d'exercice.

Glossaire

fonction de sécurité critique (CSF) — Dans ce simulateur, une des six fonctions essentielles que le système doit maintenir en toutes circonstances — leur perte représente un échec grave.

red-teaming — Une méthode d'évaluation où une équipe joue le rôle d'attaquants pour trouver les failles d'un système avant qu'un vrai adversaire ne le fasse.

garde-fou (guardrail) — Une couche de règles ou de filtres ajoutée à un modèle d'IA pour bloquer certains comportements jugés dangereux.

Source: LLM agent safety, multi-turn red-teaming, jailbreak benchmarks, adversarial robustness, safety-critical systems

              03 / 03
            

Un agent logiciel entraîne des bras robotiques tout seul, jusqu'à 99 % de réussite.

Un agent IA a passé la nuit à faire pratiquer un bras robotique jusqu'à 99 % de réussite — sans qu'un humain intervienne une seule fois.

Pensez à un apprenti cuisinier qu'on laisse seul dans la cuisine après le service. Il essaie la recette, goûte, note ce qui ne va pas, ajuste les proportions, recommence. Le lendemain matin, le plat est au point. Personne n'était là pour corriger — c'est l'itération qui a tout fait. C'est exactement le principe qu'a mis en œuvre l'équipe derrière ENPIRE, mais avec huit stations de robots bimanaux — des bras à deux mains — et des agents de codage en guise d'apprentis. GPT-5.5, Claude Opus 4.7 et Kimi K2.6 ont piloté l'amélioration des politiques de mouvement des robots en boucle fermée : essai, observation du résultat réel, modification du code, nouvel essai. Les tâches ne sont pas anodines : insérer une broche de précision dans un trou, couper un serre-câble, manipuler un composant GPU. Ce sont des gestes qui demandent de la dextérité. Taux de réussite atteint : 99 %. Ce qui a fait la plus grande différence à lui seul ? Une technique appelée clonage comportemental — BC regularization en anglais — qui a ajouté 10,8 points de pourcentage au taux de réussite en une seule modification. Le reste s'est construit par petites couches : 3,8 points ici, 1,3 là. Le hic est clair, et les chercheurs ne le cachent pas : la phase d'installation reste humaine. Il faut qu'un ingénieur configure l'environnement, définisse les contraintes de sécurité et les règles de vérification avant de laisser les agents travailler seuls. Et les tâches testées, si elles sont précises, restent contraintes. Le désordre du monde réel — un objet légèrement déplacé, une surface humide — n'est pas encore dans l'équation.

Glossaire

politique de mouvement (robot policy) — Un ensemble de règles ou d'un modèle appris qui dicte comment un robot doit bouger pour accomplir une tâche donnée.

clonage comportemental (behavioral cloning) — Une technique d'apprentissage où le robot imite des exemples de bons gestes enregistrés, un peu comme apprendre en regardant faire un expert.

boucle fermée (closed-loop) — Un système où le résultat de chaque action est mesuré et utilisé pour ajuster l'action suivante — à l'opposé d'un plan exécuté en aveugle.

Source: ENPIRE: Agentic Robot Policy Self-Improvement in the Real World

La vue d'ensemble

Ces trois papiers racontent la même histoire sous trois angles différents. ROSE nous dit que voir et agir sont deux capacités séparées dans les modèles d'IA — et que le fossé entre les deux reste bien plus grand qu'on ne l'imagine. NRT-Bench nous dit que quand on met ces modèles en équipe pour gérer des systèmes critiques, leurs failles individuelles ne se compensent pas : elles se cumulent de manière imprévisible, et les défenses elles-mêmes peuvent retourner le problème. Et ENPIRE nous dit que malgré tout ça, des systèmes autonomes commencent à fonctionner dans le monde réel, pas seulement en simulation. Ce que ça dit collectivement, c'est que nous sommes dans une période où les capacités avancent vite sur des tâches précises, mais où la compréhension de ce qui se passe à l'intérieur reste en retard. On construit des outils qui fonctionnent sans savoir exactement pourquoi. C'est inconfortable. Et c'est précisément pourquoi les benchmarks comme ROSE et NRT-Bench ont de la valeur : ils nomment les problèmes avant qu'ils deviennent des accidents.

À surveiller

Sur ENPIRE, la question à suivre est simple : est-ce que cette boucle autonome tient quand les tâches deviennent vraiment imprévisibles — pas juste précises ? Sur NRT-Bench, gardez un œil sur les travaux de défense adaptative, parce que la découverte que les garde-fous ont des effets opposés selon le modèle va pousser beaucoup d'équipes à chercher des solutions universelles. Et sur ROSE, j'aimerais voir une équipe tester le même protocole sur des images du monde réel — cuisines, chantiers, blocs opératoires — pour savoir si le fossé perception-action reste aussi béant hors des grilles de symboles.

Pour aller plus loin

Merci de m'avoir lu — à demain. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe