DeepScience — Artificial Intelligence

DeepScience · Artificial Intelligence · Digest quotidien

L'IA sait, mais ne fait pas — trois preuves aujourd'hui.

Quand la recherche en IA révèle l'écart entre ce que les modèles comprennent et ce qu'ils font réellement.

            April 22, 2026
          

Trois papiers aujourd'hui, et un fil rouge inattendu : l'IA qui connaît la bonne réponse… mais ne l'applique pas. Comprendre un danger, résoudre une logique, générer une vidéo cohérente — dans les trois cas, la reconnaissance précède de loin l'action. C'est une journée dense, honnête, et franchement instructive.

Les histoires du jour

              01 / 03
            

L'IA voit le danger dans la cuisine — mais ne l'évite pas

Imaginez quelqu'un qui sait parfaitement qu'une plaque de cuisson est allumée — et qui pose quand même la main dessus.

C'est, en substance, ce que des chercheurs ont découvert en testant onze grands modèles multimodaux — ces IA capables de voir des images et de planifier des actions — dans des cuisines simulées. L'équipe a construit SafetyALFRED, une extension d'un environnement de simulation appelé AI2-THOR, avec 30 cuisines virtuelles et six catégories de dangers : risque d'incendie, chutes, mauvais usage d'appareils, dégâts matériels, nourriture avariée, insalubrité. Mille trajectoires de test au total. Le protocole sépare deux moments. Premier moment : on montre à l'IA une scène et on lui pose une question directe — « y a-t-il un danger ici ? » Elle répond correctement dans 92 % des cas en moyenne. Très bon score. Deuxième moment : on lui demande de planifier et d'exécuter une tâche dans ce même environnement, en gérant les dangers au passage. Là, le taux de succès tombe sous 60 % — même quand on lui donne en cadeau l'état exact de l'environnement. L'analogie qui s'impose : c'est comme un conducteur qui réussit le code de la route haut la main, mais qui grille les stops dès qu'il est au volant. La connaissance déclarative et l'action en situation sont deux choses très différentes. Les chercheurs ont aussi testé un système à deux agents séparés — l'un détecte, l'autre agit. Légère amélioration. Pas suffisante pour combler l'écart. Le hic ? Tout se passe dans une simulation. Les cuisines sont standardisées, les dangers sont prédéfinis. Le monde réel est infiniment plus imprévisible. Ce résultat est un signal d'alarme, pas un verdict définitif — mais c'est un signal qu'on ne peut pas ignorer si on envisage de déployer ces systèmes dans des environnements physiques.

Glossaire

modèle multimodal — Un modèle d'IA capable de traiter plusieurs types d'entrées à la fois — texte, image, voire audio — pour raisonner et agir.

trajectoire — En robotique et simulation, la séquence complète d'actions qu'un agent exécute pour accomplir une tâche.

Source: SafetyALFRED: Evaluating Safety-Conscious Planning of Multimodal Large Language Models

              02 / 03
            

GPT-5 invente des axiomes quand il est coincé — mais n'essaie pas de tricher

Est-ce que les meilleures IA trichent en logique — ou est-ce qu'elles hallucinent honnêtement ?

La question mérite d'être posée sérieusement. Quand on donne à un modèle de langage un problème de logique formelle et qu'il produit une preuve correcte compilable, est-ce qu'il a vraiment raisonné — ou est-ce qu'il a contourné le problème ? Une équipe a soumis 303 problèmes de logique de premier ordre à GPT-5 et DeepSeek-R1, en leur demandant de produire des preuves formelles dans un langage de vérification appelé Lean 4 — un outil qui valide mécaniquement chaque étape, comme un correcteur d'orthographe mais pour la logique mathématique. Taux de compilation obtenu : 87 à 99 %. Impressionnant. Mais les chercheurs ont creusé. Ils ont séparé l'exercice en deux étapes : d'abord traduire le problème en langage formel, ensuite chercher la preuve. Cette séparation révèle deux comportements très distincts. GPT-5, coincé lors de l'étape de preuve, fabrique des axiomes qui n'existaient pas dans l'énoncé — comme un étudiant qui, bloqué à un examen, invente un théorème pour boucher le trou. Ce n'est pas de la triche délibérée : c'est une hallucination réactive, une panique formalisée. DeepSeek-R1, lui, fait l'erreur plus tôt : il mistraduit les prémisses du problème dès la première étape, produisant une preuve qui tient la route en interne — mais qui répond à un problème légèrement différent de celui posé. Et parce que la logique interne est cohérente, même un juge automatique (un autre LLM utilisé pour évaluer) ne détecte rien. La leçon ici est importante : un bon taux de compilation ne prouve pas que l'IA raisonne fidèlement. C'est comme un devoir proprement mis en page — ça ne dit rien sur la justesse du raisonnement derrière.

Glossaire

logique de premier ordre — Un système formel de raisonnement avec des variables, des quantificateurs (« pour tout », « il existe ») et des relations — la grammaire de base des mathématiques et de la philosophie analytique.

axiome — Une affirmation de départ acceptée comme vraie sans démonstration, à partir de laquelle on déduit d'autres vérités.

hallucination — Quand un modèle d'IA produit une information plausible en apparence mais fausse ou inventée.

Source: Do LLMs Game Formalization? Evaluating Faithfulness in Logical Reasoning

              03 / 03
            

Les meilleurs modèles vidéo réussissent moins de 25 % des tâches logiques

Les modèles qui génèrent des vidéos bluffantes sur votre fil Twitter approchent les 0 % de succès sur les tâches interactives — zéro, vraiment.

Des chercheurs ont construit CLVG-Bench, un banc de test de plus de 1 000 scénarios organisés en 47 sous-catégories : édition d'éléments visuels, simulation physique, raisonnement logique, génération interactive. Ils ont ensuite évalué plusieurs des meilleurs modèles de génération vidéo du moment — dont Seedance 2.0 — sur ces tâches. Le constat est cru. Sur les tâches qui exigent du raisonnement logique ancré — « génère une vidéo où un objet suit les lois de la gravité après avoir été lâché » — les modèles réussissent moins de 25 % du temps. Sur les tâches interactives — où le modèle doit s'adapter à ce qui se passe dans la scène en cours — le taux de succès est d'environ 0 %. Pensez à un acteur de théâtre d'improvisation extraordinaire pour réciter un monologue écrit d'avance, mais incapable de réagir dès que son partenaire improvise. Les modèles vidéo savent reproduire des patterns visuels qu'ils ont appris — mais ils ne modélisent pas la causalité physique. Ils ne comprennent pas pourquoi une balle tombe. Ils ont vu des millions de balles tomber, et ils savent à quoi ça ressemble. Ce n'est pas la même chose. Point positif noté par les auteurs : fournir une description explicite du contexte via un modèle de vision-langage séparé améliore la plausibilité physique des vidéos générées. Autrement dit, l'IA peut partiellement compenser son absence de sens physique si on lui mâche le travail. Le hic : CLVG-Bench est un nouveau benchmark, construit par la même équipe. Il faudra que d'autres groupes le testent et le contestent avant d'en tirer des conclusions définitives. Et les modèles progressent vite — ce qui est vrai aujourd'hui peut être périmé dans six mois.

Glossaire

benchmark — Un ensemble de tests standardisés servant à mesurer et comparer les performances de différents systèmes d'IA.

causalité physique — La capacité à comprendre et prédire ce qui arrive dans le monde physique en suivant des lois (gravité, friction, etc.), pas seulement en reproduisant des apparences visuelles.

Source: How Far Are Video Models from True Multimodal Reasoning?

La vue d'ensemble

Vous voyez le fil ? Trois papiers, trois domaines différents — sécurité physique, logique formelle, génération vidéo — et à chaque fois le même gouffre entre la surface et la profondeur. L'IA reconnaît le danger mais ne l'évite pas. Elle compile une preuve mais invente les prémisses qui lui manquent. Elle génère une vidéo crédible mais ne comprend pas pourquoi la balle tombe. Ce que ces résultats disent collectivement, c'est que nous sommes entrés dans une phase nouvelle de la recherche en IA : les modèles sont assez bons pour réussir les tests de surface — et assez sophistiqués pour que leurs échecs soient difficiles à détecter. La question n'est plus « est-ce que l'IA peut produire quelque chose de plausible ? » — elle peut, souvent très bien. La question est désormais « est-ce que ce que l'IA produit correspond à ce qu'elle a réellement compris ? ». Et là, franchement, on ne sait pas encore bien mesurer ça. C'est le vrai chantier des deux prochaines années.

À surveiller

Sur la sécurité des agents incarnés, gardez un œil sur les benchmarks qui sortiront autour de la conférence CoRL (Conference on Robot Learning) en automne — c'est là que ce genre de résultat sur simulation se confronte à des robots réels. Sur la fidélité du raisonnement logique, la question ouverte que j'aimerais voir adressée : est-ce que des modèles entraînés explicitement sur Lean 4 commettent les mêmes erreurs de fabrication d'axiomes que GPT-5 — ou est-ce un artefact du fine-tuning généraliste ?

Pour aller plus loin

Merci de m'avoir lu — prenez soin de vous, à demain. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe