All digests
General publicFRArtificial Intelligencedaily

[Artificial Intelligence] L'IA sait tout, mais comprend les enchaînements à 3 %

DeepScience — Artificial Intelligence
DeepScience · Artificial Intelligence · Digest quotidien

L'IA sait tout, mais comprend les enchaînements à 3 %

Mémoire cassée, carrefours sans feux, agents plus malins : trois vrais pas en avant — et un abîme encore ouvert.
May 13, 2026
Journée dense. 288 papiers en entrée, dont plusieurs que j'ai mis de côté parce qu'ils ressemblaient davantage à des spécifications maison déposées sur Zenodo qu'à de la recherche. Ce qui reste est solide. Je vous propose trois histoires aujourd'hui : une qui révèle un angle mort sérieux dans la mémoire des IA, une qui envoie un modèle de langage gérer un carrefour à la place des feux, et une qui donne enfin à un agent la mémoire d'un bon stagiaire.
Les histoires du jour
01 / 03

Les IA mémorisent des faits, mais ratent les enchaînements

Taux de réussite : 3 %. Puis 1 %. Ce sont les scores de tous les systèmes de mémoire IA testés dès qu'on leur pose une question qui exige de suivre une chaîne de conséquences.

Imaginez un assistant qui sait que Paul est l'ami de Marie, que Marie vient de quitter son travail, et que Paul ne fréquente que des gens encore en poste. Vous lui demandez : est-ce que Paul voit encore Marie ? Il bute. Il a toutes les pièces du puzzle — il est incapable de les assembler dans le bon ordre. C'est exactement ce que vient de mesurer une équipe de chercheurs avec MEME (*Multi-Entity & Evolving Memory Evaluation*). Ils ont évalué six systèmes de mémoire différents — les moteurs qui permettent à un agent IA de se souvenir d'une conversation à l'autre — sur cent scénarios construits autour de graphes de connaissance structurés, dans deux domaines : vie personnelle et projets logiciels. Pour les questions simples — « quelle est la dernière valeur connue pour X ? » — les systèmes s'en sortent. C'est quand les questions exigent de suivre une chaîne de conséquences que tout s'effondre. Taux de réussite : 3 % pour les tâches de « cascade » (si A change, qu'arrive-t-il à B et C ?), et 1 % pour les tâches d'« absence » (qu'est-ce qui n'a pas encore changé depuis l'événement Y ?). Les chercheurs ont ensuite tout essayé : meilleurs prompts, recherche plus approfondie, réduction du bruit, modèles plus puissants. Rien ne ferme l'écart. Seule une architecture à base de fichiers couplée à Claude Opus 4.7 remonte partiellement la pente — au prix d'un coût de calcul multiplié par soixante-dix. Le hic : les scénarios restent fictifs. On ignore si la même fragilité se retrouve à l'identique dans des usages réels, et aucune architecture connue ne résout le problème sans exploser la facture.

Glossaire
graphe de connaissanceUne structure de données qui représente des entités (personnes, faits, événements) et les relations entre elles, comme une carte mentale formalisée.
tâche de cascadeUne question qui demande de propager un changement à travers une chaîne de relations : si X change, quelles conséquences sur Y, puis sur Z ?
tâche d'absenceUne question qui demande d'identifier ce qui n'a pas changé suite à un événement, en excluant activement les éléments mis à jour.
02 / 03

Un LLM gère un carrefour sans feux, en temps réel

Supprimez les feux. Donnez à chaque voiture une voix. Laissez un modèle de langage décider qui passe. Le délai d'attente chute de 89 %.

À une intersection classique, les feux fonctionnent comme un chef d'orchestre qui suit toujours la même partition, qu'il y ait trois voitures ou trente. Résultat : du gaspillage. Vous attendez au rouge pendant qu'un carrefour désert vous nargue. LISA propose autre chose. Chaque véhicule déclare son intention — direction, vitesse — et un modèle de langage distribue des consignes individuelles en temps réel : accélère, ralentis, attends. Pas de cycle fixe, pas de feux physiques. Dans des simulations réalisées avec le logiciel SUMO par une équipe australienne, les résultats sont frappants : délai moyen réduit de 89 % par rapport à un feu à cycle fixe, temps d'attente divisé par dix, consommation de carburant amputée de près de la moitié. Tous les systèmes comparés — feux adaptatifs classiques, protocoles de carrefours automatisés — ont décroché au niveau de service F à forte demande. LISA a tenu le niveau C. Pour éviter que le modèle recalcule à chaque voiture, les chercheurs ont ajouté une table de mémorisation des décisions récurrentes : 98,8 % des requêtes sont résolues sans solliciter le LLM, ce qui maintient une latence raisonnable. Le hic est sérieux. LISA n'a été testé que dans une simulation, sur un seul carrefour à quatre branches, sans piétons, sans cyclistes, et avec un seul modèle (Gemini 2.5 Flash Lite). Les chiffres de réduction de carburant ne sont pas même cohérents d'une section à l'autre du papier. Et si le modèle hallucine une consigne, la voiture l'exécute quand même. La robustesse aux erreurs du LLM est la vraie question — elle n'est pas encore résolue.

Glossaire
niveau de service (A à F)Échelle standard en ingénierie du trafic qui mesure la fluidité d'une voie : A est fluide, F est le blocage quasi-total.
table de mémorisation (MAT)Un cache qui enregistre les décisions d'arbitrage déjà prises pour des situations similaires, évitant de re-solliciter le LLM à chaque véhicule.
03 / 03

Un agent qui retient comment naviguer dans vos applis

Chaque fois qu'un agent IA pilote une application, il repart de zéro — comme un stagiaire qui réapprend les mêmes gestes chaque matin.

Vous avez peut-être déjà vu une démonstration d'agent IA qui navigue sur un téléphone : il décrit ce qu'il voit, réfléchit, clique, redécrit, réfléchit à nouveau. C'est lent, c'est coûteux, et ça plante souvent sur les tâches longues, parce que l'agent n'a aucune mémoire procédurale — il ne retient pas les chemins qui marchent. EAM (*Executable Agentic Memory*), développé par une équipe de chercheurs en collaboration avec plusieurs laboratoires chinois, propose une architecture différente. Plutôt que de raisonner depuis zéro à chaque action, l'agent construit d'abord une carte — un graphe de connaissance des chemins qui fonctionnent dans l'application, assemblé par une exploration automatique. Face à une tâche, il cherche dans cette carte l'itinéraire le plus proche, l'adapte si besoin, et l'exécute. Sur le benchmark AndroidWorld, EAM dépasse UI-TARS-7B, un modèle de référence du secteur, de 19,6 points de pourcentage. Ce qui frappe davantage pour un déploiement réel : le coût en tokens — la quantité de texte traité par le modèle, qui se traduit directement en facture d'API — est divisé par six par rapport à une approche basée sur GPT-4o. La latence moyenne est de 2,8 secondes. Le hic : la mémoire doit être construite à l'avance. Ça fonctionne bien pour des applications stables que l'agent utilise souvent. Beaucoup moins pour des interfaces qui changent régulièrement, ou pour des tâches vraiment inédites. Les détails expérimentaux complets — taille des échantillons, intervalles de confiance — ne sont pas tous disponibles dans la version préprint.

Glossaire
graphe de connaissance (dans ce contexte)Une carte structurée des états de l'interface et des actions qui permettent de passer de l'un à l'autre, construite par exploration préalable de l'application.
tokensLes unités de base traitées par un modèle de langage — grossièrement, des morceaux de mots. Plus une interaction en consomme, plus elle est chère et lente.
benchmark AndroidWorldUn environnement d'évaluation standardisé où un agent doit accomplir des tâches réelles sur un Android virtuel, utilisé pour comparer objectivement les agents GUI.
La vue d'ensemble

Ces trois papiers dessinent un même paysage, chacun depuis un angle différent. EAM et LISA montrent que les agents IA commencent à acquérir quelque chose qui ressemble à de la mémoire procédurale — la capacité de retenir comment faire, pas seulement quoi faire. C'est un vrai progrès sur des tâches courtes et bien définies. Mais MEME rappelle que le problème profond n'est pas le stockage de faits, c'est le raisonnement sur des enchaînements. Savoir que Marie a quitté son poste est une chose. Déduire toutes les conséquences en cascade en est une autre — et là, les meilleurs systèmes actuels sont à 3 %. Ce que ces trois résultats nous disent collectivement : la recherche en agents IA avance vite sur la performance de surface, mais le raisonnement causal et temporel — comprendre ce qui découle de quoi — reste un angle mort structurel. C'est là que se jouera la fiabilité réelle des agents dans deux ou trois ans. Personne n'a encore la réponse.

À surveiller

Le benchmark MEME va probablement attirer des soumissions de nouveaux systèmes de mémoire dans les semaines qui viennent — c'est le cycle habituel : un benchmark sévère, puis une course aux améliorations. À surveiller : est-ce qu'une architecture radicalement différente (pas juste un meilleur retrieval) permettra de dépasser les 20 % sur les tâches de cascade, et à quel coût computationnel ? Pour LISA, la vraie question est : quelqu'un va-t-il tester ça sur un vrai carrefour, avec de vrais piétons ?

Pour aller plus loin
Merci de m'avoir lu — bonne semaine. — JB
DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io