DeepScience — Artificial Intelligence

DeepScience · Artificial Intelligence · Digest quotidien

L'IA voit bien, mais oublie presque tout.

Trois papiers qui révèlent la même limite : nos modèles d'IA sont excellents dans l'instant, et fragiles dès qu'il faut se souvenir.

            April 27, 2026
          

Journée dense, 694 papiers à trier. La plupart sont soit trop théoriques pour être racontables, soit trop spécialisés pour vous intéresser. Mais trois d'entre eux m'ont arrêté net — parce qu'ils racontent tous la même histoire sous trois angles différents : l'IA actuelle voit très bien ce qui est là maintenant, et se perd dès que le temps passe ou que la tâche devient complexe. Voilà ce que j'ai gardé pour vous.

Les histoires du jour

              01 / 03
            

Un robot qui oublie où il a posé les objets il y a trente secondes

Imaginez que vous traversez une pièce, qu'on déplace une lampe devant vous, et que vous l'ayez déjà oubliée trente secondes plus tard.

C'est exactement ce que les meilleurs modèles d'IA font aujourd'hui dans les tests de SpaMEM — un banc d'essai construit à partir de 25 000 séquences dans 1 000 maisons virtuelles générées pour l'occasion. L'équipe derrière ce travail a voulu mesurer quelque chose de précis : est-ce qu'un modèle d'IA peut se souvenir où sont les objets quand la scène change au fil du temps ? Le protocole est en trois niveaux. Niveau 1 : une image fixe, une question simple. Niveau 2 : on donne au modèle des notes textuelles résumant ce qui s'est passé avant — comme un aide-mémoire Post-it collé au frigo. Niveau 3 : plus de Post-it, juste le flux vidéo brut, en continu. C'est là que tout s'effondre. InternVL3 — l'un des meilleurs modèles multimodaux ouverts actuellement — passe d'un score F1 de 0,36 en niveau 2 à 0,13 en niveau 3. Pour vous donner un repère : 0 c'est le hasard complet, 1 c'est la perfection. Même avec des données de profondeur — une sorte de « vision 3D » supplémentaire — les résultats ne bougent quasiment pas. Le problème n'est pas sensoriel : les modèles voient très bien. Le problème est mémoriel : ils ne maintiennent pas une carte mentale cohérente de ce qui a changé. Pourquoi ça compte ? Parce que ce type de raisonnement spatial dynamique est exactement ce qu'il faudrait pour un robot ménager, un drone d'exploration, ou un assistant chirurgical. Sans ça, l'IA reste un excellent photographe, mais un très mauvais caméraman. Le hic, et il est de taille : SpaMEM est un environnement synthétique — des maisons virtuelles, des objets simulés, zéro désordre réel. Le fossé avec un vrai appartement encombré reste entier. C'est une mesure d'une limite, pas une démonstration en conditions réelles.

Glossaire

Score F1 — Une mesure de performance entre 0 et 1 qui combine précision (est-ce que ce que le modèle dit est juste ?) et rappel (est-ce qu'il trouve tout ce qu'il devrait trouver ?).

Modèle multimodal — Un modèle d'IA qui traite à la fois des images et du texte, contrairement à ceux qui ne gèrent qu'un seul type d'information.

Raisonnement spatial dynamique — La capacité à suivre où sont les objets dans l'espace quand la scène évolue — un objet se déplace, disparaît, est remplacé.

Source: SpaMEM: Benchmarking Dynamic Spatial Reasoning via Perception-Memory Integration in Embodied Environments

              02 / 03
            

Un petit modèle qui lit vos graphiques mieux que GPT-4o

Un modèle de 7 milliards de paramètres bat GPT-4o sur la lecture de graphiques — et la méthode pour y arriver est étonnamment simple à comprendre.

Convertir un graphique en code propre — c'est-à-dire regarder un camembert ou une courbe et écrire le script Python qui le reproduirait à l'identique — est une tâche étrangement difficile pour les IA. Elle demande de voir, de lire, et de raisonner en même temps. L'équipe derrière CharTide a eu une idée qu'on retrouve souvent dans le sport de haut niveau : au lieu d'entraîner le modèle à tout faire en même temps, ils ont découpé l'entraînement en trois pistes séparées. Première piste : apprendre à décrire visuellement un graphique. Deuxième piste : apprendre à écrire du code logique, sans images. Troisième piste : fusionner les deux. Comme un triathlète qui s'entraîne séparément à la natation, au vélo et à la course, plutôt que de ne faire que des triathlons complets. Ensuite, une deuxième étape affine le modèle par renforcement : un « inspecteur » indépendant vérifie si le graphique recréé répond correctement aux mêmes questions que l'original. Si oui, bonne réponse, le modèle apprend. Ce signal est plus fiable qu'un simple score esthétique. Résultat : CharTide en version 7 milliards de paramètres surpasse GPT-4o sur trois bancs d'essai standards (ChartMimic, Plot2Code, ChartX), et se dit compétitif avec GPT-5 sur certains d'entre eux. Le hic : les chiffres détaillés ne sont pas tous publiés dans la version accessible du papier. « Compétitif avec GPT-5 » est une affirmation forte que je ne peux pas vérifier ligne par ligne. Et ce type de benchmark a ses angles morts — un modèle peut exceller sur les tests standards et trébucher sur des graphiques issus de vrais rapports d'entreprise. À confirmer en conditions réelles.

Glossaire

Paramètres — Les réglages internes d'un modèle d'IA, appris pendant l'entraînement. Un modèle à 7 milliards de paramètres est relativement compact comparé aux modèles commerciaux comme GPT-4o.

Renforcement (RL) — Une méthode d'apprentissage où le modèle reçoit des récompenses ou des pénalités en fonction de la qualité de ses réponses, un peu comme entraîner un animal avec des friandises.

Benchmark — Un test standardisé qui permet de comparer les performances de différents modèles sur une même tâche.

Source: CharTide: Data-Centric Chart-to-Code Generation via Tri-Perspective Tuning and Inquiry-Driven Evolution

              03 / 03
            

Un robot qui rate les tâches longues faute de mémoire de travail

Votre robot fait une tâche en dix étapes — mais il ne se souvient que de la dernière.

Les modèles vision-langage-action — les cerveaux des robots qui voient, comprennent et agissent — ont une hypothèse cachée dans leur conception : ce que je vois maintenant suffit pour décider quoi faire ensuite. C'est ce qu'on appelle l'hypothèse markovienne — jargon pour dire « seul le présent compte ». Mais dans la vraie vie, ce n'est pas vrai. Imaginez un cuisinier qui doit assembler un plat en dix étapes. Si à l'étape sept il ne se souvient plus qu'il a déjà mis le sel à l'étape deux, il va re-saler. Les robots tombent exactement dans ce piège : quand un objet a été déplacé plus tôt dans la tâche et n'est plus visible maintenant, le robot ne sait plus quoi faire. L'équipe derrière CodeGraphVLP propose une solution en deux parties. Première partie : un graphe sémantique — une sorte de liste de courses mentale qui s'actualise en temps réel, notant quels objets sont là, leurs relations, leur état. Deuxième partie : un planificateur écrit en code, généré une seule fois au début par un grand modèle de langage, qui consulte ce graphe à chaque étape pour savoir où en est la tâche. Sur trois tâches de manipulation réelle sur une table encombrée, CodeGraphVLP dépasse les robots comparés — y compris ceux qui utilisent d'autres techniques de mémoire. Et parce que le plan est du code exécuté localement et non un appel à un LLM à chaque étape, c'est aussi plus rapide. Le hic : trois tâches sur une table de labo, ce n'est pas une cuisine réelle avec un enfant qui passe et renverse la boîte de céréales. Les ablations — les tests qui prouvent que chaque pièce du puzzle est utile — sont mentionnées mais pas entièrement publiées dans la version analysée. Prometteur, mais les conditions d'échelle restent inconnues.

Glossaire

Modèle vision-langage-action (VLA) — Un modèle d'IA qui prend en entrée des images et du texte, et produit en sortie des actions physiques — bouger un bras, saisir un objet.

Hypothèse markovienne — L'idée que la décision suivante ne dépend que de la situation actuelle, pas de l'historique. Pratique à modéliser, souvent fausse dans la réalité.

Graphe sémantique — Une structure de données qui représente des objets et leurs relations entre eux — comme une carte mentale que le robot met à jour au fil du temps.

Source: CodeGraphVLP: Code-as-Planner Meets Semantic-Graph State for Non-Markovian Vision-Language-Action Models

La vue d'ensemble

Posez les trois histoires côte à côte et vous voyez le même mur sous trois lumières différentes. SpaMEM montre qu'un modèle perd le fil spatial dès qu'on coupe son aide-mémoire textuel. CodeGraphVLP montre qu'un robot oublie ce qu'il a fait trois étapes plus tôt. CharTide montre qu'on peut améliorer sensiblement les performances en décomposant intelligemment la tâche d'apprentissage — mais que même cette amélioration reste cantonnée à des benchmarks bien définis. Ce que ça dit collectivement : l'IA actuelle est très forte pour traiter un instant bien délimité, et beaucoup plus fragile dès qu'il faut maintenir un état cohérent dans le temps. Le présent est géré, la durée reste un problème ouvert. Ce n'est pas une catastrophe — c'est une direction de travail claire. Les équipes qui s'attaquent à la mémoire de travail des modèles, à la cohérence spatiale, à la planification longue horizon : voilà où se passe quelque chose d'important en ce moment.

À surveiller

Gardez un œil sur les benchmarks d'évaluation de robots en environnements réels — pas des maisons virtuelles, des appartements vrais. Le fossé entre synthétique et réel est la question centrale que ces trois papiers soulèvent sans la résoudre. Si une équipe publie dans les prochaines semaines des résultats de mémoire spatiale sur des plateformes robotiques physiques comme Hello Robot ou Boston Dynamics, ce sera un signal fort. Et du côté de CharTide : est-ce que quelqu'un reproduit les benchmarks en dehors du labo d'origine ? C'est la vraie question.

Pour aller plus loin

Merci de m'avoir lu — à demain. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe