DeepScience — Artificial Intelligence

DeepScience · Artificial Intelligence · Digest quotidien

L'IA au bureau : zéro document prêt pour le client

Quand on teste l'IA sur de vrais travaux professionnels, les résultats sont instructifs — et parfois dégrisants.

            April 14, 2026
          

Deux cent trente-sept papiers publiés aujourd'hui. J'en ai retenu trois parce qu'ils racontent la même chose sous trois angles différents : l'écart entre ce que l'IA réussit dans un environnement contrôlé et ce qu'elle produit quand on lui donne un vrai travail. Ce n'est pas du catastrophisme — c'est de la cartographie utile. Allez, c'est parti.

Les histoires du jour

              01 / 03
            

Les meilleurs modèles d'IA échouent à produire un document bancaire présentable

Cinq cents banquiers ont évalué les productions de neuf modèles d'IA — et aucun document n'était prêt à être montré à un client.

Une équipe a construit ce que vous pourriez appeler le parcours du combattant de la banque d'affaires : de vraies missions professionnelles, évaluées par de vrais professionnels. Cinq cent deux banquiers de Goldman Sachs, JPMorgan et Evercore ont contribué des tâches réelles — modèles financiers, analyses de valorisation, présentations — et rédigé des critères d'évaluation précis, parfois plus de cent points par mission. Neuf des meilleurs modèles actuels ont planché. Le meilleur — GPT-4 dans une version récente — échoue à près de la moitié des critères. Et zéro pour cent de ses productions ont été jugées « prêtes pour un client » par les banquiers eux-mêmes. Pensez à un stagiaire très brillant qui a lu tous les manuels de finance, mais qui n'a jamais préparé un vrai dossier sous pression. Il peut citer les bons ratios, mais son Excel ne parle pas à son PowerPoint, les chiffres se contredisent d'un fichier à l'autre, et le fil conducteur qu'un client attend n'est pas là. C'est exactement le problème identifié : les modèles peinent à maintenir une cohérence entre les différents documents produits — ce que les chercheurs appellent la « cohérence inter-artefacts ». Le hic, et il est important : ces tâches prennent jusqu'à vingt et une heures à un expert humain. Ce n'est pas un test facile. Et c'est précisément le point — si l'on veut confier à l'IA le travail à haute valeur ajoutée, c'est là que ça se passe. Pour l'instant, on n'y est pas. Un petit pas quand même : maintenant on sait où exactement ça coince.

Glossaire

cohérence inter-artefacts — Capacité d'un système à produire plusieurs documents (tableau, présentation, rapport) dont les chiffres et les arguments s'accordent entre eux sans contradiction.

Source: BankerToolBench: Evaluating AI Agents in End-to-End Investment Banking Workflows

              02 / 03
            

Un robot qui apprend à oublier devient plus utile avec le temps

Un robot qui oublie 45 % de ce qu'il a vécu répond mieux à vos questions — et s'améliore à chaque échange.

Imaginez que vous gardiez dans votre tête, en détail, chaque conversation que vous avez eue depuis dix ans. Vous seriez incapable de retrouver quoi que ce soit rapidement. L'oubli sélectif n'est pas un défaut de la mémoire humaine — c'est une fonctionnalité. Une équipe a appliqué cette logique à un robot. Leur système, H²-EMV, tourne sur le robot humanoïde Armar-7, qui a enregistré plus de vingt heures de travail domestique en conditions réelles. Au lieu de tout garder, le robot utilise un modèle de langage pour évaluer la pertinence de chaque souvenir selon le contexte et les priorités de l'utilisateur. Les souvenirs peu utiles sont progressivement effacés. Résultat : la mémoire du robot est réduite de 45 %, le coût de traitement baisse de 35 %, et — c'est la partie surprenante — la précision des réponses augmente de 70 % lors d'un deuxième round de questions, une fois que le robot a appris ce qui compte pour vous. Le hic : lors du premier round, le système qui oublie répond deux fois moins bien que celui qui garde tout. L'oubli coûte à court terme. Et les expériences portent sur des données de cuisine simulée et sur un seul robot dans un seul labo — on est encore loin du déploiement chez vous. Mais la direction est claire : un robot utile sur la durée a besoin de savoir quoi jeter, pas seulement quoi retenir.

Glossaire

mémoire épisodique — Mémoire des événements vécus dans le temps, par opposition à la mémoire des faits généraux — ici, le fil chronologique des actions et observations du robot.

modèle de langage — Système d'IA entraîné sur de grands corpus de texte, capable de comprendre et de générer du langage naturel, utilisé ici pour évaluer la pertinence des souvenirs.

Source: Learning to Forget -- Hierarchical Episodic Memory for Lifelong Robot Deployment

              03 / 03
            

Le même petit modèle, utilisé autrement, bat un modèle quatre fois plus gros

Sans modifier une seule ligne du modèle, juste en changeant la façon de l'utiliser, une équipe a doublé ses performances sur des tâches complexes.

Voici une idée simple avec des implications pratiques : ce n'est pas seulement quel modèle vous utilisez qui compte, c'est comment vous l'organisez autour d'une tâche. Une équipe a pris Qwen3-8B, un modèle relativement compact (8 milliards de paramètres — pensez à un cuisinier compétent mais pas étoilé), et l'a déployé dans trois rôles distincts en séquence : un premier rôle de résumeur qui compresse l'historique de la conversation pour éviter la surcharge, un deuxième rôle d'agent qui exécute la tâche, un troisième rôle de correcteur qui relit et ajuste. Le même modèle, trois casquettes, les mêmes poids — rien de réentraîné. Le taux de réussite sur les tâches a presque doublé : de 5,4 % à 8,9 %. Et ce modèle réorganisé dépasse numériquement DeepSeek-Coder 33B, un modèle quatre fois plus lourd. Soyons honnêtes, cependant. Les auteurs eux-mêmes précisent que la différence avec le 33B n'est pas statistiquement significative sur 168 tâches — il ne faut pas surinterprétter. Et 8,9 %, c'est encore loin des 48,8 % de GPT-4o sur le même test. On est à environ un cinquième de la performance des meilleurs modèles. Ce n'est pas une révélation — c'est un résultat utile qui dit : avant d'acheter un modèle plus cher, regardez comment vous utilisez celui que vous avez.

Glossaire

paramètres — Les réglages internes d'un modèle d'IA, appris pendant l'entraînement — plus il y en a, plus le modèle est généralement capable (et coûteux).

inférence — Le moment où un modèle entraîné est utilisé pour répondre à une question ou accomplir une tâche, par opposition à la phase d'entraînement.

Source: Three Roles, One Model: Role Orchestration at Inference Time to Close the Performance Gap Between Small and Large Agents

La vue d'ensemble

Ces trois papiers racontent le même problème sous trois costumes différents. Les banquiers montrent que même le meilleur modèle du moment ne produit rien d'utilisable dans un contexte professionnel exigeant. Le robot montré que la mémoire brute n'est pas une vertu — savoir oublier intelligemment est ce qui rend un système utile dans la durée. Et le troisième papier rappelle que la façon dont on orchestre un modèle peut compter autant que sa taille. Ce qu'ils disent collectivement : le goulot d'étranglement n'est plus seulement « le modèle est-il assez puissant ? ». Il est de plus en plus du côté de l'architecture, de l'usage, de la gestion de la mémoire et du contexte. La prochaine bataille se joue moins dans les labos de préentraînement que dans la conception des systèmes autour des modèles. Ce n'est pas une mauvaise nouvelle — c'est un terrain sur lequel beaucoup de gens, pas seulement les chercheurs en IA, peuvent contribuer.

À surveiller

La conférence ACL 2026 (août) devrait apporter une première vague de résultats sur l'évaluation des agents dans des contextes professionnels réels — BankerToolBench pourrait inspirer des benchmarks similaires en droit, médecine ou comptabilité. Plus immédiatement, je serai curieux de voir si quelqu'un tente de répliquer le résultat des « trois rôles » sur d'autres benchmarks avec plus de tâches, pour confirmer ou invalider la comparaison avec le 33B.

Pour aller plus loin

Merci de m'avoir lu. À demain. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe