DeepScience — Artificial Intelligence

DeepScience · Artificial Intelligence · Digest quotidien

L'IA qui coince, celle qui économise, celle qui teste

Trois papiers pour comprendre où l'IA bute encore — et où elle surprend vraiment.

            April 21, 2026
          

Quatre-vingt-six papiers dans la pile ce matin, et franchement, beaucoup de bruit pour pas grand-chose — des frameworks inventés, des revues sans données, deux doublons sur une même formule mathématique qui prétend mesurer la « conscience ». J'ai fait le tri pour vous. Ce qui reste est honnête : une étude sur les vrais ratés des LLMs en entreprise, une perspective sur comment repenser l'architecture des puces IA pour arrêter de gaspiller de l'énergie, et — la surprise du jour — des LLMs qui fabriquent des tests psychologiques aussi bons que ceux d'experts humains. Allez c'est parti.

Les histoires du jour

              01 / 03
            

Trois façons concrètes dont les LLMs échouent dès que le travail se complique

Vous avez confié un projet complexe à ChatGPT, et à mi-chemin ça s'est effiloché — cette étude explique exactement pourquoi, et donne des noms aux problèmes.

Des chercheurs ont passé au crible plusieurs workflows réels de développement logiciel avec des LLMs — ces grands modèles de langage comme ChatGPT ou Claude — et ils ont cartographié trois types de ratés qui reviennent systématiquement. Le premier, ils l'appellent la « Falaise de Complexité ». Imaginez que vous demandez à un cuisinier d'improviser un plat simple : ça marche. Vous lui demandez d'improviser un banquet à cinq services où chaque plat doit s'accorder avec les autres : il se noie. C'est la même chose avec un LLM. Tant que les tâches sont indépendantes les unes des autres, ça roule. Mais dès que les éléments s'enchaînent et se conditionnent mutuellement, les performances s'effondrent — de façon non linéaire, c'est-à-dire bien plus vite qu'on ne l'anticipe. Le deuxième problème, la « Cécité de Contexte ». Les LLMs ont une fenêtre de contexte — une quantité maximale de texte qu'ils peuvent tenir en mémoire à la fois. Sur un projet distribué dans de nombreux fichiers, le modèle perd silencieusement de vue les parties qu'il ne lit plus. Il continue à répondre avec assurance, mais il viole des règles qui étaient définies ailleurs dans le code. Personne ne le signale. C'est le danger : l'erreur est muette. Le troisième, l'« Illusion de Mémoire ». À chaque nouvelle session, le modèle repart de zéro. Toute la compréhension architecturale accumulée dans la conversation précédente disparaît. Le modèle ne s'en souvient pas — et ne vous prévient pas qu'il ne s'en souvient pas. Le hic : ce papier est une analyse de cas, pas une expérience contrôlée. Les observations sont pertinentes, mais les seuils précis — à quel degré d'interdépendance la falaise se produit-elle ? — restent à quantifier rigoureusement. Un diagnostic utile, pas encore une prescription.

Glossaire

LLM — Grand modèle de langage : un système d'IA entraîné sur d'énormes quantités de texte pour générer du langage, comme ChatGPT ou Claude.

fenêtre de contexte — La quantité maximale de texte qu'un LLM peut lire et « tenir en mémoire » en une seule interaction.

non linéaire — Une dégradation non linéaire signifie que les erreurs n'augmentent pas proportionnellement à la difficulté — elles explosent soudainement passé un certain seuil.

Source: Is AI Really Intelligent? Practical Insights from Real-World Use of Generative AI

              02 / 03
            

Une puce IA qui pense sur place au lieu de faire des allers-retours épuisants

Jusqu'à 88 % de l'énergie d'un certain type de puce IA part uniquement à déplacer des données — pas à calculer, juste à les transporter.

Voici comment fonctionne un ordinateur classique, dans ses grandes lignes : il y a un capteur qui perçoit le monde (une caméra, un micro), une mémoire qui stocke les données, et un processeur qui calcule. Ces trois éléments sont séparés physiquement. À chaque opération, les données font des allers-retours entre eux. C'est comme si votre cuisinier devait aller chercher chaque ingrédient dans une réserve au sous-sol, monter le consulter dans un livre de recettes au premier étage, puis redescendre cuisiner — pour chaque geste. Épuisant, lent, et coûteux en énergie. Cette architecture, on l'appelle von Neumann, du nom du mathématicien qui l'a théorisée en 1945. Elle a très bien fonctionné pendant des décennies. Mais pour l'IA embarquée — dans des drones, des capteurs médicaux, des robots — elle devient un goulot d'étranglement. Des chercheurs citent un chiffre frappant : dans certains systèmes à mémoire résistive, les convertisseurs analogique-numérique à eux seuls consomment jusqu'à 88 % de l'énergie totale. Pas pour calculer. Juste pour transférer. La solution proposée dans cette perspective publiée dans Nano-Micro Letters s'appelle l'informatique « en-capteur-mémoire » (in-sensor-memory computing, ou ISMC) : l'idée est de fondre capteur, mémoire et calcul dans un seul composant physique. Le cuisinier a tout à portée de main sur le même plan de travail. Les données ne voyagent plus — elles sont traitées là où elles naissent. Le hic : c'est un article de perspective, pas un rapport d'expérience. Les auteurs synthétisent la littérature existante et dessinent une direction. Les gains d'efficacité réels dépendront des matériaux (mémristors, matériaux ferroélectriques) et de l'intégration industrielle — aucun des deux n'est trivial.

Glossaire

architecture von Neumann — Modèle d'ordinateur classique où capteur, mémoire et processeur sont des unités séparées qui échangent des données en permanence.

mémristor — Composant électronique qui peut stocker et traiter de l'information simultanément, contrairement aux transistors classiques.

ISMC — In-Sensor-Memory Computing : architecture qui fusionne capteur, mémoire et calcul dans un seul composant pour éviter les transferts d'énergie coûteux.

Source: In-Sensor-Memory Computing for Post-Von Neumann Intelligence: A Perspective

              03 / 03
            

Des LLMs qui écrivent des questionnaires psychologiques valides — prouvé sur 5 000 personnes

Écrire un bon questionnaire psychologique prend des années d'expertise — et des LLMs viennent de le faire aussi bien, validé sur cinq échantillons nationaux américains.

Construire une échelle psychométrique — c'est-à-dire un questionnaire scientifique pour mesurer un trait de personnalité, un niveau d'anxiété, ou une attitude — est un métier. Il faut rédiger des dizaines de questions candidates, les soumettre à des experts, les tester sur de larges populations, analyser leurs structures statistiques, en éliminer, recommencer. Cela prend typiquement plusieurs années. Une équipe a développé une méthode appelée AI-GENIE — Automatic Item Generation and Validation with Network-Integrated Evaluation — qui confie cette première étape à des LLMs. Le modèle génère des questions candidates, et un algorithme réseau — une technique qui cartographie les relations entre items comme un réseau de routes — évalue automatiquement lesquelles sont les plus cohérentes et représentatives. La question qui compte : est-ce que les échelles produites tiennent la route ? Pour le vérifier, l'équipe a testé les questionnaires générés sur cinq échantillons représentatifs de la population américaine, soit 4 964 personnes au total, en comparant les structures statistiques avec des échelles développées par des experts humains. Résultat : la validité structurelle — la façon dont les items se regroupent logiquement — est comparable. Les modèles testés incluaient Mixtral, Gemma 2, Llama 3, GPT-3.5 et GPT-4o. C'est un vrai pas. La psychologie manque cruellement d'outils de mesure dans des domaines peu étudiés, et cette méthode pourrait accélérer la recherche là où les experts sont rares. Le hic, et il est important : « validité structurelle comparable » ne signifie pas que les construits mesurés sont équivalents dans leur sens. Un questionnaire peut avoir une belle structure statistique et mesurer quelque chose de subtil différent de ce qu'on croit. La validation de contenu par des humains reste nécessaire.

Glossaire

psychométrie — La science de la mesure des traits psychologiques — construire et valider des questionnaires pour mesurer des caractéristiques humaines comme la personnalité ou l'anxiété.

validité structurelle — La mesure dans laquelle les questions d'un questionnaire se regroupent de façon cohérente et logique, telle qu'elle est révélée par l'analyse statistique.

réseau psychométrique — Technique qui représente les relations entre items d'un questionnaire comme un réseau de connexions, pour identifier les items les plus centraux et cohérents.

Source: Generative Psychometrics via AI-GENIE: Automatic Item Generation and Validation with Network-Integrated Evaluation

La vue d'ensemble

Ces trois papiers ne parlent pas du même sujet en surface — les ratés des LLMs au bureau, l'architecture des puces, les questionnaires psy. Mais ils pointent tous vers la même tension de fond : l'IA actuelle est à la fois plus utile et plus fragile qu'on ne le dit. Elle échoue silencieusement sur les tâches complexes. Elle gaspille de l'énergie sur des transferts que personne ne voit. Et pourtant, sur certaines tâches précises et bien délimitées, elle produit des résultats que même les experts peinent à distinguer du leur. Ce n'est pas une contradiction — c'est un portrait réaliste. L'IA n'est pas un outil universel en train de tout résoudre. C'est un ensemble d'outils spécialisés, dont certains sont déjà matures, et dont les limites structurelles — mémoire, contexte, énergie — sont encore des chantiers ouverts. Soyons honnêtes : la recherche d'aujourd'hui travaille surtout sur ces fondations. Ce n'est pas glamour. C'est nécessaire.

À surveiller

Sur le front des LLMs en production, surveillez les annonces de contexte long des prochains mois — Anthropic et Google travaillent tous deux à repousser ces fenêtres de contexte, et les papiers comme celui d'aujourd'hui leur fourniront des benchmarks de terrain utiles. Sur l'ISMC, la conférence IEDM (International Electron Devices Meeting) en décembre est le rendez-vous où les prototypes de puces neuromorphiques passent le test de la communauté. D'ici là, la question que j'aimerais voir répondue : peut-on automatiser non seulement la génération d'items psychométriques, mais aussi leur validation de sens — pas seulement leur cohérence statistique ?

Pour aller plus loin

Merci de m'avoir lu — à demain. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe