DeepScience — Artificial Intelligence

DeepScience · Artificial Intelligence · Digest quotidien

L'IA rate la cuisine, la voiture et l'ordonnance.

Trois papiers du jour posent la même question : peut-on vraiment confier des tâches critiques à une IA en 2026 ?

            June 15, 2026
          

292 papiers disponibles aujourd'hui — et une tendance claire se dégage. Pas d'annonce spectaculaire, pas de percée unique. Plutôt une accumulation de chercheurs qui testent l'IA là où les erreurs coûtent vraiment : dans une cuisine simulée, au volant, dans un cabinet médical. Le tableau est honnête, parfois inconfortable. Je vous propose trois histoires.

Les histoires du jour

              01 / 03
            

Demandez à une IA de planifier un repas : elle échoue 83% du temps.

Vous suivez une recette à la lettre, et c'est seulement quand vous sortez le plat du four que vous réalisez avoir raté l'étape 3 — 20 minutes plus tôt.

C'est exactement ce que les chercheurs derrière SIMMER appellent une « défaillance latente » : une erreur commise en chemin, silencieuse, qui ne déclenche aucune alarme immédiate mais dont les conséquences sont souvent irréversibles. Pour mesurer ça, ils ont construit un simulateur de cuisine symbolique — 77 actions, 262 objets, près de 46 800 interactions possibles — et y ont soumis six grands modèles de langage, dont les meilleurs disponibles aujourd'hui. Les tâches : planifier des séquences de cuisine tirées de WikiHow et d'Instructables. Résultat : au mieux, 17% des plans sont sans erreur. Dans 29 à 56% des cas selon le modèle testé, le plan contient au moins une défaillance latente. Et dans la majorité de ces cas, l'erreur mène à une conséquence irréversible dans la simulation. Pourquoi ça compte ? Parce que les « agents » IA — ces systèmes qui ne se contentent plus de répondre à des questions mais qui enchaînent des actions : réserver, commander, remplir, exécuter — sont déjà déployés dans des contextes où les erreurs silencieuses coûtent cher. Si un agent rate silencieusement l'étape 3 dans une vraie chaîne logistique ou un vrai formulaire administratif, personne ne voit rien jusqu'à ce que ce soit trop tard. Le hic : SIMMER reste cantonné à la cuisine, et le simulateur est symbolique — il ne capture pas toute la rugosité du monde réel. La bonne nouvelle : une technique de simulation dite contrefactuelle, où on demande à l'IA d'anticiper ce qui peut mal tourner, réduit les défaillances latentes de 72% sur les meilleurs modèles. Ce n'est pas un remède, mais c'est un signal sérieux.

Glossaire

défaillance latente — Une erreur commise dans un plan ou une séquence d'actions qui ne provoque pas d'alerte immédiate mais produit des effets néfastes plus tard, souvent impossibles à corriger.

agent IA — Un système d'IA capable de prendre une série de décisions et d'actions en séquence pour accomplir une tâche, à la différence d'un simple chatbot qui répond à une question isolée.

simulation contrefactuelle — Une technique qui consiste à demander à un modèle d'imaginer ce qui se passerait si une étape tournait mal, pour détecter les erreurs potentielles avant qu'elles se produisent.

Source: SIMMER: Benchmarking Latent Failures in LLM Executable Planning with a World Model

              02 / 03
            

Mettre un grand modèle de langage au volant ? Les normes de sécurité disent non.

HAL 9000 refusait d'ouvrir la porte du vaisseau. Nos voitures, elles, auraient peut-être besoin d'un peu de sa prudence.

Des chercheurs ont passé les frameworks d'intégration des LLM dans les systèmes automobiles au crible de deux normes de sécurité industrielles : l'ISO 21448, qui encadre la sécurité fonctionnelle en conditions réelles, et l'ISO/PAS 8800, qui s'attaque spécifiquement aux systèmes d'IA embarqués. Le verdict est net : les approches actuelles ne passent pas la barre. Deux problèmes majeurs émergent. Le premier est une question de temps de réponse. Un LLM doit parfois plusieurs secondes pour produire une réponse. Dans un véhicule en mouvement, c'est une éternité — les normes automobiles mesurent les temps de réaction en millisecondes. Le second problème est plus profond : quand un constructeur intègre un modèle de langage généraliste dans sa voiture, il n'a aucun contrôle sur la façon dont ce modèle a été entraîné ni sur les données qui l'ont nourri. C'est ce que les chercheurs appellent le « fossé d'assurance » — on vous demande de garantir la sécurité d'une boîte noire que vous n'avez pas fabriquée. Ils illustrent ça avec une image parlante : utiliser un simple message texte comme garde-fou dans un système de sécurité, c'est comme confier la surveillance du poulailler au renard. Le hic : c'est un papier d'analyse, pas un test sur route. Les chercheurs n'ont pas déployé de LLM dans un vrai véhicule. Ils tirent leurs conclusions d'une revue de la littérature et d'un cas d'étude expérimental sur Talk2Drive, un repository open-source. La question n'est pas « est-ce que ça marchera un jour ? » mais « les outils pour l'assurer n'existent pas encore ».

Glossaire

LLM (grand modèle de langage) — Un système d'IA entraîné sur de grandes quantités de texte, capable de produire et de comprendre du langage naturel — le type de modèle derrière ChatGPT ou ses équivalents.

ISO 21448 (SOTIF) — Norme internationale qui définit les exigences de sécurité pour les systèmes d'aide à la conduite, notamment en termes de comportement en conditions imprévues.

fossé d'assurance — La situation où un déployeur doit garantir la sécurité d'un composant (ici un LLM généraliste) sur lequel il n'a aucun contrôle direct.

Source: I'm Sorry Driver, I'm Afraid I Can't Do That: Appraising the Safety of LLMs within Automotive Contexts

              03 / 03
            

Une IA médicale recommande des médicaments retirés du marché — jusqu'à ce qu'on l'en empêche.

Imaginez un pharmacien qui a appris son métier sur des manuels périmés — et qui n'a jamais su qu'on avait retiré certains médicaments du marché.

C'est à peu près ce que des chercheurs ont découvert en soumettant des modèles de langage à un test piège. Ils ont construit un questionnaire de 103 questions à choix multiples sur des médicaments — avec un hic : les « bonnes » réponses attendues par l'IA étaient des molécules retirées du marché ou interdites. L'idée : si le modèle répond en piochant dans ses données d'entraînement sans vérifier leur actualité, il va recommander des substances dangereuses. Résultat : toutes les familles de modèles testées — GPT-OSS, Llama-3, Falcon-3 — ont massivement sélectionné les médicaments interdits dans leur configuration par défaut. Et les modèles propriétaires les plus récents ne s'en sortaient pas mieux. Ce que les chercheurs appellent une « régression de sécurité clinique » : les modèles les plus puissants, nourris de plus de données, ont peut-être simplement mieux mémorisé les anciennes pratiques. La réponse qu'ils proposent : une architecture à cinq agents. Pensez à un médecin, une infirmière, un pharmacien, un auditeur et un coordinateur qui se passent le dossier et se challengent mutuellement. Cette approche réduit le taux d'hallucination de 53% sur tous les modèles testés. Le hic, et il est important : 103 questions, c'est petit. Les modèles ont été remplacés en cours de route faute de ressources GPU, ce qui fragilise les comparaisons. Et 53% de réduction, c'est bien — mais ça laisse encore 47% de problèmes non résolus. Soyons honnêtes : c'est une preuve de concept, pas un produit médical.

Glossaire

hallucination (IA) — Quand un modèle de langage produit une information fausse ou inventée avec la même assurance que s'il disait quelque chose de vrai.

architecture multi-agents — Un système où plusieurs instances d'un modèle (ou plusieurs modèles) jouent des rôles différents et se vérifient mutuellement, plutôt qu'un seul modèle qui répond seul.

taux d'erreur par hallucination (HER) — Ici, la proportion de réponses où le modèle recommande un médicament retiré du marché ou interdit.

Source: Trust but Verify: Mitigating Medical Hallucinations via Post-Hoc Adversarial Auditing and Multi-Agent Feedback Loops

La vue d'ensemble

Les trois histoires de ce digest ne parlent pas de la même technologie, ni du même secteur. Mais elles posent la même question : à qui confie-t-on quoi ? Ce que SIMMER nous dit, c'est que même pour une tâche aussi bornée que planifier une séquence culinaire, les meilleurs modèles échouent silencieusement dans plus de la moitié des cas. Ce que le papier sur les voitures nous dit, c'est que l'industrie automobile exige un niveau de preuve formelle que les LLM ne peuvent pas encore fournir — et que les outils pour le faire n'existent pas. Ce que l'étude médicale nous dit, c'est que les modèles mémorisent des pratiques obsolètes et les restituent avec confiance. Le fil conducteur : nous construisons des systèmes de plus en plus autonomes avant d'avoir les méthodes pour les vérifier. Ce n'est pas une raison de tout arrêter. C'est une raison de ne pas jeter le bébé avec l'eau du bain — et surtout de ne pas déployer dans les contextes critiques avant que les outils d'audit suivent. La recherche avance. Les garde-fous, eux, ont du retard.

À surveiller

Deux choses à surveiller dans les semaines qui viennent. D'abord, la conférence IJCAI 2026 se tient fin juillet — plusieurs papiers sur les agents autonomes et la planification devraient y être présentés, et le thème SIMMER devrait y trouver des échos. Ensuite, la question ouverte que j'aimerais voir adressée : est-ce que les techniques de simulation contrefactuelle testées dans SIMMER tiennent la route hors du domaine culinaire ? Un test sur des tâches administratives ou logistiques donnerait une image beaucoup plus réaliste de l'état de l'art.

Pour aller plus loin

Merci de m'avoir lu — prenez soin de vous, et à demain. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe