DeepScience — Artificial Intelligence

DeepScience · Artificial Intelligence · Digest quotidien

L'IA oublie, soigne, et dérape quand elle devient experte

Trois papiers pour comprendre où l'IA tient ses promesses, où elle flanche sur la durée, et pourquoi l'expertise peut rendre un modèle plus risqué.

            June 18, 2026
          

Deux cent quatre-vingt-trois papiers aujourd'hui. J'en ai lu beaucoup plus que je ne voulais, pour vous épargner le tri. Trois histoires ont émergé, et elles se répondent : l'IA progresse dans les couloirs d'hôpital, bute sur ses propres trous de mémoire, et nous réserve une surprise un peu inquiétante du côté de la sécurité scientifique. Allez, c'est parti.

Les histoires du jour

              01 / 03
            

Un LLM répond aux patients en médecine nucléaire — bilan nuancé

Si votre médecin vous disait qu'un chatbot répond mieux à vos questions de planning que son secrétariat, seriez-vous soulagé ou inquiet ?

Une équipe médicale a posé une question rarement testée en conditions réelles : que se passe-t-il si on laisse GPT-4.1 répondre à de vraies questions de patients en médecine nucléaire, et qu'on compare les réponses côte à côte avec celles d'experts humains ? L'étude a collecté 118 vraies questions — 42 médicales (« mon examen sera-t-il douloureux ? », « quelles sont les contre-indications ? ») et 76 administratives (« comment me préparer ? », « quand aurai-je mes résultats ? »). Chaque question a reçu deux réponses en parallèle : une d'un médecin ou d'un agent administratif, une du modèle. Des évaluateurs ont ensuite noté les deux à l'aveugle. Sur les questions administratives, les évaluateurs ont préféré les réponses du modèle dans 86 % des cas et les ont trouvées plus informatives dans 97 % des cas. C'est le genre de chiffre qui fait réfléchir — un LLM qui surpasse le secrétariat médical sur l'information pratique. Mais voilà le hic. Sur les questions médicales, l'image se complique : le modèle était jugé plus informatif dans 67 % des cas, mais plus difficile à comprendre que les médecins dans 62 % des cas. En clair : il en sait beaucoup, mais ne sait pas toujours comment le dire simplement. Pensez à un encyclopédiste qui vous répond en langage de manuel plutôt qu'en langage humain. L'étude est petite — un seul service, 118 questions — et ne quantifie pas les erreurs factuelles en détail. Mais c'est l'une des premières évaluations en conditions réelles, pas en laboratoire. C'est justement ça qui lui donne du poids.

Glossaire

LLM — Large Language Model — un modèle de langage entraîné sur des milliards de textes pour générer des réponses en langage naturel, comme ChatGPT ou GPT-4.

évaluation à l'aveugle — Protocole où les évaluateurs ne savent pas qui a produit quelle réponse, pour éviter les biais de favoritisme.

Source: Real-world evaluation of large language model for patients medical and administrative queries in nuclear medicine

              02 / 03
            

Les IA oublient ce qu'elles ont vu — et c'est un vrai problème

Imaginez jouer à un jeu de Memory avec quelqu'un qui, à chaque tour, oublie les cartes retournées cinq minutes plus tôt.

Une équipe de chercheurs a construit RNG-Bench, un terrain d'épreuve conçu pour tester une capacité précise : se souvenir d'informations vues bien plus tôt dans une interaction longue, et les utiliser pour agir intelligemment maintenant. Deux jeux ont servi de cadre. Le premier : un Memory classique, où des paires de cartes sont brièvement révélées puis cachées — il faut se souvenir où se trouvait telle carte vue dix échanges auparavant. Le deuxième : un labyrinthe en 3D, où il faut mémoriser les couloirs déjà explorés pour ne pas tourner en rond. Les résultats sont frappants. Sur la configuration la plus difficile du labyrinthe (grille 13x13), Gemini-3.1-Pro atteint 50 % de succès. GPT-4 et plusieurs autres grands modèles plafonnent à 20 %. Qwen3.5-397B — un modèle de 397 milliards de paramètres, donc parmi les plus lourds disponibles — tombe à 0 %. Zéro. Le plus gros modèle testé ne finit même pas le labyrinthe. L'analyse la plus utile : les chercheurs ont séparé deux types d'erreurs. Est-ce que le modèle échoue parce qu'il raisonne mal, ou parce qu'il a oublié ce qu'il avait vu ? La réponse est claire — c'est principalement l'oubli. Comme si vous lisiez un roman policier en oubliant les premiers chapitres juste avant de découvrir le coupable. Bonne nouvelle : entraîner un petit modèle de 9 milliards de paramètres sur les bonnes trajectoires améliore nettement la mémoire, sans dégrader les autres capacités. Un petit pas, mais un vrai. La question reste entière pour les agents qui doivent agir dans la durée — là où l'oubli devient une erreur de décision.

Glossaire

benchmark — Un ensemble de tests standardisés permettant de comparer les performances de différents modèles sur une tâche précise.

non-Markov — Se dit d'une situation où la bonne décision dépend de ce qui s'est passé avant, et pas seulement de ce qu'on voit maintenant — l'opposé d'un jeu où chaque coup repart de zéro.

paramètres — Les réglages internes d'un modèle, qui déterminent sa capacité de traitement — plus il y en a, plus le modèle est considéré comme « grand ».

Source: Beyond the Current Observation: Evaluating Multimodal Large Language Models in Controllable Non-Markov Games

              03 / 03
            

Les LLMs spécialisés en science sont plus dangereux que les généralistes

Un modèle d'IA entraîné sur de la chimie avancée est-il plus ou moins dangereux qu'un modèle généraliste — et si la réponse vous surprend, c'est normal.

Une équipe de chercheurs a construit SciRisk-Bench, un outil d'évaluation de la sécurité des LLMs dans les contextes scientifiques. Le benchmark couvre 7 disciplines — chimie, biologie, physique, entre autres — et 10 types de risques différents : usage dual (des connaissances qui peuvent servir à nuire), hallucinations dangereuses, risques de laboratoire, angles morts réglementaires. La question centrale est simple : quand on sollicite un modèle de façon potentiellement dangereuse dans un contexte scientifique, résiste-t-il ? Le taux de succès des tentatives de contournement — combien de fois le modèle produit une réponse problématique — est la mesure clé. Et voilà la découverte qui dérange. Les modèles spécialisés en science — entraînés exprès pour exceller en chimie ou biologie — cèdent aux demandes dangereuses plus souvent que les modèles généralistes. L'expertise introduit la vulnérabilité. L'intuition derrière ce résultat : imaginez un apprenti cuisinier et un chef étoilé à qui l'on demande de préparer quelque chose de dangereux. Le chef sait exactement comment faire, et ses réflexes de refus ont peut-être été émoussés par des années d'entraînement intensif sur des contenus techniques très spécialisés. Plus on lui apprend à répondre avec précision dans son domaine, moins il s'arrête pour demander « mais pourquoi voulez-vous ça ? » Soyons honnêtes sur les limites : SciRisk-Bench est un benchmark, pas une démonstration d'attaque réelle. Et les chiffres précis par discipline ne sont pas encore accessibles dans la version publique du papier. Mais le signal est là, et il mérite qu'on y prête attention avant de déployer des assistants scientifiques spécialisés.

Glossaire

usage dual — Une connaissance ou technologie qui peut servir à des fins légitimes — recherche, médecine — mais aussi à causer des dommages, comme la synthèse de composés dangereux.

LLM spécialisé — Un modèle de langage affiné sur des corpus scientifiques spécifiques pour améliorer ses performances dans un domaine précis, au-delà du modèle généraliste de base.

taux de succès des attaques (ASR) — La proportion des tentatives de manipulation d'un modèle qui aboutissent à une réponse problématique — plus ce taux est élevé, moins le modèle est robuste.

Source: SciRisk-Bench: A Risk-Dimension-Aware Benchmark for AI4Science Safety

La vue d'ensemble

Ces trois papiers ne parlent pas du même sujet, mais ils posent la même question sous trois angles : peut-on faire confiance à l'IA dans des situations qui comptent vraiment ? En médecine nucléaire, la réponse est « en partie — et mieux qu'on ne le pensait pour les tâches routinières ». Pour les questions médicales complexes, les humains restent plus lisibles, pas nécessairement plus informés. Dans les jeux de mémoire, la réponse est « pas encore » — les modèles oublient, et dans un agent qui doit agir sur la durée, un trou de mémoire devient une erreur de décision. Et pour les LLMs scientifiques spécialisés, la réponse est « avec précaution » : les modèles les plus compétents en science s'avèrent les plus vulnérables aux sollicitations dangereuses. Le fil rouge : l'IA progresse vite dans des cas bien balisés et bute sur des problèmes de fond — mémoire, compréhension contextuelle, alignement — qui ne se résolvent pas simplement en ajoutant des paramètres. Ce sont des problèmes d'architecture et d'entraînement. Et ils sont loin d'être résolus.

À surveiller

Du côté médical, plusieurs équipes européennes publient des évaluations comparatives en conditions réelles ces prochaines semaines — ça vaut la peine de les suivre pour voir si les chiffres de ce service de médecine nucléaire se confirment à plus grande échelle. Sur la sécurité des LLMs scientifiques, la question ouverte reste entière : comment entraîner un modèle à être expert dans un domaine sans lui faire perdre ses garde-fous ? Personne n'a encore de réponse satisfaisante.

Pour aller plus loin

Merci de m'avoir lu — à demain. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe