DeepScience — Artificial Intelligence

DeepScience · Artificial Intelligence · Digest quotidien

LLMs en haute sécurité : trois mesures qui dérangent.

Quand on teste vraiment les IA dans des contextes à risque, les résultats sont plus inconfortables que les communiqués de presse.

            June 20, 2026
          

Journée dense aujourd'hui — 290 papiers au compteur. J'en ai retenu trois qui se répondent sans se concerter : trois équipes, trois domaines différents, le même inconfort sous-jacent. Accrochez-vous, c'est là que la recherche en IA devient vraiment intéressante.

Les histoires du jour

              01 / 03
            

Les IA de cybersécurité jouent presque à pile ou face.

Vous payez un garde de sécurité qui, en réalité, décide en lançant une pièce — c'est à peu près ce que font les LLMs entraînés à détecter les failles dans du code.

Des chercheurs ont construit CWE-Trace, un jeu de référence de 834 extraits de code du noyau Linux, tous vérifiés à la main, couvrant 74 types de failles connues. Ils ont ensuite testé 8 grands modèles de langage et 15 variantes affinées — c'est-à-dire ré-entraînées spécifiquement sur des données de sécurité. Résultat : le meilleur score en détection binaire ("ce code est-il vulnérable ou pas ?") atteint 52,1 %. Le hasard pur donne 50 %. Deux points de marge. Le titre du papier dit tout : « calibration sans compréhension ». Ce que font ces modèles, c'est ajuster leur seuil de réponse — ils apprennent à dire "oui" ou "non" plus souvent selon le contexte — sans jamais comprendre ce qu'ils lisent. Imaginez un oenologue qui juge la qualité d'un vin en regardant la couleur du verre, pas le contenu. Il peut avoir l'air confiant. Il se trompe autant qu'avant. Pourquoi ça compte : des dizaines d'outils commerciaux de détection de vulnérabilités sont basés sur des architectures similaires. Ce papier est un rappel que le marketing "l'IA analyse votre code" mérite d'être challengé avec des vrais chiffres. Le hic : CWE-Trace porte exclusivement sur le noyau Linux. Ce type de code est dense, technique, très différent d'une appli web. Les résultats ne s'extrapolent pas directement à tous les contextes de sécurité. Mais l'inconfort, lui, reste entier.

Glossaire

faille (ou vulnérabilité) —

affinement (fine-tuning) —

CWE —

Source: Calibration Without Comprehension: Diagnosing the Limits of Fine-Tuning LLMs for Vulnerability Detection in Systems Software

              02 / 03
            

Des hackers IA ont réussi à planter une centrale nucléaire simulée.

Une équipe a mis des LLMs aux commandes d'une centrale nucléaire fictive, puis a essayé de les manipuler pour provoquer un incident — avec un taux de succès qui mérite qu'on s'y arrête.

NRT-Bench est un simulateur de centrale nucléaire entièrement textuel, conçu pour évaluer des équipes d'agents LLM en situation d'urgence. Cinq rôles distincts — opérateurs, superviseurs, techniciens — sont joués par des modèles de langage comme GPT-4 ou ses équivalents. En face, un adversaire automatisé envoie des messages manipulateurs par quatre canaux différents : usurpation d'identité, perturbation de la chaîne d'approvisionnement en informations, faux agent auxiliaire compromis. Sur 149 sessions testées, entre 8,7 % et 12,1 % se sont terminées par la perte d'au moins une fonction de sécurité critique. Pour situer : ça représente une session sur dix où quelque chose de grave se passerait dans une installation réelle. Ce qui est peut-être plus inquiétant que le chiffre lui-même : les failles des quatre modèles testés sont presque totalement disjointes. Aucune attaque ne brise les quatre à la fois. Mais un tiers des attaques en brise au moins un. C'est comme si chaque serrure avait une faille différente — il n'y a pas de pass-partout universel, mais tous les coffres peuvent être ouverts, il suffit d'avoir la bonne clé pour chacun. Le hic essentiel : c'est un simulateur textuel abstrait, pas une vraie centrale. Les chercheurs ne prétendent pas avoir mis en danger quoi que ce soit de réel. Mais la méthodologie est rigoureuse, et le résultat soulève une vraie question sur l'usage des LLMs dans les infrastructures critiques. Franchement, c'est le genre de recherche qu'on devrait financer beaucoup plus.

Glossaire

agent LLM —

red-teaming —

fonction de sécurité critique (CSF) —

Source: LLM agent safety, multi-turn red-teaming, jailbreak benchmarks, adversarial robustness, safety-critical systems

              03 / 03
            

En médecine, les LLMs sont trop sûrs d'eux — et on commence à le corriger.

Un modèle qui dit avoir 90 % de chances d'avoir raison quand il se trompe en réalité 40 % du temps — en médecine, ça s'appelle un problème.

Les chercheurs ont travaillé sur ce qu'on appelle la calibration de la confiance : est-ce que, quand un modèle dit "je suis sûr à 80 %", il a effectivement raison 80 % du temps ? Sur trois jeux de données de questions-réponses médicales avec images — radiographies, IRM, photos cliniques — la réponse est non. Les LLMs multimodaux sont mal calibrés : leur confiance déclarée et leur taux réel d'erreur sont désalignés. L'équipe a développé MS-FBI — Multi-Strategy Fusion-Based Interrogation, oui c'est un acronyme un peu forcé. L'idée est simple comme un contre-interrogatoire : on pose la question au modèle, il répond avec une confiance déclarée, puis on le "challenge" avec plusieurs stratégies différentes — on lui demande de justifier, on le contredit, on lui présente une pénalité fictive s'il se trompe. Enfin, un second modèle LLM plus petit joue le rôle d'expert arbitre pour valider ou invalider la réponse finale. Résultat : l'Erreur de Calibration Attendue — la mesure standard de ce désalignement confiance/réalité — chute de 40 % en moyenne sur les trois jeux de données. C'est un vrai gain. Le hic : tout cela est testé sur des benchmarks académiques de questions-réponses médicales, pas sur des cas réels avec de vraies décisions cliniques. La distance entre "bien performer sur MedVQA" et "être fiable aux urgences" reste immense. Un pas réel, mais un tout petit pas.

Glossaire

calibration de la confiance —

Erreur de Calibration Attendue (ECE) —

LLM multimodal —

Source: Confidence Calibration for Multimodal LLMs: An Empirical Study through Medical VQA

La vue d'ensemble

Trois papiers d'équipes différentes, trois domaines qui n'ont rien à voir — cybersécurité, infrastructure critique, médecine — et pourtant le même constat sous-jacent : les LLMs ont un problème de fiabilité qui n'est pas visible de l'extérieur. Ils sonnent justes. Ils paraissent confiants. Et quand on les mesure sérieusement, avec des outils de diagnostic rigoureux, les chiffres dérangent. Ce qui est nouveau dans ces papiers, ce n'est pas la découverte que les LLMs peuvent se tromper — tout le monde le sait. C'est que la recherche se dote enfin d'instruments de mesure précis : des benchmarks temporellement contrôlés, des simulateurs d'infrastructure, des métriques de calibration standardisées. Avant de corriger un problème, il faut savoir le mesurer. Nous en sommes là. C'est à la fois rassurant — parce que la communauté scientifique prend ça au sérieux — et humiliant pour les discours marketing qui promettent déjà des IA infaillibles dans les hôpitaux ou les datacenters de sécurité.

À surveiller

Sur le front de la sécurité des agents LLM, surveillez les travaux autour de NRT-Bench dans les mois qui viennent — l'équipe annonce des évaluations sur des simulateurs plus réalistes. Plus largement, la question ouverte que j'aimerais voir répondue : est-ce qu'une meilleure calibration de la confiance (comme ce que fait MS-FBI) améliore aussi les performances brutes, ou seulement l'honnêteté du modèle sur ses limites ? Ce sont deux choses très différentes.

Pour aller plus loin

Merci de m'avoir lu — prenez soin de regarder les chiffres derrière les annonces. À demain. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe