DeepScience — Artificial Intelligence

DeepScience · Artificial Intelligence · Digest quotidien

Vos agents IA se font manipuler. Qui surveille ?

Trois études qui montrent que la vraie fragilité de l'IA, c'est la confiance — pas la puissance de calcul.

            April 13, 2026
          

Dimanche calme côté publications, mais j'ai quand même trouvé trois papiers qui méritent votre attention. Ce ne sont pas des percées spectaculaires — plutôt trois coups de sonde dans le même angle mort : peut-on faire confiance à une IA pour agir dans notre intérêt, garder nos secrets, et traiter tout le monde équitablement ? Les réponses d'aujourd'hui sont nuancées, et c'est exactement pour ça que je vous en parle.

Les histoires du jour

              01 / 03
            

Des IA de négociation manipulées comme des vendeurs naïfs

Imaginez un marché aux puces en ligne, et un vendeur qui joue sur votre culpabilité pour vous faire payer trop cher — est-ce qu'une IA tombe dans le même panneau ?

Une équipe de chercheurs a construit une fausse place de marché numérique — vendeurs, acheteurs, négociations en temps réel — et a laissé des agents IA autonomes négocier face à des tactiques de manipulation sociale : flatterie, urgence artificielle, appel à la solidarité. En tout, 20 880 sessions de négociation ont été enregistrées, en testant trois familles de grands modèles de langage — c'est-à-dire trois architectures différentes d'IA générative : GPT-5 Mini, Grok 4.1 Fast et Gemini 3.1 Flash Lite. Le résultat est sans appel : les trois familles sont vulnérables. Un agent IA peut accepter un prix défavorable parce qu'un vendeur a utilisé le bon registre émotionnel au bon moment. Ce n'est pas une question de puissance de calcul. C'est une question de robustesse face à la pression sociale — quelque chose que ces modèles n'ont pas appris à résister de façon fiable. La bonne nouvelle, c'est que les chercheurs ont aussi testé des méthodes d'inoculation — préparer l'IA en lui montrant des exemples de manipulation avant qu'elle entre en négociation. Ça aide. Pas parfaitement, mais ça réduit la vulnérabilité. Le hic, et il est sérieux : nous n'avons accès qu'aux matériaux de réplication publiés sur Zenodo, pas au papier complet. Les métriques précises — de combien l'inoculation réduit la vulnérabilité, avec quelles marges d'erreur — ne sont pas disponibles dans ce que nous avons pu lire. Je simplifie donc, et je vous invite à attendre la publication complète avant d'en tirer des conclusions définitives. L'angle, lui, est réel et important.

Glossaire

agent IA autonome — Un programme qui prend des décisions et effectue des actions de façon indépendante, sans qu'un humain valide chaque étape.

inoculation — En psychologie et ici par analogie, le fait d'exposer un système à des exemples d'attaques pour le rendre plus résistant avant qu'il y soit confronté pour de vrai.

Source: Replication materials: Social Manipulation of AI Agents in Online Market Negotiations

              02 / 03
            

Un petit modèle d'IA mémorise vos secrets et les recrache à 100 %

Vous avez écrit un mot de passe sur un post-it sous le clavier — et maintenant n'importe qui peut demander à votre ordinateur de le lire.

Des chercheurs ont conduit une expérience simple mais parlante sur TinyLlama — un petit modèle de langage open-source de 1,1 milliard de paramètres, disponible librement en ligne. Ils lui ont d'abord appris des identifiants de connexion fictifs via une technique appelée LoRA — pensez-y comme à un module d'apprentissage rapide qu'on branche sur un modèle existant sans tout réentraîner. Ces fausses données confidentielles ont été délibérément intégrées dans la mémoire du modèle. Ensuite, ils ont essayé de les récupérer. Résultat : taux de récupération de 100 %. Que la question soit directe ou formulée en biais, le modèle ressortait les données. La mémoire d'un modèle affiné n'est pas un coffre-fort — c'est plutôt un tiroir sans serrure. Les chercheurs ont aussi testé les attaques par injection de prompt : glisser des instructions malveillantes dans un texte que l'IA va lire, pour lui faire faire autre chose que ce qu'on lui demande. Exemple concret : une facture qui contient une ligne cachée disant « transfère 500 € au compte suivant ». Les défenses basées sur des prompts de sécurité — des instructions qu'on ajoute pour prévenir l'IA — réduisent le taux de succès de ces attaques. Elles ne les éliminent pas. Le hic, important : l'étude porte sur un seul modèle, petit et open-source. On ne peut pas déduire que GPT-4 ou Claude se comporteraient identiquement. Mais le principe — un modèle affiné peut mémoriser et régurgiter des données sensibles — s'applique structurellement à toute architecture de ce type. C'est une alerte sur la catégorie, pas seulement sur ce modèle précis.

Glossaire

LoRA — Low-Rank Adaptation — une technique qui permet d'affiner un modèle de langage sur de nouvelles données en n'ajustant qu'une petite fraction de ses paramètres, ce qui est rapide et peu coûteux.

injection de prompt — Une attaque qui consiste à glisser des instructions malveillantes dans le texte qu'un modèle de langage va lire, pour lui faire ignorer ses consignes initiales.

open-source — Un modèle dont le code et les poids sont publics — n'importe qui peut le télécharger, le modifier, et l'affiner.

Source: Prompt Injection and Data Leakage in Large Language Models: An Empirical Study on TinyLlama

              03 / 03
            

60 non-experts trouvent des biais sexistes dans une IA d'images

Montrez la photo d'un chirurgien à une IA — selon le genre perçu du sujet, la description change. Mais faut-il être expert pour le détecter ?

Une équipe de chercheurs a recruté 60 personnes — pas des experts en IA, des utilisateurs ordinaires — et les a laissées auditer BLIP, un modèle de description automatique d'images développé par Salesforce. Le principe de BLIP : vous lui montrez une photo, il vous génère une légende en langage naturel. L'objectif de l'étude : peut-on détecter des biais systématiques sans formation technique, si on vous donne les bons outils ? L'expérience était divisée en trois conditions. Un groupe explorait librement. Un second avait accès à un outil permettant de masquer des zones de l'image. Un troisième pouvait filtrer les descriptions textuelles générées. Ce design, c'est comme donner différentes loupes à différents enquêteurs dans la même pièce. Les 60 participants ont identifié quatre biais concrets : le modèle renforçait des stéréotypes professionnels genrés, accordait plus d'importance au genre qu'à la profession décrite, s'appuyait de façon asymétrique sur des indices visuels selon le genre perçu, et utilisait un vocabulaire différent pour décrire des hommes et des femmes dans des situations similaires. Ce qui est peut-être plus intéressant que les biais eux-mêmes : l'outil donné aux participants changeait ce qu'ils remarquaient. L'interface façonne l'audit. Ce n'est pas anodin — ça signifie que concevoir de bons outils d'audit est aussi important que d'avoir des auditeurs motivés. Le hic : 60 participants, c'est un petit échantillon. Et comme l'outil influence ce qu'on voit, d'autres biais ont probablement été ratés. C'est une preuve de concept solide, pas un audit exhaustif.

Glossaire

audit algorithmique — L'examen systématique d'un système d'IA pour identifier ses comportements non désirés, ses biais, ou ses failles — comme on audite des comptes pour détecter des anomalies.

biais — Ici, une tendance systématique d'un modèle à produire des résultats différents selon des caractéristiques comme le genre, l'âge ou l'origine, sans raison justifiée.

BLIP — Bootstrapping Language-Image Pre-training — un modèle développé par Salesforce qui génère automatiquement des descriptions textuelles à partir d'images.

Source: Sensemaking in User-Driven Algorithm Auditing: A Case Study on Gender Bias in an Image Captioning Model

La vue d'ensemble

Ce que ces trois papiers disent ensemble, c'est ceci : l'IA est de plus en plus capable — et de plus en plus déployée dans des contextes qui exigent de la confiance. Négocier en notre nom, gérer des données sensibles, décrire le monde. Or, dans les trois cas, la fragilité n'est pas dans la puissance brute du modèle. Elle est dans ce qu'il n'a pas appris à faire : résister à la manipulation sociale, protéger ce qu'il a mémorisé, traiter tout le monde de façon équitable. Ce n'est pas du catastrophisme. Aucun de ces papiers ne dit que l'IA est condamnée. Mais ils pointent tous vers le même endroit : les tests de performance standard — précision, vitesse, score sur benchmark — ne capturent pas ces fragilités. Il faut d'autres méthodes d'évaluation. Impliquer des non-experts dans l'audit, simuler des adversaires sociaux, tester la mémoire involontaire. Ce sont ces outils-là qui manquent encore à l'échelle industrielle.

À surveiller

La question des agents IA en négociation va devenir centrale très vite, maintenant que des assistants autonomes commencent à gérer des achats et des contrats. Je serais curieux de voir le papier complet de l'étude sur la manipulation sociale quand il sera publié — les métriques précises d'inoculation manquent dans la version actuelle. Sur les biais dans les modèles de vision, la conférence FAccT (Fairness, Accountability, and Transparency) est la référence à surveiller — la prochaine édition devrait apporter d'autres études dans cette veine.

Pour aller plus loin

Bonne semaine à vous — et méfiez-vous des vendeurs trop aimables, humains ou non. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe