DeepScience — Artificial Intelligence

DeepScience · Artificial Intelligence · Digest quotidien

Deux victoires, un avertissement : l'IA dans le monde réel

Parce que l'IA s'invite dans les hôpitaux, les labos et nos outils — autant savoir ce qui marche vraiment.

            May 04, 2026
          

Bonne journée pour les sceptiques — et les optimistes. J'ai épluché une bonne partie des 290 papiers du jour pour vous, et trois histoires se détachent nettement. Deux avancées concrètes, un résultat qui devrait faire réfléchir quiconque pense que les agents IA sont prêts à remplacer les scientifiques. En route.

Les histoires du jour

              01 / 03
            

La moitié des plugins pour agents IA sont dangereux, et personne ne le savait

Votre agent IA vient d'installer un plugin tiers — sans que personne n'ait vraiment vérifié ce qu'il fait quand personne ne regarde.

Imaginez qu'Apple ou Google acceptaient des applications dans leur store sans jamais lire ce que le code fait vraiment. C'est à peu près la situation actuelle avec les « skills » — les petits modules qui donnent des capacités supplémentaires aux agents IA : lire vos emails, passer des commandes, interagir avec des services en ligne. Une équipe de chercheurs a analysé 13 728 skills réels, tirés de places de marché publiques. Résultat : plus de la moitié contiennent au moins un risque de sécurité critique. Pas un risque théorique — 17 vulnérabilités ont été confirmées exploitables dans des systèmes actuellement déployés, vérifiées par les mainteneurs du registre OpenClaw. Le problème est structurel. Ces skills mélangent du code et des instructions en langage naturel. Les outils d'analyse classiques savent lire le code, pas les phrases qui lui dictent ses conditions d'activation. Un skill peut être techniquement propre mais déclencher des actions dangereuses à cause d'une condition rédigée en prose ambiguë. Semia, le système proposé, traduit d'abord chaque skill dans une représentation intermédiaire structurée — pensez à transformer une recette en langage courant en une liste d'étapes numérotées avec des ingrédients précis et des quantités exactes. Ensuite, des règles formelles cherchent les incohérences. Sur un échantillon de 541 skills annotés par des experts (accord inter-annotateurs très solide, κ=0,83), Semia atteint 97,7% de rappel et un F1 de 90,6%. Le hic : cette étude porte sur des systèmes existants en environnement de test. Si ces vulnérabilités ont été activement exploitées, on ne le sait pas encore. Et Semia génère environ 15% de faux positifs — à déployer avec discernement, pas comme un label de confiance absolu.

Glossaire

skill (agent) — Module qui étend les capacités d'un agent IA, comme une extension de navigateur pour un humain.

rappel (recall) — Proportion des vrais problèmes effectivement détectés par le système — un rappel élevé signifie peu de dangers manqués.

F1 — Score qui équilibre précision (peu de fausses alertes) et rappel (peu de dangers manqués) en une seule note.

Source: Semia: Auditing Agent Skills via Constraint-Guided Representation Synthesis

              02 / 03
            

Un modèle IA de radiologie qui tient sur un laptop, et qui performe

Un modèle IA qui aide à lire des radios, tient en 2 gigaoctets, et tourne sans carte graphique — ça existe maintenant.

Pensez à deux cuisiniers. Le premier sort d'une grande école, a tout appris en théorie, et débarque dans un restaurant de cuisine régionale qu'il n'a jamais pratiquée. Le second est moins brillant sur le papier, mais il a passé des mois à s'entraîner exactement sur les recettes de cette maison. En IA comme en cuisine, l'entraînement spécialisé bat souvent la compétence générale. C'est ce que montre cette équipe, qui a pris deux petits modèles de langage — Qwen2.5-3B et Qwen3-4B, soit 3 à 4 milliards de paramètres, le genre qui tient sur un ordinateur portable — et les a entraînés sur 162 000 exemples issus de 9 tâches radiologiques : comptes-rendus de scanner, classification de stades tumoraux, inférence médicale. La technique utilisée s'appelle LoRA — Low-Rank Adaptation, je simplifie : au lieu de réentraîner tout le modèle, on n'ajuste qu'une petite couche supplémentaire, comme glisser un filtre sur une lentille plutôt que de changer l'objectif entier. C'est rapide et très efficace en données. Les gains sont frappants : +89% de précision sur la détermination du stade N d'un cancer (présence de métastases ganglionnaires), +60% sur la compréhension de rapports médicaux, +53% sur la classification RADS. Et les modèles résultants tiennent en 1,8 à 2,4 Go, avec 4 à 8 mots générés par seconde sur un simple CPU. Le hic, et c'est important : les évaluations se font sur des données publiques standardisées, pas sur des cas cliniques réels en conditions hospitalières. Ces modèles n'établissent pas de diagnostic — ils assistent l'analyse de textes radiologiques. La validation clinique réglementaire, indispensable avant tout déploiement médical, n'est pas dans ce papier.

Glossaire

LoRA (Low-Rank Adaptation) — Technique d'entraînement qui n'ajuste qu'une petite partie d'un modèle existant, réduisant drastiquement le coût de spécialisation.

stade N — Nomenclature médicale indiquant si un cancer s'est propagé aux ganglions lymphatiques voisins.

RADS — Système de classification standardisé utilisé en radiologie pour évaluer le risque de malignité d'une anomalie détectée.

Source: RadLite: Multi-Task LoRA Fine-Tuning of Small Language Models for CPU-Deployable Radiology AI

              03 / 03
            

Les agents IA ne reproduisent que la moitié des résultats scientifiques qu'on leur soumet

Si un agent IA devait reproduire les calculs de votre dernier article scientifique, il raterait presque une fois sur deux.

Imaginez demander à quelqu'un de reproduire une recette en lui donnant uniquement l'article de blog qui la décrit — sans photos, sans liste précise d'ingrédients, sans les temps exacts. Parfois ça marche. Souvent ça rate. C'est à peu près ce qu'une équipe de chercheurs a demandé à des agents IA dans le domaine des matériaux computationnels — un domaine où les calculs sont complexes, les pipelines à plusieurs étapes, et les paramètres critiques parfois enfouis dans une note de bas de page. AUTOMAT — c'est le nom du benchmark, un ensemble de tests standardisés — propose 85 tâches tirées de vraies publications scientifiques. Chaque tâche est emballée comme une mission : voici le papier, reproduis le résultat. Parfois les fichiers de code d'origine sont fournis, parfois non. Le meilleur agent testé réussit 54,1% des tâches. Autrement dit : presque un essai sur deux se solde par un échec. Et quand on retire les fichiers de code — en forçant l'agent à reconstruire la procédure depuis le texte du papier seulement — les performances chutent encore davantage. Les trois causes d'échec principales : des procédures incomplètes (l'agent manque une étape), des déviations méthodologiques (il fait quelque chose de subtilement différent), et une fragilité d'exécution dans les pipelines complexes à plusieurs étapes. Je dis ce résultat sans malice envers l'IA : reproduire un résultat est le cas le plus simple qui soit. Si on n'est pas encore à 100% là-dessus, l'idée que les agents IA accélèrent la recherche de façon fiable et autonome demande encore du recul. Ils peuvent aider. Mais surveiller reste nécessaire.

Glossaire

benchmark — Ensemble de tests standardisés permettant de comparer objectivement les performances de différents systèmes IA.

pipeline — Enchaînement d'étapes de calcul ou de traitement, où la sortie de chaque étape devient l'entrée de la suivante.

matériaux computationnels — Branche scientifique qui simule les propriétés des matériaux par calcul, plutôt qu'en les synthétisant physiquement en laboratoire.

Source: Can Coding Agents Reproduce Findings in Computational Materials Science?

La vue d'ensemble

Trois histoires, un fil conducteur : l'IA entre dans des domaines où les erreurs comptent vraiment — la sécurité des systèmes, la médecine, la science — et les résultats sont à la fois prometteurs et sobres. D'un côté, RadLite montre qu'on peut construire des outils spécialisés, légers et performants sans infrastructure démesurée. C'est une direction que j'aime : moins de course aux modèles géants, plus d'ingénierie ciblée. De l'autre, Semia révèle que l'écosystème des agents IA s'est développé plus vite que ses garde-fous. La moitié des plugins sont risqués — et personne n'avait d'outil pour le voir. C'est le prix classique de la croissance rapide. Et AUTOMAT nous rappelle que « l'agent IA peut faire de la science » reste une hypothèse à tester, pas une réalité acquise. 54% de réussite sur des tâches de reproduction, c'est honnête à entendre. Ni catastrophiste, ni naïf : nous avons des outils puissants, encore fragiles, qui méritent une supervision sérieuse.

À surveiller

Côté sécurité des agents : la question de la standardisation des audits de skills va devenir incontournable à mesure que les marketplaces d'agents prolifèrent — regardez si OpenAI, Anthropic ou des acteurs comme LangChain annoncent des politiques dans ce sens. Sur RadLite, la vraie question est la validation clinique : ce type de modèle devra franchir les fourches caudines des régulateurs (FDA, CE-IM en Europe) avant tout usage réel — un processus qui prend des années. Et pour AUTOMAT, j'aimerais voir le même benchmark appliqué à d'autres domaines scientifiques : est-ce que la biologie computationnelle ou la chimie répondent mieux ou moins bien ?

Pour aller plus loin

Merci de m'avoir lu — à demain. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe