DeepScience — Artificial Intelligence

DeepScience · Artificial Intelligence · Digest quotidien

L'IA médicale répond même quand elle ne devrait pas.

Aujourd'hui : des agents IA open-source qui codent vraiment, une IA médicale qui improvise trop, et une mémoire visuelle qui oublie l'essentiel.

            May 16, 2026
          

Bonne journée — je vous arrive avec trois papiers que j'ai trouvés particulièrement honnêtes, dans le sens où ils nomment des problèmes réels plutôt que de les contourner. Ce n'est pas une journée de grands titres, mais c'est exactement le genre de journée où la recherche avance vraiment : en mesurant ce qui ne marche pas encore. Allez c'est parti.

Les histoires du jour

              01 / 03
            

Votre assistant IA médical répond même quand il devrait se taire.

Imaginez un médecin qui vous donne un diagnostic même quand la bonne réponse est « je ne sais pas » — c'est ce que font nos meilleurs modèles d'IA, dans sept cas sur dix.

Des chercheurs ont soumis cinq grands modèles du moment — dont GPT, DeepSeek R1 et Grok 3 — à un test particulièrement retors. Ils ont pris des questions médicales à choix multiples, puis ont retiré la bonne réponse du menu. Ce qu'ils voulaient voir : est-ce que l'IA dit « je ne sais pas » — ou est-ce qu'elle choisit quand même ? Réponse : elle choisit quand même. Dans 55 à 81 % des cas sur MedQA, un benchmark de médecine générale. Et 53 à 82 % sur AfriMed-QA, un benchmark africain. C'est ce que les chercheurs appellent la « fermeture prématurée » — la tendance d'un système à conclure même sans information suffisante. Imaginez un plombier qui vous annonce la cause d'une fuite sans avoir ouvert un seul mur. Vous seriez inquiet. Vous auriez raison. Sur des questions médicales ouvertes — pas à choix multiples — les modèles ont donné des réponses inappropriées dans 30 % des cas en moyenne sur HealthBench. Sur 191 questions rédigées par des médecins spécifiquement pour piéger le système : 78 % de réponses inappropriées. La bonne nouvelle : ajouter une instruction de sécurité dans le prompt — quelque chose comme « dis que tu ne sais pas si tu n'es pas sûr » — fait descendre le taux d'erreur à environ 48 %. C'est une vraie différence. Ce n'est pas suffisant. Le hic : cette précaution fait perdre de la précision sur les questions que le modèle connaît bien — d'environ un point de pourcentage seulement pour la plupart, mais Grok 3 se rétracte trop, même quand la réponse est claire. Calibrer le bon niveau de prudence reste un problème ouvert. Franchement, personne n'a encore la formule.

Glossaire

fermeture prématurée — Tendance d'un modèle à produire une réponse même quand les informations disponibles sont insuffisantes pour répondre correctement.

benchmark — Jeu de questions standardisé utilisé pour mesurer et comparer les performances de différents systèmes d'IA.

prompt — Instruction ou texte qu'on envoie à un modèle d'IA pour orienter son comportement.

Source: Quantifying and Mitigating Premature Closure in Frontier LLMs

              02 / 03
            

Des agents IA open-source qui corrigent de vrais bugs mieux que jamais.

Jusqu'ici, les meilleurs agents capables d'écrire et corriger du code appartenaient à des labos fermés — une équipe vient de publier la recette complète, pour tout le monde.

Si vous suivez le feuilleton des agents IA qui écrivent du code à votre place, voici un épisode important. Une équipe a publié Orchard : un système open-source complet pour entraîner ce type d'agents. Pas juste le modèle final — l'infrastructure, les données d'entraînement, et les recettes d'apprentissage. Tout. Pour vous donner une image : Orchard, c'est comme une cuisine professionnelle mise à disposition de tout le monde, là où avant seuls les grands restaurants avaient les équipements. Vous avez la structure — un environnement technique pour faire tourner les agents à grande échelle. Les ingrédients — plus de 107 000 exemples d'apprentissage distillés depuis des modèles propriétaires. Et les recettes — trois méthodes d'entraînement, adaptées à différents types de tâches. Les résultats sont concrets. Orchard-SWE, l'agent spécialisé en débogage logiciel, résout 67,5 % des bugs réels du benchmark SWE-bench Verified — le meilleur score parmi les modèles open-source de taille comparable. Orchard-GUI, l'agent qui navigue dans des interfaces graphiques web, atteint 74,1 % sur WebVoyager, avec un modèle quatre fois plus petit. Pourquoi ça compte ? Parce que jusqu'ici, les meilleurs agents étaient soit fermés — OpenAI, Anthropic — soit impossibles à reproduire. Orchard publie tout. Ça permet à des chercheurs indépendants de construire dessus, comprendre ce qui fonctionne, et corriger ce qui ne fonctionne pas. Le hic : les benchmarks comme SWE-bench mesurent des bugs bien définis, avec une réponse claire. Les vrais projets logiciels sont plus ambigus. Et « open-source » ne veut pas dire « gratuit à faire tourner » — ces modèles demandent des ressources de calcul que tout le monde n'a pas sous la main.

Glossaire

agent IA — Système d'IA capable d'effectuer des séquences d'actions autonomes — chercher de l'information, écrire du code, naviguer sur le web — pour accomplir un objectif.

SWE-bench Verified — Benchmark standard qui mesure la capacité d'un agent à résoudre de vrais bugs dans de vrais dépôts de code open-source.

distillation — Technique qui consiste à entraîner un modèle plus petit à imiter les comportements d'un modèle plus grand et plus coûteux.

Source: Orchard: An Open-Source Agentic Modeling Framework

              03 / 03
            

L'IA oublie ce qu'elle voit — un nouveau test le prouve enfin.

Montrez 30 photos d'une journée à une IA, interrogez-la trois sessions plus tard sur un détail précis : elle va vous répondre à côté bien plus souvent que vous ne le croyez.

Les assistants IA « à mémoire longue » se multiplient. L'idée est séduisante : une IA qui se souvient de vos réunions, de vos repas, de vos déplacements, et peut répondre à des questions précises des semaines plus tard. Mais se souvient-elle vraiment de ce qu'elle a vu — les images elles-mêmes — ou juste du résumé textuel qu'elle en a fait ? Une équipe a construit MemEye pour tester exactement ça. Ils ont conçu 742 questions réparties sur 8 scénarios du quotidien — courses, travail, santé — et les ont soumises à 13 systèmes de mémoire différents, testés sur 4 modèles multimodaux. La contrainte : les questions devaient forcer le système à utiliser les images originales, pas juste une description textuelle. Résultat : tous les systèmes échouent. C'est comme si vous compariez deux façons de garder trace d'un garde-robe. La première : noter dans un carnet la couleur et la forme de chaque vêtement — vous perdez les détails, la texture, l'usure. La deuxième : empiler toutes les photos sans organisation — vous les retrouvez difficilement, et vous ne savez plus si le pull d'hier est le même que celui d'aujourd'hui. Les systèmes basés sur le texte perdent les détails visuels. Les systèmes basés sur les images perdent la continuité dans le temps. Ni l'un ni l'autre ne fait vraiment les deux. Le hic — et c'est une limite importante : MemEye est un benchmark de laboratoire, 742 questions, c'est un début pas un standard industriel. Et l'évaluation automatique s'appuie sur un autre modèle d'IA pour noter les réponses, ce qui introduit ses propres erreurs. Ce travail ouvre un chantier. Il ne le ferme pas.

Glossaire

multimodal — Qualifie un système d'IA capable de traiter plusieurs types d'information simultanément : texte, images, audio.

LLM-as-a-Judge — Méthode d'évaluation où un grand modèle de langage note automatiquement les réponses d'un autre système, en remplacement d'un évaluateur humain.

benchmark — Jeu de questions ou de tâches standardisé pour mesurer et comparer les performances de différents systèmes d'IA.

Source: MemEye: A Visual-Centric Evaluation Framework for Multimodal Agent Memory

La vue d'ensemble

Regardez ces trois histoires ensemble, et vous voyez quelque chose d'intéressant : la recherche en IA est en train de passer d'une phase « est-ce que ça marche ? » à une phase « qu'est-ce qui coince exactement, et où ? ». L'étude sur la fermeture prématurée ne dit pas « l'IA médicale est nulle » — elle dit : voici le taux d'échec précis, voici ce qui l'améliore, voici ce qui reste. MemEye ne dit pas « la mémoire visuelle est impossible » — elle dit : voici le test qui révèle le vrai problème, que les benchmarks précédents masquaient. Et Orchard ne dit pas « les agents IA sont résolus » — il dit : voici une infrastructure ouverte pour que tout le monde puisse mesurer et progresser ensemble. Ce que ces trois papiers ont en commun, c'est une honnêteté sur les limites actuelles, couplée à des outils pour les quantifier. C'est de là que viennent les vrais progrès — pas des annonces, des mesures.

À surveiller

À surveiller dans les prochaines semaines : les résultats du benchmark SWE-bench continuent de bouger vite — si d'autres équipes s'emparent d'Orchard pour publier des variantes, on devrait voir les scores grimper en quelques mois. Du côté de l'IA médicale, la question ouverte que j'aimerais voir traitée : est-ce que la fermeture prématurée varie selon la spécialité médicale — cardiologie versus psychiatrie, par exemple — ou est-ce un problème uniforme ? Personne ne l'a encore mesuré sérieusement.

Pour aller plus loin

Merci de m'avoir lu — à demain. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe