DeepScience — Artificial Intelligence

DeepScience · Artificial Intelligence · Digest quotidien

L'IA voit, mais ne comprend pas ce qu'elle regarde.

Trois papiers du jour qui montrent, chacun à leur façon, l'écart entre paraître juste et l'être.

            May 01, 2026
          

279 papiers publiés aujourd'hui — j'ai passé la matinée à trier pour vous épargner ce travail. La journée n'est pas spectaculaire au sens « annonce choc », mais elle est honnête : trois études qui regardent l'IA en face et disent ce qu'elle rate encore. C'est exactement le genre de journée utile.

Les histoires du jour

              01 / 03
            

Les meilleures IA médicales confondent gauche et droite sur une radio.

Montrez-lui une radio du thorax et demandez-lui où se trouve la lésion : le meilleur modèle du monde répond à côté dans 80 % des cas.

Ce qui s'est passé. Des chercheurs ont soumis cinq des modèles d'IA les plus avancés du moment — Gemini 2.5 Pro, GPT-4o, o3, GLM-4.5V et Qwen 2.5-VL — à un exercice en apparence simple : regarder une image médicale, localiser la zone problématique, puis répondre à une question clinique. Le résultat est net. Le meilleur score obtenu pour la localisation atteint 0,23 sur une échelle où 1 signifie « parfait ». Imaginez un chirurgien capable de vous dire que vous avez une fracture, mais incapable de poser le doigt dessus sur la radio. Ce n'est pas la même chose. L'équipe documente aussi des confusions de latéralité systématiques : l'IA dit « gauche » quand c'est « droite ». En médecine, ce type d'erreur n'est pas un bug anodin. C'est une erreur de diagnostic. Par ailleurs, dans certains scénarios de test, jusqu'à 99 % des réponses d'un modèle étaient inutilisables — non pas fausses, mais mal formatées, impossibles à exploiter par un système aval. Pourquoi ça compte. Ces modèles sont déjà envisagés — parfois déployés — dans des contextes cliniques réels. L'étude ne le dit pas pour faire peur ; elle le dit pour qu'on arrête de supposer que « capable de répondre à des questions médicales » signifie « capable de voir comme un médecin ». Le hic. La bonne nouvelle est là : quand on fournit à ces modèles une localisation humaine correcte, leur précision de réponse s'améliore immédiatement. Le problème est dans la perception visuelle, pas dans le raisonnement textuel. Mieux encore, un modèle plus petit — Qwen 2.5-VL 7B — ré-entraîné spécifiquement sur des données médicales, atteint 85,5 % de précision sur un benchmark standardisé. La solution existe. Elle exige un entraînement spécialisé, et de ne pas déployer ces outils en aveugle dans des services cliniques.

Glossaire

IoU (Intersection over Union) — Mesure de chevauchement entre la zone désignée par l'IA et la zone réelle : 0 = aucun recoupement, 1 = correspondance parfaite.

VQA (Visual Question Answering) — Tâche où un modèle répond à une question en langage naturel sur une image.

latéralité — Distinction gauche/droite dans l'image médicale — cruciale en radiologie, par exemple pour localiser une lésion pulmonaire.

Source: Auditing Frontier Vision-Language Models for Trustworthy Medical VQA: Grounding Failures, Format Collapse, and Domain Adaptation

              02 / 03
            

On entraîne des IA sur mille faux ordinateurs peuplés de faux utilisateurs.

Comment apprendre à une IA à travailler sur votre ordinateur quand vous ne pouvez pas lui montrer le vôtre ?

Ce qui s'est passé. Des chercheurs ont construit 1 000 « ordinateurs synthétiques » — des environnements numériques fictifs mais crédibles, avec leurs propres arborescences de fichiers, leurs documents Word remplis de données inventées plausibles, leurs tableurs, leurs présentations. Chaque faux ordinateur appartient à un faux utilisateur avec un profil détaillé. Ensuite, ils ont lâché des agents IA dans ces décors pour simuler un mois de travail productif : chaque agent reçoit des objectifs et les poursuit sur plus de 2 000 interactions successives. C'est comme construire un décor de film en entier — pas juste une façade, mais une vraie maison avec de vraies boîtes dans les placards — pour que les comédiens puissent s'y entraîner sans avoir besoin de vrais appartements. Pourquoi ça compte. Le problème central des agents capables d'utiliser un ordinateur — ouvrir des fichiers, rédiger des emails, gérer des tâches — c'est le manque de données d'entraînement réalistes. Vos vraies données de productivité sont privées, et personne ne va les partager. Cette approche fabrique des données synthétiques à grande échelle. Et les agents entraînés sur ces données s'améliorent y compris sur des tâches qu'ils n'ont jamais vues pendant l'entraînement. L'équipe a rendu publics 100 de ces ordinateurs (50 style Windows, 50 style macOS) pour que d'autres groupes de recherche puissent en bénéficier. Le hic. Les résultats d'amélioration ne sont pas précisément chiffrés dans le papier — on parle d'« améliorations significatives » sans pourcentages. Chaque simulation prend plus de huit heures à tourner, ce qui rend le passage à très grande échelle coûteux. C'est une direction sérieuse, mais il faudra attendre des publications plus détaillées pour mesurer l'ampleur réelle des gains.

Glossaire

agent IA — Programme capable d'agir de façon autonome dans un environnement numérique pour accomplir des objectifs — ici, naviguer et travailler sur un ordinateur.

long-horizon — Se dit d'une tâche qui exige de planifier et d'enchaîner de nombreuses actions sur une longue durée, sans instruction à chaque étape.

arborescence de fichiers — L'organisation hiérarchique de dossiers et fichiers sur un disque dur, comme l'explorateur de fichiers sur votre ordinateur.

Source: Synthetic Computers at Scale for Long-Horizon Productivity Simulation

              03 / 03
            

Les IA génèrent de belles images, mais ratent les puzzles et les plans de métro.

Demandez à une IA de générer un puzzle dont les pièces s'emboîtent vraiment : elle produit quelque chose de magnifique, et de complètement faux.

Ce qui s'est passé. Une équipe de chercheurs a cartographié ce que les meilleurs modèles de génération d'images savent faire — et surtout ce qu'ils ratent. Leurs tests sont simples et redoutables : générer un puzzle valide dont les pièces s'assemblent, dessiner un plan de métro cohérent, ou modifier une image en plusieurs étapes sans que le résultat se dégrade. La conclusion est nette : les modèles actuels sont excellents pour produire des images esthétiquement convaincantes, mais ils échouent systématiquement dès qu'une contrainte logique ou spatiale entre en jeu. Pensez à un peintre extraordinairement talentueux qui ne saurait pas utiliser une règle. Le rendu est magnifique. La géométrie est fausse. L'équipe documente aussi ce qu'elle appelle « dérive markovienne » — dans une séquence d'éditions successives, l'image se dégrade progressivement, parce que chaque étape oublie ce qui s'est passé avant, comme un téléphone arabe visuel. Pourquoi ça compte. Ces modèles sont de plus en plus utilisés dans des contextes où la précision compte : architecture, design industriel, jeux vidéo, applications médicales. Or les outils d'évaluation actuels mesurent surtout si l'image est esthétiquement plaisante — ils ratent complètement les erreurs logiques. On note des problèmes de physique incorrecte (flottabilité, dynamique des fluides), d'états irréversibles mal gérés, et d'incohérence géométrique. L'industrie se croit plus avancée qu'elle ne l'est, parce qu'elle se mesure avec les mauvais outils. Le hic. C'est un papier de synthèse, pas une étude empirique avec chiffres précis. Les auteurs documentent des échecs qualitatifs et proposent une taxonomie à cinq niveaux de capacité — utile pour orienter la recherche, mais il faudra des benchmarks quantitatifs standardisés pour que ces limites soient intégrées concrètement par les équipes qui développent ces modèles.

Glossaire

génération visuelle — Capacité d'un modèle à créer une image à partir d'une description textuelle ou d'une instruction.

dérive markovienne — Phénomène où un modèle, à chaque étape d'une séquence, n'utilise que l'état immédiatement précédent et « oublie » l'historique global, entraînant une dégradation cumulative.

benchmark — Jeu de tests standardisé qui permet de comparer objectivement les performances de différents modèles.

Source: Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling

La vue d'ensemble

Ces trois papiers racontent la même chose sous trois angles différents. Les modèles d'IA sont devenus très forts pour produire des sorties qui semblent correctes : une réponse fluide, une belle image, un diagnostic textuel convaincant. Le problème, c'est que « sembler correct » et « être correct » sont deux choses très différentes. Une IA qui confond gauche et droite sur une radio, qui génère un puzzle dont les pièces ne s'assemblent pas, ou dont on doit fabriquer 1 000 faux bureaux numériques pour l'entraîner à travailler — tout ça pointe vers la même lacune : les modèles ne perçoivent pas encore vraiment le monde physique, spatial, et logique dans lequel ils opèrent. Ce n'est pas une raison de tout jeter. L'entraînement spécialisé fonctionne, les architectures évoluent, les données synthétiques ouvrent des portes. Mais soyons honnêtes : le travail n'est pas fini, et les métriques qui nous servent à mesurer les progrès sont parfois celles qui nous aveuglent le mieux.

À surveiller

Surveillez les publications autour du déploiement clinique des modèles multimodaux — la question de la localisation sur images médicales va forcément générer des réponses de Google DeepMind et OpenAI dans les semaines qui viennent. Plus largement, la question ouverte que j'aimerais voir traitée : est-ce qu'un benchmark de génération visuelle basé sur la logique spatiale (et pas l'esthétique) peut devenir un standard accepté par l'industrie ? Sans ça, on continuera à se féliciter de progrès qu'on ne mesure pas vraiment.

Pour aller plus loin

Merci de m'avoir lu jusqu'ici — à demain. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe