DeepScience — Artificial Intelligence

DeepScience · Artificial Intelligence · Digest quotidien

L'IA voit bien, mais comprend encore mal.

Trois études montrent que nos modèles ont des angles morts invisibles dans les tests habituels — et comment les débusquer.

            June 01, 2026
          

Deux cent quatre-vingt-un papiers à trier ce matin. J'ai retenu trois études qui racontent la même chose sous des angles différents : nos systèmes d'IA réussissent des examens sans comprendre la matière. C'est une journée dense, un peu inconfortable, et franchement utile.

Les histoires du jour

              01 / 03
            

Quand une IA efface les femmes des images ambiguës

Montrez à une IA un visage intentionnellement flou, sans marqueur de genre clair — elle répondra presque toujours : un homme.

Des chercheurs ont construit un outil appelé LALS — Latent Association Leaning Score — pour regarder ce qui se passe à l'intérieur des modèles d'IA qui lisent des images, couche par couche. Imaginez qu'on ouvre une radio en cours de route : on ne voit pas seulement la musique qui sort, on voit comment le signal se transforme à chaque étape. Ils ont généré 900 images de visages intentionnellement ambigus, répartis sur 15 métiers différents — y compris des métiers culturellement associés aux femmes, comme garde d'enfants ou infirmier. Puis ils ont demandé à quatre modèles d'IA de trancher : homme ou femme ? Résultat : les modèles choisissent « homme » par défaut. Même pour les métiers fortement féminins dans notre imaginaire collectif. Mais voilà ce qui est vraiment troublant : en lisant les activations internes couche par couche, les chercheurs ont découvert que les modèles encodent bien une association féminine en interne. Le signal existe. Mais il est filtré avant la sortie. Le signal masculin, lui, s'amplifie de couche en couche. Le signal féminin culmine à mi-réseau, puis s'efface — comme une voix qui monte dans le mixage avant d'être baissée avant la diffusion. Pourquoi ça compte ? Ces modèles sont déjà déployés pour analyser des CV, des photos de profil, du contenu médiatique. Un biais invisible à la surface peut produire des effets bien visibles dans le monde réel. Le hic : l'étude porte sur quatre modèles de taille similaire — 7 à 8 milliards de paramètres — et des images générées par IA, pas des photos réelles. Les résultats sont probablement indicatifs d'un phénomène plus large, mais il faudra confirmer sur des corpus réels et des architectures plus variées. Je simplifie : c'est un diagnostic, pas un verdict définitif.

Glossaire

activations internes — Les valeurs numériques que produit chaque couche d'un réseau de neurones en traitant une entrée — c'est ce que le modèle « pense » à mi-chemin, avant de donner sa réponse finale.

LALS — Latent Association Leaning Score : un outil qui projette ces activations internes dans l'espace du langage pour mesurer à quel point le modèle associe une image à un genre donné, sans lui poser la question directement.

Source: Vision-Language Models Suppress Female Representations Under Ambiguous Input

              02 / 03
            

L'IA regarde le foot mais ne comprend pas le jeu

Reconnaître un dribble en vidéo : 73 % de réussite. Comprendre pourquoi l'attaque entière a mal tourné : 5 %.

Un commentateur sportif junior peut nommer chaque action sur le terrain en temps réel. Mais comprendre la tactique globale, anticiper la contre-attaque, reconstituer pourquoi une possession a dégénéré — c'est une tout autre compétence. Les meilleurs analystes ont les deux. Nos modèles d'IA n'ont encore que la première. Une équipe de chercheurs a construit SVI-Bench : un banc de test massif qui combine 35 000 heures de vidéos de basket, football et hockey avec 15 millions d'actions annotées, 15 000 heures de commentaires d'experts, et 103 000 fiches statistiques de matchs. L'idée : le sport est un laboratoire parfait pour tester l'intelligence réelle d'une IA. Les règles sont explicites, les résultats sont vérifiables, et la complexité est authentique — dix à vingt-deux agents qui interagissent sous pression adverse. Ils ont organisé les tâches en quatre niveaux : perception simple, raisonnement causal, simulation stratégique, et synthèse agentique — ce dernier niveau demandant au modèle d'aller lui-même chercher des preuves parmi 1,8 million de clips pour construire une réponse. Les chiffres parlent d'eux-mêmes. Perception basique : environ 73 % de précision. Synthèse agentique : 5 %. Soixante-neuf points d'écart entre voir et comprendre. Pourquoi ça compte ? On déploie des IA pour analyser des données complexes, des séquences d'événements, des situations à multiples acteurs. Si le modèle s'effondre dès qu'on lui demande d'aller au-delà de la reconnaissance, c'est une limite concrète à garder en tête. Le hic : le benchmark ne fournit pas de performance humaine de référence. On sait que les modèles échouent — mais à quel point un humain non-expert ferait-il mieux sur ces tâches agentiques ? Cette question reste sans réponse pour l'instant.

Glossaire

synthèse agentique — Tâche où le modèle doit lui-même décider quelles informations aller chercher, les rassembler, et les intégrer pour produire une réponse — contrairement à une tâche où toutes les données sont déjà fournies.

raisonnement causal — Capacité à expliquer pourquoi quelque chose s'est produit, pas seulement à décrire ce qui s'est passé.

Source: SVI-Bench: A Dynamic Microworld for Strategic Video Intelligence

              03 / 03
            

Les filtres anti-haine s'effondrent quand on change juste la cible

Un modèle détecte 90 % des mèmes haineux dans son jeu de test habituel — puis on change l'ethnicité de la cible dans l'image, et il tombe à pile ou face.

Soyons honnêtes sur ce que font la plupart des systèmes de modération de contenu : ils mémorisent les patterns de leurs données d'entraînement. Comme un élève qui apprend les réponses d'un examen par cœur plutôt que de comprendre la matière. Une équipe de quatre chercheurs-experts a construit FBHM : un ensemble de 5 000 mèmes organisé selon deux axes indépendants — la fonction rhétorique (dérision, déshumanisation, stéréotype...) et la communauté ciblée. Pour chaque image de base, ils ont créé dix variantes en ne changeant qu'une seule chose : quelle communauté est visée. Si un modèle comprend vraiment ce qui rend un mème haineux, il devrait être cohérent à travers ces variantes. C'est ça, le test. Résultat : tous les grands modèles testés — dont GPT-4.1-mini et GPT-5-mini — rechuteront vers des performances quasi-aléatoires sur FBHM après avoir été entraînés sur les jeux de données classiques. Ils avaient appris à reconnaître les caractéristiques des données d'entraînement, pas les mécanismes réels de la haine. La bonne nouvelle : les chercheurs proposent une technique appelée LSV — des vecteurs de pilotage apprenables — qui améliore les performances de 30 points en termes de F1 avec seulement 500 exemples d'entraînement. Un point de départ sérieux. Pourquoi ça compte ? Des systèmes de modération tournent en production à l'échelle de milliards d'interactions. Un modèle qui semble fonctionner mais s'appuie sur des raccourcis de données va précisément échouer là où on en a le plus besoin — face à des formes de haine nouvelles ou visant des communautés sous-représentées dans les données d'entraînement. Le hic : les images de FBHM sont construites de toutes pièces, pas collectées dans la nature. La validité dans un contexte réel reste à démontrer.

Glossaire

Macro-F1 — Mesure de performance qui équilibre précision et rappel sur toutes les catégories, sans favoriser les catégories les plus fréquentes — utile quand les classes sont déséquilibrées.

vecteurs de pilotage apprenables (LSV) — Une technique qui modifie légèrement les représentations internes d'un modèle pour orienter ses décisions vers un objectif donné, sans réentraîner l'ensemble du réseau.

Source: FBHM: Functional Benchmarking and Steering of VLMs for Hateful Meme Detection

La vue d'ensemble

Ces trois études racontent la même histoire sous des angles différents. Nos modèles d'IA ont appris à réussir des tests, pas à comprendre le monde. Les modèles de vision encodent des associations féminines en interne et les filtrent avant de répondre. Les modèles vidéo atteignent 73 % sur ce qu'on leur demande de voir, et 5 % sur ce qu'on leur demande de comprendre. Les détecteurs de haine mémorisent des patterns de datasets et s'effondrent face à une variation contrôlée. Ce n'est pas du catastrophisme — c'est un diagnostic utile. Et chacun de ces papiers propose aussi un outil pour voir plus clair : LALS pour sonder les biais internes couche par couche, SVI-Bench pour hiérarchiser ce que « comprendre » veut dire pour une IA, FBHM et LSV pour distinguer la généralisation réelle de l'apprentissage par cœur. La recherche ne se contente pas de constater — elle se dote d'instruments. C'est précisément comme ça qu'un domaine progresse.

À surveiller

La conférence ACL 2026 se tient en juillet — attendez-vous à voir des dizaines de papiers sur l'évaluation des biais dans les modèles multimodaux, dans la lignée directe de l'étude sur la suppression des représentations féminines. La question ouverte que j'aimerais voir traitée : est-ce que ces biais de filtre interne sont communs à tous les types d'architectures VLM, ou propres à certaines familles de modèles ? Personne ne sait encore vraiment.

Pour aller plus loin

Merci de m'avoir lu — à demain. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe