DeepScience — Artificial Intelligence

DeepScience · Artificial Intelligence · Digest quotidien

Les angles morts de l'IA : trois études qui dérangent

Parce que comprendre ce que l'IA rate vraiment est aussi important que célébrer ce qu'elle réussit.

            April 24, 2026
          

Trois papiers aujourd'hui, et un fil conducteur qui m'a frappé en les lisant : les angles morts. Pas les percées spectaculaires que les communiqués adorent — plutôt des études qui cartographient ce que les IA manquent, ratent, ou font pencher sans le dire. La journée n'est pas dense en chiffres explosifs, mais elle est honnête. Allez, c'est parti.

Les histoires du jour

              01 / 03
            

Les IA qui notent les IA ratent la moitié des erreurs

Quand vous confiez à une IA le soin d'évaluer une autre IA, qui surveille la surveillante ?

Une équipe de chercheurs a construit FOCUS, un banc d'essai de plus de 4 000 exemples volontairement dégradés, pour tester un angle mort rarement discuté : est-ce que les modèles d'IA que l'on utilise pour évaluer d'autres modèles d'IA font leur travail correctement ? Réponse courte : non, pas vraiment. Le principe est simple. Vous prenez une image et vous demandez à un premier modèle de la décrire. Vous introduisez ensuite des erreurs précises dans cette description — un objet mal placé, une couleur inventée, une relation spatiale fausse. Puis vous demandez à un modèle « évaluateur » de noter la description. Normalement, il devrait pénaliser les erreurs. En pratique, dans plus de 50 % des cas pour certaines catégories d'erreurs, il ne les voit tout simplement pas. Imaginez un correcteur de rédaction qui passe à côté d'une faute sur deux. Vous lui faites confiance pour valider le travail d'un élève, et il signe aveuglément la moitié des copies boguées. Pourquoi ça compte : aujourd'hui, une partie croissante de l'évaluation des modèles d'IA repose sur d'autres modèles d'IA. Si ces évaluateurs sont eux-mêmes défaillants, on construit potentiellement sur du sable. Les chercheurs notent que les erreurs de composition fine — « l'objet A est à gauche de l'objet B » — et les contenus inventés qui contredisent une image passent particulièrement sous le radar. La méthode de comparaison par paires reste la plus fiable, selon l'étude. Le hic : FOCUS teste quatre évaluateurs populaires sur un banc d'essai construit pour l'occasion, avec des images générées par Gemini. Les résultats pourraient ne pas se généraliser à d'autres types de contenus visuels, ni à des évaluateurs plus récents. Augmenter le « budget de raisonnement » des modèles — leur laisser plus de temps pour réfléchir — ne corrige pas non plus le problème de façon cohérente. Ce n'est pas une question de vitesse.

Glossaire

VLM (Vision-Language Model) — Un modèle d'IA capable de traiter à la fois des images et du texte — il peut décrire une photo, répondre à des questions sur elle, ou en générer une depuis un texte.

hallucination — Quand un modèle d'IA produit une information fausse ou inventée avec assurance, sans base dans les données qu'on lui a fournies.

méta-évaluation — L'évaluation d'un système d'évaluation — ici, tester si les IA qui notent d'autres IA font bien leur travail.

Source: Seeing Isn't Believing: Uncovering Blind Spots in Evaluator Vision-Language Models

              02 / 03
            

18 modèles sur 20 ont un biais pro-intervention en économie

Vous posez une question économique à un grand modèle de langage — et sans le savoir, vous recevez peut-être une réponse teintée d'un penchant idéologique.

Des chercheurs ont soumis 1 056 questions d'économie à 20 grands modèles de langage — parmi lesquels GPT, Claude, Gemini, Qwen et Grok. Ces questions portaient sur des effets causaux précis : est-ce que telle politique fiscale augmente l'emploi ? Est-ce que telle réglementation fait monter les prix ? Des questions où la science économique dispose de réponses empiriques, mais sur lesquelles les économistes se divisent selon leur cadre idéologique — certains favorisant l'intervention de l'État, d'autres la régulation par le marché. Résultat : 18 modèles sur 20 répondent de façon systématiquement plus juste quand la bonne réponse s'aligne avec une vision « interventionniste » — favorable aux politiques publiques actives. Quand la bonne réponse est celle que prédirait un économiste « de marché », les modèles se trompent plus souvent. L'écart moyen constaté est de 9 à 15 points de pourcentage selon les modèles. Pensez à un conseiller financier dont les intuitions pencheraient toujours dans la même direction, sans qu'il en soit conscient lui-même. Il ne ment pas. Mais il oriente la balance, subtilement, et systématiquement. Pourquoi ça compte : les LLM — grands modèles de langage — sont déjà utilisés pour rédiger des rapports d'analyse, informer des décisions de politique publique, ou simplement répondre à des citoyens curieux d'économie. Un biais structurel dans le raisonnement causal n'est pas anodin, même s'il n'est pas intentionnel. Le hic : les étiquettes « interventionniste » et « de marché » sont elles-mêmes produites en interrogeant des IA, ce qui introduit une circularité dans la méthode que les auteurs reconnaissent. Je simplifie. Et l'étude mesure un biais en termes de précision sur des questions économiques — pas d'influence réelle sur des utilisateurs. Ce sont deux choses différentes.

Glossaire

LLM (Large Language Model) — Un grand modèle de langage entraîné sur d'immenses quantités de texte pour produire ou comprendre du langage naturel — ChatGPT, Claude ou Gemini en sont des exemples.

causalité économique — La question de savoir si une politique X produit réellement l'effet Y — par exemple, si une hausse du salaire minimum cause ou non du chômage.

biais idéologique — Une tendance systématique à favoriser un point de vue particulier dans les réponses, sans que cela soit explicitement programmé ni annoncé.

Source: Ideological Bias in LLMs' Economic Causal Reasoning

              03 / 03
            

Les IA sont bien moins douées que nous pour comprendre un son

32 % pour les humains, moins de 9 % pour les meilleures IA : un concours de questions sur des sons révèle un fossé que personne n'attendait aussi large.

Des chercheurs ont constitué AUDITA, un ensemble de 9 690 questions-réponses basées sur de vrais extraits sonores : reconnaître un instrument, identifier un dialecte, dater un enregistrement, nommer un lieu à partir d'une ambiance. Des questions de culture audio posées à la fois à des humains experts et aux meilleurs modèles d'IA actuels. Les humains répondent correctement à environ 32 % des questions en moyenne — c'est difficile, mais c'est une vraie performance humaine. Les meilleurs modèles d'IA s'en sortent à... moins de 9 %. Pas 90 %. Pas même 50 %. Moins de 9. Imaginez un quiz musical où vous reconnaissez un tiers des extraits. L'IA, elle, bute sur presque tout. Ce qui rend ce résultat intéressant, c'est la méthode. Les benchmarks audio existants sont trop faciles à contourner : un modèle peut « tricher » en repérant un mot-clé, en lisant des métadonnées cachées dans un fichier, ou en s'appuyant sur des patterns superficiels. AUDITA a été conçu pour bloquer ces raccourcis. Les chercheurs utilisent la théorie de réponse à l'item — une méthode statistique issue de la psychométrie — pour mesurer non seulement le score brut, mais aussi la difficulté fine de chaque question et la compétence réelle de chaque participant, humain ou machine. Pourquoi ça compte : la compréhension audio est une brique clé pour les assistants vocaux, les outils d'accessibilité, et les systèmes de surveillance sonore. Si les modèles échouent à ce niveau, on est encore loin d'une IA qui « comprend » vraiment ce qu'elle entend. Le hic : les participants humains de l'étude sont des experts en audio, pas des gens ordinaires. Le vrai fossé humain-machine, avec un public lambda, serait probablement moins dramatique. L'écart reste préoccupant, mais gardez la nuance en tête.

Glossaire

benchmark — Un jeu de test standardisé qui permet de comparer les performances de différents systèmes ou personnes sur les mêmes tâches, dans les mêmes conditions.

théorie de réponse à l'item (IRT) — Une méthode statistique qui mesure non seulement combien de bonnes réponses quelqu'un donne, mais aussi à quel point chaque question est difficile — pour obtenir une mesure plus fine de la compétence réelle.

Source: AUDITA: A New Dataset to Audit Humans vs. AI Skill at Audio QA

La vue d'ensemble

Trois papiers, trois angles différents, un même fil conducteur : nous avons de plus en plus de mal à savoir ce que les IA comprennent vraiment — et ce qu'elles ratent. Les évaluateurs IA manquent la moitié des erreurs de vision. Les modèles de langage penchent idéologiquement sans le signaler. Et l'audio — une modalité entière — reste hors de portée des meilleurs systèmes actuels. Ce que cela dit collectivement, c'est que l'IA n'est pas uniformément capable. Il y a des zones grises, des angles morts, des biais intégrés — souvent invisibles, souvent non mesurés. Et la bonne nouvelle dans tout ça, c'est que des chercheurs construisent des outils pour les débusquer. FOCUS, EconCausal étendu, AUDITA : ce sont des radars. On commence à savoir ce qu'on cherche, et à se donner les moyens de le trouver. C'est un vrai progrès — même si, souvent, ce qu'on trouve n'est pas rassurant.

À surveiller

Les résultats sur les biais idéologiques en économie méritent une réplication indépendante — à surveiller dans les prochaines semaines si d'autres équipes s'emparent du benchmark EconCausal. Du côté audio, AUDITA est public : on peut s'attendre à voir d'autres modèles évalués rapidement, et peut-être des tentatives de fine-tuning ciblé. La question centrale reste ouverte : peut-on entraîner un évaluateur IA qui soit vraiment fiable, ou l'évaluation automatique a-t-elle des limites structurelles qu'on ne peut pas dépasser ?

Pour aller plus loin

Merci de m'avoir lu — à demain. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe