All digests
General publicFRArtificial Intelligencedaily

[Artificial Intelligence] Quand l'IA est trop forte, l'humain se rendort

DeepScience — Artificial Intelligence
DeepScience · Artificial Intelligence · Digest quotidien

Quand l'IA est trop forte, l'humain se rendort

Trois papiers d'aujourd'hui posent la même question sous des angles différents : peut-on vraiment faire confiance à l'IA là où ça compte ?
May 09, 2026
Journée honnêtement modeste côté publications — beaucoup de keynotes d'archives et de papiers sans données réelles. Mais trois histoires valent le détour. Elles se ressemblent sans se ressembler : une équipe turque teste ChatGPT et Gemini sur de vrais patients atteints de cancer, un philosophe argumente que les grands modèles de langage ne raisonnent pas vraiment, et une troisième équipe montre que plus une IA est précise, moins l'humain qui la surveille reste attentif. Ça ne crie pas au miracle. Ça pose des questions utiles.
Les histoires du jour
01 / 03

ChatGPT contre Gemini pour classer des cancers : résultat serré, mais un sur quatre se trompe

Un médecin qui se trompe une fois sur quatre dans la classification d'un cancer, on lui retire ses droits de prescription — alors pourquoi accepterait-on ce taux d'un outil d'aide au diagnostic ?

Une équipe de l'université Zonguldak Bulent Ecevit, en Turquie, a soumis les dossiers de 180 patients atteints de cancers de la tête et du cou à deux IA : ChatGPT-4o et Gemini 1.5 Pro. La mission : attribuer un stade TNM et proposer un plan de traitement. Le TNM, c'est le système de notation qu'utilisent les oncologues pour décrire un cancer — T pour la taille de la tumeur, N pour les ganglions atteints, M pour les métastases. Imaginez un formulaire très précis que vous devez remplir correctement avant de choisir entre chimio, radio, et chirurgie. Une erreur de case, et le traitement peut être inadapté. Résultat : les deux modèles arrivent à environ 75 % de précision sur le classement TNM. C'est comparable l'un à l'autre — statistiquement, impossible de départager les deux. Là où Gemini prend l'avantage, c'est dans les recommandations de traitement : 78,9 % contre 71,7 % pour ChatGPT, une différence suffisamment nette pour être significative. Mais voici le vrai hic : un taux d'erreur de 25 % sur le staging. Les auteurs eux-mêmes qualifient ce chiffre de « préoccupation clinique critique ». En plus, ChatGPT se dégrade dans les zones anatomiquement complexes — l'oropharynx, les sinus — là précisément où l'expertise humaine est la plus irremplaçable. Je simplifie : ces outils ne lisent pas les images, ne palpent pas le cou, n'écoutent pas le patient. Ils reçoivent du texte et produisent du texte. Le fait qu'ils atteignent 75 % en travaillant ainsi est honnêtement impressionnant. Mais en oncologie, les 25 % restants ne sont pas des détails statistiques — ce sont des personnes.

Glossaire
TNM stagingSystème international de classification des cancers basé sur la taille de la tumeur (T), l'atteinte des ganglions lymphatiques (N) et la présence de métastases (M).
AJCC 8th EditionManuel de référence mondial pour la classification des cancers, publié par l'American Joint Committee on Cancer, utilisé ici comme étalon-or pour évaluer les IA.
Cramer's VMesure statistique qui quantifie la force d'une association entre deux variables catégorielles — ici utilisée pour mesurer l'impact de la localisation anatomique sur la précision du modèle.
02 / 03

Un philosophe argumente que les grands modèles de langage ne raisonnent pas vraiment

Quand votre GPS vous dit de tourner à gauche, il ne « comprend » pas la route — il applique des règles. Et si les grands modèles de langage faisaient exactement la même chose ?

Ce papier publié dans Frontiers in AI ne présente pas d'expérience : c'est une analyse philosophique. Son auteur argumente, en s'appuyant sur des travaux allant de Leibniz jusqu'au philosophe contemporain Robert Brandom, que raisonner vraiment, ce n'est pas enchaîner des mots probables — c'est suivre des relations de raisons, comme quand vous dites « il pleut, donc je prends mon manteau ». L'argument central : les modèles purement neuronaux comme les grands modèles de langage ne peuvent pas raisonner en ce sens, non pas parce qu'ils sont mal conçus, mais en principe. Ils reconnaissent des structures dans des données massives — comme un musicien capable de reproduire un morceau à l'oreille sans jamais avoir appris le solfège. Ça impressionne. Mais ça n'est pas de la musique théorique. L'auteur ajoute que les approches purement symboliques — les vieux systèmes de règles logiques — tombent dans un autre piège : les humains eux-mêmes sont incapables de formaliser complètement le langage naturel. Il y a toujours une ambiguïté qui résiste. Sa conclusion : si une machine devait un jour raisonner véritablement, c'est l'approche neuro-symbolique — qui marie réseaux de neurones et logique formelle — qui a les meilleures chances théoriques. Soyons honnêtes : c'est de la philosophie, pas de l'expérimentation. Il n'y a pas de benchmark, pas de données. Certains chercheurs diront que le « vrai raisonnement » est une notion trop floue pour être opérationnelle. Mais la question que pose ce papier — est-ce que nos outils raisonnent ou simulent-ils le raisonnement ? — est exactement celle qu'on devrait se poser avant de les déployer dans des décisions importantes.

Glossaire
Raisonnement inférentielCapacité à tirer des conclusions à partir de prémisses en suivant des relations logiques explicites, par opposition à la simple reconnaissance de patterns statistiques.
Neuro-symboliqueApproche hybride de l'IA qui combine des réseaux de neurones (apprentissage automatique) avec des systèmes de règles logiques formelles.
NLI (Natural Language Inference)Tâche qui consiste à déterminer si une phrase en implique logiquement une autre, la contredit, ou est sans relation avec elle.
03 / 03

Une IA trop fiable endort la vigilance humaine — le paradoxe que personne ne veut voir

Un pilote automatique si fiable que le pilote ne surveille plus les instruments — c'est l'accident de demain, et l'IA d'entreprise est en train de recréer exactement ce scénario.

Ce papier — dont le texte complet n'était pas accessible, je travaille à partir du résumé et des métadonnées — propose quelque chose d'inconfortable : plus une IA est précise, plus elle est dangereuse sur le long terme. L'équipe a conçu un environnement de test simulant une tâche de détection de phishing, avec des opérateurs humains supervisés par un système d'IA. Le mécanisme observé a un nom : la « complaisance à l'automatisation ». Quand l'IA se trompe rarement, le cerveau humain bascule progressivement d'un mode analytique — « je vérifie chaque décision » — à un mode automatique — « je fais confiance par défaut ». Imaginez que vous vérifiez vos relevés bancaires chaque semaine. Après dix-huit mois sans anomalie, vous arrêtez de regarder ligne par ligne. Vous scannez. Puis un jour, une fraude passe. Le problème, c'est que ce biais cognitif se déclenche précisément quand l'IA est bien construite. Ce ne sont pas les mauvais systèmes qui créent ce risque — ce sont les bons. Et les moments où l'IA finit par échouer sont exactement ceux où l'humain censé la surveiller a perdu l'entraînement pour détecter l'erreur. Le hic méthodologique : je n'ai pas accès aux résultats quantitatifs de l'expérience, et le papier ne semble pas encore publié dans une revue à comité de lecture. Les conclusions sont plausibles — la littérature sur l'aviation et le nucléaire dit la même chose depuis trente ans — mais les chiffres précis restent à confirmer. Ça ne change pas l'enjeu : si vous déployez une IA dans un processus critique sans maintenir activement la vigilance humaine, vous construisez une bombe à retardement.

Glossaire
Complaisance à l'automatisationBiais cognitif par lequel un opérateur réduit son niveau de vigilance et de vérification active à mesure qu'un système automatisé montre une fiabilité élevée.
Human-in-the-loopArchitecture de système où un humain conserve un rôle de supervision ou de validation dans une boucle de décision automatisée.
System 1 / System 2Distinction popularisée par Daniel Kahneman : System 1 est la pensée rapide et heuristique (automatique), System 2 est la pensée lente et analytique (délibérée).
Source: The Paradox of Perfection: Hidden Risks of High-Performing AI in Human-in-the-Loop Governance
La vue d'ensemble

Regardez ces trois papiers ensemble et vous voyez un motif. L'équipe turque montre que l'IA fait 75 % de bon travail en oncologie — et que les 25 % restants ne sont pas négligeables. Le philosophe argumente que l'IA ne raisonne pas vraiment, elle simule le raisonnement. Et le troisième papier dit que plus l'IA simule bien, moins l'humain fait son travail de vérification. Ce n'est pas du catastrophisme. Aucun de ces trois papiers ne dit « arrêtez tout ». Ce qu'ils disent collectivement, c'est que la question de confiance est mal posée. On se demande si l'IA est assez bonne. On devrait se demander : bonne pour quoi, dans quelles conditions, avec quelle gouvernance humaine autour ? Un outil à 75 % de précision peut être utile si les 25 % d'erreurs sont interceptés. Il devient dangereux si la personne qui devait les intercepter a cessé de regarder.

À surveiller

La question de la supervision humaine des IA en milieu clinique va monter en puissance avant la fin de l'année — plusieurs régulateurs européens, dont la HAS en France, doivent préciser leurs exigences pour les outils d'aide au diagnostic. À surveiller aussi : les premières publications mesurant la dégradation de vigilance dans des déploiements réels d'IA en entreprise, pas seulement en laboratoire. C'est la question ouverte que j'aimerais voir adressée avec des données de terrain.

Pour aller plus loin
Merci de m'avoir lu — une journée modeste mais honnête, ce qui me convient. À demain. — JB
DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io