DeepScience — Artificial Intelligence

DeepScience · Artificial Intelligence · Digest quotidien

Médecine chinoise, IA minuscule, hallucinations sous microscope

Ce que la recherche en IA fait aujourd'hui : lire une langue, entraîner un modèle nain, et tenter d'autopsier les mensonges des machines.

            May 11, 2026
          

Soyons honnêtes dès le départ : sur les 214 papiers du jour, la majorité sont des white papers sans données, des spécifications de protocoles sans expériences, ou des déclarations de performance sans preuve. J'ai passé ma matinée à faire le tri pour vous épargner le café froid. Trois histoires ont survécu au filtre — dont une à prendre avec des pincettes, mais le sujet mérite qu'on en parle quand même.

Les histoires du jour

              01 / 03
            

Une IA combine médecine chinoise et données cliniques pour détecter des maladies

Votre langue et votre pouls peuvent-ils vraiment renseigner une IA sur un cancer ? Une équipe a essayé sérieusement.

L'idée de départ est déconcertante : la médecine traditionnelle chinoise (MTC) évalue depuis des siècles l'état de santé d'un patient en observant sa langue et en tâtant son pouls. Ces signaux sont subjectifs, difficiles à standardiser, et pas franchement en phase avec un dossier oncologique moderne. Alors, que se passe-t-il si on les fusionne avec des données cliniques numériques pour détecter des comorbidités — c'est-à-dire des maladies qui coexistent avec un cancer ? C'est exactement ce que le système Mingzheng a tenté. L'équipe a entraîné un modèle de fusion multimodale — pensez à un chef cuisinier qui combine des ingrédients de cuisines très différentes pour obtenir un plat cohérent — sur 478 patients répartis dans cinq hôpitaux. Les signaux MTC (langue, pouls) sont encodés et combinés avec des embeddings linguistiques issus d'un grand modèle de langage. Résultat : un Macro-F1 de 0,659 et un Macro-AUC de 0,818 en validation croisée. Ce ne sont pas des chiffres spectaculaires, mais ils battent plusieurs grands modèles de langage testés en mode zéro-shot — dont DeepSeek-R1 et Llama-3.1 — sur la même tâche. Une validation temporelle prospective a été conduite sur une cohorte externe de 105 patients inscrits, dont seulement 47 étaient éligibles après exclusions. C'est là le hic principal : 55 % d'exclusions, c'est beaucoup. Le modèle reste prometteur, mais sa robustesse sur des populations plus larges ou plus diverses reste à démontrer. Et la reproductibilité — justement l'objet de ce package — n'est pas encore synonyme de généralisation clinique. Un vrai pas, mais un pas dans un couloir encore étroit.

Glossaire

Fusion multimodale — Technique qui combine des données de natures différentes (images, texte, signaux) pour produire une décision ou une prédiction unique.

Macro-F1 — Mesure de performance qui évalue la précision et le rappel d'un modèle en traitant chaque catégorie de résultat de façon égale, indépendamment de sa fréquence.

Macro-AUC — Mesure de la capacité d'un modèle à distinguer correctement entre plusieurs catégories, moyennée sur toutes les catégories.

Zéro-shot — Mode d'évaluation où un modèle répond sans avoir été spécifiquement entraîné sur les exemples testés — un peu comme passer un examen sans avoir eu le cours.

Validation croisée Leave-One-Site-Out (LOSO) — Méthode qui entraîne le modèle sur tous les hôpitaux sauf un, puis teste sur celui qu'on a mis de côté, et répète l'opération pour chaque hôpital.

Source: Mingzheng — Reproducibility Data Package (Information Fusion 2026)

              02 / 03
            

Un modèle d'IA de 42 millions de paramètres pour la cybersécurité en espagnol

Un modèle d'IA qui tient dans 20 mégaoctets et comprend le jargon de la cybersécurité en espagnol : petite taille, vraies leçons.

La tendance dominante en IA, c'est plus gros, plus cher, plus puissant. Ce papier d'un chercheur indépendant tire dans l'autre sens : entraîner de zéro un modèle de 42 millions de paramètres — soit environ 80 fois plus petit que les modèles courants — sur un corpus de 170 millions de mots en espagnol centré sur la cybersécurité. Pourquoi si petit ? Parce que pour des tâches très spécialisées, un outil de jardinage bien aiguisé vaut parfois mieux qu'une tondeuse industrielle. L'idée est que le modèle puisse tourner sur du matériel modeste, comprendre le jargon de la sécurité informatique hispanophone, et appeler des outils externes (comme un scanner de vulnérabilités) via un protocole standardisé. La méthode choisie est l'apprentissage par curriculum : d'abord apprendre à converser normalement, puis se spécialiser en cybersécurité générale, puis en sécurité offensive. Avec un mécanisme de rappel des données précédentes pour éviter que le modèle n'oublie ce qu'il a appris au début — comme réviser ses cours de première en préparant son bac. Deux trouvailles valent qu'on s'y arrête. Première : la perte d'entraînement descend de façon monotone (9,80 → 2,16), ce qui est un bon signe de stabilité. Deuxième, et c'est la plus intéressante : sur les données mélangées, le modèle échoue complètement à choisir les bons outils (BLEU-4 = 0,000). Il faut un corpus très dense en exemples d'utilisation d'outils pour que ça fonctionne (BLEU-4 monte alors à 0,145). Le hic : c'est un travail solo, sans comparaison externe avec un modèle de référence établi, et les métriques sont parfois maison. À surveiller de loin, mais les leçons sur l'entraînement frugal sont réelles.

Glossaire

Paramètres — Les valeurs numériques ajustables d'un modèle d'IA, qui déterminent son comportement — plus il y en a, plus le modèle est grand et potentiellement capable.

Apprentissage par curriculum — Stratégie d'entraînement qui présente les données du plus simple au plus complexe, comme un programme scolaire progressif.

BLEU-4 — Score qui mesure à quel point le texte produit par un modèle ressemble à un texte de référence — ici utilisé pour évaluer si le modèle choisit les bons outils.

Catastrophic forgetting — Phénomène où un modèle, en apprenant une nouvelle tâche, oublie les précédentes — le problème que le replay buffer cherche à éviter.

Source: VectraYX-Nano: A 42M-Parameter Spanish Cybersecurity LLM with Native MCP Tool Integration

              03 / 03
            

Pourquoi les IA inventent-elles des faits ? Une tentative d'autopsie

Quelqu'un a passé 58 phases d'expériences à disséquer les hallucinations d'une IA — les résultats sont fascinants, mais la méthode réclame de la prudence.

La question est légitime et importante : quand une IA invente un fait, que se passe-t-il mécaniquement à l'intérieur ? Ce chercheur individuel a utilisé GPT-2 — un petit modèle de 124 millions de paramètres, ancêtre des systèmes actuels — comme cobaye pour tenter de cartographier les « lois physiques » des hallucinations. L'image proposée est celle d'un accélérateur de particules : on bombarde le modèle de questions, on observe où les faits « disparaissent » dans les couches du réseau, et on tente d'en déduire des lois générales. Parmi les trouvailles annoncées : 70 % des faits seraient supprimés par les couches finales du réseau, et aucune des 12 méthodes de correction testées en interne n'aurait fonctionné — 0 % de succès sur toutes. Maintenant, le hic — et je dois être direct ici, parce que c'est important. Ce travail présente des problèmes méthodologiques sérieux. Les expériences reposent sur un seul modèle, testé sur environ 27 exemples pour certains résultats clés. Il n'y a pas d'intervalle de confiance, pas de test statistique, et des coefficients suspicieusement ronds (γ = 0,000 exactement). Un résultat comme « toutes les corrections échouent à exactement 0 % » devrait nous alerter, pas nous convaincre. Pourquoi en parler quand même ? Parce que la question posée est cruciale, et qu'une partie des intuitions — notamment que les faits et les compétences linguistiques se représentent différemment dans les couches d'un réseau — mérite d'être testée sérieusement par des équipes avec les moyens nécessaires. Considérez ça comme une hypothèse de travail intéressante, pas comme une démonstration.

Glossaire

Hallucination (IA) — Fait inventé ou erroné produit avec assurance par un système d'IA, sans base réelle dans ses données d'entraînement ou le contexte fourni.

Logit Lens — Technique d'analyse qui permet d'observer, couche par couche dans un réseau de neurones, ce que le modèle « pense » être la bonne réponse à chaque étape intermédiaire.

Couches (d'un réseau de neurones) — Étapes successives de transformation dans un modèle d'IA — les premières traitent des motifs simples, les dernières des concepts plus abstraits.

Source: Project Aletheia: The Seven Laws of LLM Hallucination Physics — From Phase Transitions to Grammatical Suppression of Facts

La vue d'ensemble

Que nous disent ces trois histoires ensemble ? D'abord, que la recherche en IA la plus intéressante du jour ne vient pas des grands labos avec des GPU illimités. Elle vient d'équipes qui travaillent avec des contraintes réelles — cinq hôpitaux, 478 patients, ou 20 mégaoctets de modèle. C'est à la fois rassurant et instructif : les progrès ne sont pas réservés à ceux qui ont les plus gros clusters. Ensuite, la question de la fiabilité revient en fil rouge. Mingzheng montre qu'on peut commencer à combiner des données hétérogènes avec des résultats mesurables — mais que 55 % d'exclusions dans la validation externe est un signal d'alarme. VectraYX-Nano montre qu'un modèle peut apprendre à utiliser des outils, mais seulement si on lui donne suffisamment d'exemples de la bonne densité. Et Aletheia pose la bonne question sur les hallucinations, même si la réponse reste à construire par d'autres. Le vrai enjeu commun : comment faire confiance à ce que sort une IA, dans des contextes où l'erreur coûte cher ? Médecine, cybersécurité, décisions outillées — dans chacun de ces trois cas, la question de la robustesse n'est pas résolue. On avance, mais avec les yeux ouverts.

À surveiller

La conférence Information Fusion 2026, où Mingzheng sera présenté, sera un bon baromètre pour voir si la communauté multimodale médicale prend au sérieux la fusion MTC-données cliniques. Plus généralement, je voudrais voir quelqu'un reprendre les hypothèses d'Aletheia sur des modèles récents et à grande échelle, avec une méthodologie rigoureuse — parce que si une partie des intuitions tient, ça aurait des implications importantes pour la correction des hallucinations.

Pour aller plus loin

Merci de m'avoir lu dans cette journée de tri — à demain. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe