DeepScience — Artificial Intelligence

DeepScience · Artificial Intelligence · Digest quotidien

L'IA lit les échos, inspecte les ruines, piste les fraudeurs

Trois études empiriques cette semaine — avec de vraies données, de vrais chiffres, et de vraies limites.

            May 21, 2026
          

J'ai passé la matinée à trier 88 papiers pour vous épargner le travail. Honnêtement ? La grande majorité sont des frameworks théoriques sans une seule donnée pour les valider — beaucoup de noms en majuscules, zéro expérience. Mais trois études ont retenu mon attention : elles ont des chiffres, des limites avouées, et une vraie question derrière.

Les histoires du jour

              01 / 03
            

L'IA égale le cardiologue sur l'échographie cardiaque, cinq fois plus vite

94 secondes contre 8 minutes pour lire une échographie cardiaque — et l'IA arrive à égalité avec le technicien humain.

Voici ce qui s'est passé. Une équipe du Seoul National University Bundang Hospital en Corée du Sud a soumis 40 échographies cardiaques en parallèle à deux « lecteurs » : un technicien humain qualifié, et un logiciel d'IA automatisée appelé SONIX Health, développé par la société Ontact Health. Les deux étaient ensuite comparés au verdict d'un cardiologue expérimenté servant d'arbitre. L'analogie : imaginez que vous préparez deux plats identiques — l'un par un cuisinier en 8 minutes, l'autre par une machine en moins de 2 minutes. La question n'est pas la vitesse, c'est la qualité du résultat. Ici, sur la mesure-clé — la fraction d'éjection ventriculaire gauche, c'est-à-dire le pourcentage de sang expulsé à chaque battement du cœur — l'IA était dans les clous. Différence moyenne avec le cardiologue de référence : 0,00 point de pourcentage. La non-infériorité est confirmée statistiquement. Pourquoi ça compte. Dans les services de cardiologie surchargés, l'analyse d'imagerie est un goulot d'étranglement réel. Une réduction de 80 % du temps de traitement, si elle se confirme à grande échelle, libère des heures de travail qualifié pour les cas complexes. Mais voilà le hic. Quarante patients. Un seul hôpital. Un seul arbitre dont les propres erreurs ne sont pas mesurables dans cette étude. Sur les mesures secondaires, les performances de l'IA variaient beaucoup — certains indicateurs étaient excellents, d'autres nettement moins fiables. C'est un pilote, pas une validation clinique. Avant tout déploiement à grande échelle, il faudra des milliers de patients, plusieurs centres, et des études sur l'impact réel pour les patients — pas seulement sur le minutage.

Glossaire

fraction d'éjection ventriculaire gauche (LVEF) — Pourcentage du volume sanguin que le ventricule gauche expulse à chaque contraction ; indicateur central de la fonction cardiaque.

non-infériorité — Critère statistique qui vérifie qu'une nouvelle méthode n'est pas significativement moins bonne qu'une référence, sans prétendre qu'elle est meilleure.

ICC (Intraclass Correlation Coefficient) — Mesure de l'accord entre deux évaluateurs sur une même mesure continue ; 1 = accord parfait, 0 = aucun accord.

Source: Fully automated artificial intelligence–based echocardiographic analysis substantially reduces workflow time while preserving measurement accuracy: a pilot study

              02 / 03
            

Photos de rue et IA pour évaluer les dégâts d'ouragan, maison par maison

Des photos de rue, un modèle d'IA, et 92 % de précision pour trier les bâtiments dévastés par l'ouragan Ian en 2022.

Voici ce qui s'est passé. Des chercheurs ont entraîné un modèle d'IA à classer des bâtiments résidentiels en trois niveaux après passage d'un ouragan : peu endommagés, modérément endommagés, sévèrement endommagés. Leur système, baptisé MMST (Multimodal Swin Transformer), combine deux types d'informations : des photos de rue et des données tabulaires sur chaque bâtiment — son âge, sa valeur estimée, la vitesse du vent enregistrée sur place, la distance à la trajectoire de l'ouragan. Les données sont issues des relevés de terrain réalisés après l'ouragan Ian, qui a frappé la Floride en septembre 2022. L'analogie : pensez à un expert en sinistres qui évalue un bâtiment. Il regarde la façade, mais il consulte aussi le dossier — l'âge de la construction, la valeur cadastrale, l'historique météo. Ce modèle fait exactement ça, et l'ajout du « dossier » améliore significativement les résultats par rapport aux photos seules. Pourquoi ça compte. Après une catastrophe, l'évaluation des dégâts est lente et mobilise beaucoup de personnel sur le terrain. Un système automatisé fiable permettrait de prioriser les secours plus rapidement et de documenter les dommages pour les assurances à grande échelle. Mais voilà le hic. L'étude repose sur un seul ouragan, un seul pays, un seul type de bâtiment. Le chiffre de 92,67 % de précision globale sonne bien, mais le MCC — un indicateur qui tient compte du déséquilibre entre catégories — n'est que de 0,74. Ce qui signifie que le modèle a nettement plus de mal avec les cas rares, notamment les destructions totales. Et la taille exacte du jeu de données n'est pas communiquée dans l'article — ce qui, en 2026, reste un problème.

Glossaire

Swin Transformer — Architecture de réseau de neurones qui analyse des images en les découpant en fenêtres hiérarchiques glissantes ; très efficace en vision par ordinateur.

MCC (Matthews Correlation Coefficient) — Indicateur de performance d'un classifieur qui tient compte des déséquilibres entre catégories ; plus robuste que l'accuracy seule.

multimodal — Se dit d'un système qui fusionne plusieurs types de données différents — ici, images et données tabulaires.

Source: Post-hurricane building damage assessment using street-view imagery and structured data: a multimodal deep learning approach

              03 / 03
            

En Indonésie, un algorithme identifie les contribuables à risque de fraude fiscale

97 % de précision pour détecter la fraude fiscale — ça sonne bien, mais demandez-vous d'abord : précision sur quoi, exactement ?

Voici ce qui s'est passé. Des chercheurs ont travaillé sur 49 159 dossiers de contribuables de la Direction générale des impôts indonésienne. Objectif : entraîner un modèle capable d'identifier ceux qui risquent de ne pas être en règle. Ils ont utilisé deux architectures dites « d'ensemble » — le Stacking Classifier et le Voting Classifier — qui combinent plusieurs algorithmes (Random Forest, XGBoost, LightGBM) pour produire une décision collective. Imaginez un jury de trois experts qui délibèrent ensemble : leur verdict commun est souvent plus fiable que celui de chacun pris séparément. C'est exactement le principe. Pour rendre le modèle explicable, ils ont appliqué SHAP et LIME — des outils qui décomposent chaque décision variable par variable. Résultat : les prédicteurs les plus puissants ne sont pas des ratios financiers sophistiqués, mais des données brutes d'échelle (montant total d'impôts versés, valeur totale des actifs) et des caractéristiques administratives (statut PME, statut « non-effectif »). Maintenant, le moment de sobriété. Le jeu de données est profondément déséquilibré : il y a 18,81 contribuables conformes pour chaque non-conforme. Dans ce contexte, afficher 97 % de précision globale, c'est un peu comme se vanter de prédire le beau temps en été — c'est surtout parce que le beau temps est la norme. La vraie mesure qui compte, le F1-score sur la classe minoritaire (les fraudeurs potentiels), n'est que de 0,73. Correct, pas spectaculaire. L'étude ne teste pas non plus si le modèle tient dans le temps, ni dans d'autres contextes fiscaux. Et les risques d'équité — cibler les PME, par exemple — ne sont pas abordés.

Glossaire

Stacking Classifier — Méthode d'ensemble qui combine les prédictions de plusieurs modèles via un méta-modèle apprenant à les pondérer.

SHAP (SHapley Additive exPlanations) — Technique issue de la théorie des jeux qui mesure la contribution de chaque variable à la décision d'un modèle pour l'expliquer.

F1-score — Moyenne harmonique de la précision et du rappel ; plus fiable que l'accuracy globale quand les classes sont fortement déséquilibrées.

déséquilibre de classes — Situation où une catégorie est beaucoup plus représentée que l'autre dans les données, ce qui peut faire paraître les performances meilleures qu'elles ne le sont.

Source: Integration of Stacking Ensemble and Explainable AI for Taxpayer Compliance Risk Profiling

La vue d'ensemble

Ce que ces trois études ont en commun, c'est une même zone d'application : l'IA devient utile là où elle aide des humains à traiter rapidement des tâches à fort volume et faible variance — lire une image médicale standard, trier des bâtiments endommagés, filtrer des dossiers fiscaux à risque. Dans chaque cas, les modèles sont bons sur les cas fréquents, et nettement moins fiables sur les cas rares ou atypiques. C'est là que réside le vrai enjeu. Pas la performance moyenne — la performance sur les cas limites. La destruction totale que personne n'attendait. L'anomalie cardiaque discrète. Le fraudeur qui ne ressemble pas aux autres. L'IA joue bien sur terrain plat. La vraie question, celle que ces trois études posent sans la répondre, c'est : que se passe-t-il dans les virages ?

À surveiller

En cardiologie, surveillez si des équipes européennes tentent de reproduire ces résultats sur des cohortes de plusieurs centaines de patients — 40 examens, c'est vraiment trop peu pour convaincre les régulateurs comme la FDA ou le CE-Médical. Sur la détection fiscale, la question urgente sera de savoir si ce type de modèle est déployé en production et sous quelles garanties d'équité, car un algorithme qui cible prioritairement les PME soulève des questions sociales que l'article n'effleure même pas.

Pour aller plus loin

Merci de m'avoir lu — à demain. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe