Stéthoscope posé sur un clavier d'ordinateur, écran affichant une conversation avec une IA médicale et des courbes de précision diagnostique

🤖 Intelligence Artificielle & Médecine

L'IA bat-elle vraiment les médecins ? Ce que les gros titres oublient de dire

3 juin 2026 · 14 min de lecture · Synthèse · 4 études évaluées par les pairs 📄 Étude centrale ↗
D

Diogo Oliveira Cordemans

Étudiant en Sciences Biomédicales · UCLouvain · Fondateur de La Loupe · Sources primaires vérifiées, zéro jargon sans explication.

Partager 𝕏 Twitter LinkedIn Facebook

📋 Dans cet article

📌 L'essentiel en une phrase

Oui, sur des questionnaires à choix multiples (QCM) d'examen, l'IA obtient des scores plus élevés que beaucoup de médecins. Mais un examen n'est pas une consultation : dès qu'on change légèrement la question, qu'il faut dialoguer avec un vrai patient, ou qu'on place l'outil entre les mains d'un médecin, l'avantage s'évapore. L'IA est aujourd'hui un excellent candidat à l'examen, pas un meilleur médecin.

D'où vient ce titre qu'on lit partout

Depuis 2023, une vague d'études montre des modèles comme GPT ou Claude obtenant d'excellents scores aux grands examens médicaux (l'examen de licence américain, la banque de questions MedQA, etc.). Une étude de 2025 a même mesuré jusqu'à 83 % de bonnes réponses sur des cas cliniques complexes, devant des modèles plus modestes. Ce résultat est réel, et il impressionne. Le raccourci médiatique qui suit l'est moins : « l'IA bat les médecins ».

Le piège : un examen n'est pas la vraie médecine

Réussir le code de la route ne fait pas de vous un bon conducteur sous la pluie, de nuit, avec un enfant qui pleure à l'arrière. De la même façon, un QCM médical mesure une chose précise (reconnaître la bonne réponse parmi quatre) qui ne ressemble pas à une consultation réelle, où il faut poser les bonnes questions, gérer des informations incomplètes, et changer d'avis quand un détail apparaît. Trois expériences récentes montrent exactement où l'IA décroche.

Test 1 : Changez la question, l'IA s'effondre

Des chercheurs ont pris des QCM médicaux standards et remplacé la bonne réponse par « aucune des réponses ci-dessus », sans toucher au raisonnement clinique nécessaire. Pour un médecin, la difficulté reste identique. Pour l'IA, non : la précision a chuté jusqu'à plus d'un tiers selon les modèles. Traduction : une partie du « génie » de l'IA aux examens vient de la reconnaissance de schémas familiers, pas d'un vrai raisonnement.

Test 2 : Un vrai patient ne récite pas un QCM

Dans la vraie vie, le patient ne vous tend pas un énoncé bien rédigé avec quatre options. Il décrit vaguement une douleur, oublie des symptômes, répond à côté. Quand on évalue les modèles dans ce type de dialogue réaliste : l'IA doit mener l'entretien et reconstituer l'histoire, leur précision diagnostique baisse nettement par rapport aux vignettes toutes prêtes. Savoir répondre n'est pas savoir interroger.

Test 3 : L'IA seule bat les médecins, mais l'IA + médecin = médecin

C'est le résultat le plus contre-intuitif, et le plus important. Dans un essai randomisé mené auprès de médecins, l'IA utilisée seule a obtenu de meilleurs scores de raisonnement diagnostique que les médecins. Mais les médecins équipés de cette même IA n'ont pas fait mieux que ceux qui disposaient seulement de leurs outils habituels. Autrement dit : le problème n'est pas la puissance brute du modèle, c'est la collaboration entre l'humain et la machine : la confiance, l'intégration au flux de travail, la façon de poser la question.

📝 À l'examen

Scores records sur les QCM. C'est vrai, c'est mesuré, et c'est là que naissent les gros titres.

🔀 Question modifiée

On change la forme sans changer le fond : la précision chute jusqu'à un tiers. Motifs reconnus, pas raisonnés.

🩺 En consultation

Dialogue réel et travail d'équipe avec un médecin : l'avantage théorique ne se transforme pas en gain clinique.

⚠️ Ce que ça ne veut PAS dire

Cela ne signifie pas que l'IA est inutile en médecine : elle aide déjà à résumer des dossiers, à dégrossir des hypothèses, à ne rien oublier. Cela ne veut pas dire non plus qu'elle ne progressera pas. Cela veut dire qu'aujourd'hui, l'affirmation « l'IA bat les médecins » est un raccourci faux dès qu'on parle de pratique réelle. Et que ChatGPT n'est pas un médecin : pour un vrai problème de santé, on consulte un professionnel.

Ce qu'il faut retenir

Quand vous lisez « l'IA dépasse les médecins », posez une seule question : dépasse-t-elle à l'examen, ou en consultation ? Les deux n'ont presque rien à voir. Le score d'examen est spectaculaire ; l'utilité clinique réelle, prudente et prometteuse, reste à construire, surtout du côté de la collaboration humain-IA.

Sources vérifiables

✦ Newsletter gratuite

Tu veux le prochain article
directement dans ta boîte mail ?

Gratuit · Zéro spam · Le prochain article sort cette semaine.

Questions fréquentes : l'IA face aux médecins

L'IA est-elle vraiment meilleure que les médecins pour diagnostiquer ?

Cela dépend entièrement du cadre. Sur des QCM d'examen et des cas cliniques écrits, les meilleurs modèles obtiennent des scores supérieurs à ceux de nombreux médecins (jusqu'à 83 % sur cas complexes, Dinc 2025). Mais en consultation réelle (dialogue avec un patient, informations incomplètes, travail d'équipe avec un clinicien), cet avantage disparaît. « Meilleur à l'examen » n'équivaut pas à « meilleur médecin ».

Pourquoi l'IA réussit-elle les QCM médicaux mais échoue quand la question change ?

Parce qu'une partie de sa performance repose sur la reconnaissance de schémas vus à l'entraînement, pas sur un raisonnement logique. L'étude de Bedi (2025) l'a démontré : en remplaçant la bonne réponse par « aucune des réponses ci-dessus », sans changer le raisonnement requis, la précision des modèles a chuté de 9 à 38 % selon les cas.

Qu'a montré l'étude de Bedi (2025) ?

Publiée dans JAMA Network Open, elle teste si les modèles raisonnent ou reconnaissent des motifs. Sur 68 questions MedQA validées par des cliniciens et modifiées (réponse correcte remplacée par NOTA), tous les modèles ont perdu en précision, jusqu'à 38,2 % de baisse relative. Les modèles de raisonnement résistent mieux, mais aucun n'est épargné.

Que change l'essai randomisé de Goh (2024) ?

Beaucoup. Dans cet essai randomisé auprès de 50 médecins (JAMA Network Open), disposer d'un grand modèle de langage n'a pas amélioré significativement leur raisonnement diagnostique par rapport aux ressources classiques. Pourtant, le modèle seul surpassait les médecins. Le problème n'est donc pas la puissance de l'IA, mais la collaboration humain-IA.

Qu'est-ce que CRAFT-MD (Johri, 2025) ?

C'est un cadre d'évaluation publié dans Nature Medicine qui teste les modèles en dialogue réaliste : une IA « patient » discute avec l'IA « médecin », qui doit mener l'entretien et diagnostiquer. Résultat : en passant de la vignette figée à la conversation multi-tours, la précision diagnostique baisse, notamment sur le recueil d'antécédents et le questionnement.

Les médecins vont-ils être remplacés par l'IA ?

Rien dans la littérature actuelle ne le soutient. Les études montrent que l'IA excelle sur des tâches d'examen mais décroche en conditions cliniques réelles, et qu'elle n'améliore pas encore le raisonnement des médecins lorsqu'elle leur sert d'assistant. Son rôle le mieux étayé est l'aide à la décision, pas le remplacement.

Peut-on se fier à ChatGPT pour un auto-diagnostic ?

Non. Un modèle généraliste n'a pas accès à votre examen clinique, à vos antécédents complets ni au contexte qu'un médecin perçoit ; il peut produire des erreurs avec aplomb et reste sensible à la façon dont la question est posée. Pour un problème de santé réel, consultez un professionnel de santé.

Quelle est la principale limite des études qui disent « l'IA bat les médecins » ?

Elles mesurent presque toujours la performance sur des benchmarks statiques (QCM, vignettes écrites), qui ressemblent à un examen et non à une consultation. Or un score d'examen ne prédit pas l'utilité clinique réelle. Tant que les évaluations ne sont pas prospectives, conversationnelles et centrées sur les issues patients, la comparaison reste biaisée.