Oui, sur des questionnaires à choix multiples (QCM) d'examen, l'IA obtient des scores plus élevés que beaucoup de médecins. Mais un examen n'est pas une consultation : dès qu'on change légèrement la question, qu'il faut dialoguer avec un vrai patient, ou qu'on place l'outil entre les mains d'un médecin, l'avantage s'évapore. L'IA est aujourd'hui un excellent candidat à l'examen, pas un meilleur médecin.
D'où vient ce titre qu'on lit partout
Depuis 2023, une vague d'études montre des modèles comme GPT ou Claude obtenant d'excellents scores aux grands examens médicaux (l'examen de licence américain, la banque de questions MedQA, etc.). Une étude de 2025 a même mesuré jusqu'à 83 % de bonnes réponses sur des cas cliniques complexes, devant des modèles plus modestes. Ce résultat est réel, et il impressionne. Le raccourci médiatique qui suit l'est moins : « l'IA bat les médecins ».
Le piège : un examen n'est pas la vraie médecine
Réussir le code de la route ne fait pas de vous un bon conducteur sous la pluie, de nuit, avec un enfant qui pleure à l'arrière. De la même façon, un QCM médical mesure une chose précise (reconnaître la bonne réponse parmi quatre) qui ne ressemble pas à une consultation réelle, où il faut poser les bonnes questions, gérer des informations incomplètes, et changer d'avis quand un détail apparaît. Trois expériences récentes montrent exactement où l'IA décroche.
Test 1 : Changez la question, l'IA s'effondre
Des chercheurs ont pris des QCM médicaux standards et remplacé la bonne réponse par « aucune des réponses ci-dessus », sans toucher au raisonnement clinique nécessaire. Pour un médecin, la difficulté reste identique. Pour l'IA, non : la précision a chuté jusqu'à plus d'un tiers selon les modèles. Traduction : une partie du « génie » de l'IA aux examens vient de la reconnaissance de schémas familiers, pas d'un vrai raisonnement.
Test 2 : Un vrai patient ne récite pas un QCM
Dans la vraie vie, le patient ne vous tend pas un énoncé bien rédigé avec quatre options. Il décrit vaguement une douleur, oublie des symptômes, répond à côté. Quand on évalue les modèles dans ce type de dialogue réaliste : l'IA doit mener l'entretien et reconstituer l'histoire, leur précision diagnostique baisse nettement par rapport aux vignettes toutes prêtes. Savoir répondre n'est pas savoir interroger.
Test 3 : L'IA seule bat les médecins, mais l'IA + médecin = médecin
C'est le résultat le plus contre-intuitif, et le plus important. Dans un essai randomisé mené auprès de médecins, l'IA utilisée seule a obtenu de meilleurs scores de raisonnement diagnostique que les médecins. Mais les médecins équipés de cette même IA n'ont pas fait mieux que ceux qui disposaient seulement de leurs outils habituels. Autrement dit : le problème n'est pas la puissance brute du modèle, c'est la collaboration entre l'humain et la machine : la confiance, l'intégration au flux de travail, la façon de poser la question.
📝 À l'examen
Scores records sur les QCM. C'est vrai, c'est mesuré, et c'est là que naissent les gros titres.
🔀 Question modifiée
On change la forme sans changer le fond : la précision chute jusqu'à un tiers. Motifs reconnus, pas raisonnés.
🩺 En consultation
Dialogue réel et travail d'équipe avec un médecin : l'avantage théorique ne se transforme pas en gain clinique.
⚠️ Ce que ça ne veut PAS dire
Cela ne signifie pas que l'IA est inutile en médecine : elle aide déjà à résumer des dossiers, à dégrossir des hypothèses, à ne rien oublier. Cela ne veut pas dire non plus qu'elle ne progressera pas. Cela veut dire qu'aujourd'hui, l'affirmation « l'IA bat les médecins » est un raccourci faux dès qu'on parle de pratique réelle. Et que ChatGPT n'est pas un médecin : pour un vrai problème de santé, on consulte un professionnel.
Ce qu'il faut retenir
Quand vous lisez « l'IA dépasse les médecins », posez une seule question : dépasse-t-elle à l'examen, ou en consultation ? Les deux n'ont presque rien à voir. Le score d'examen est spectaculaire ; l'utilité clinique réelle, prudente et prometteuse, reste à construire, surtout du côté de la collaboration humain-IA.
Tu veux le prochain article directement dans ta boîte mail ?
Gratuit · Zéro spam · Le prochain article sort cette semaine.
📌 L'essentiel en une phrase
Les scores records de l'IA viennent de benchmarks statiques (Dinc 2025 : jusqu'à 83,3 % sur cas complexes). Trois travaux fissurent l'interprétation : remplacer la bonne réponse par « aucune des réponses » fait chuter la précision de 9 à 38 % (Bedi 2025) ; passer de la vignette au dialogue fait baisser la performance (Johri 2025) ; et un essai randomisé montre que l'IA n'améliore pas le raisonnement des médecins, alors qu'elle les surpasse seule (Goh 2024).
1. Sur les benchmarks figés : des scores spectaculaires
Dinc et coll. (JAMIA Open, 2025) ont comparé plusieurs grands modèles sur des cas cliniques, en révélant l'information par étapes pour imiter la pratique. Sur les cas complexes, le meilleur modèle a atteint 83,3 % de précision au stade diagnostique final, devant les modèles plus petits. Conclusion légitime : sur ce type de tâche, les modèles de pointe sont remarquables. Limite cruciale : ce sont des cas écrits, structurés, figés : l'équivalent d'un examen, pas d'une salle de consultation.
2. Bedi 2025 : la « fidélité du raisonnement »
Suhana Bedi et coll. (JAMA Network Open, 2025) posent la vraie question : ces modèles raisonnent-ils, ou exploitent-ils des régularités statistiques de leur entraînement ? Méthode élégante : prendre 68 questions MedQA validées par des cliniciens et remplacer la bonne réponse par « aucune des réponses ci-dessus » (NOTA). Le raisonnement clinique requis ne change pas ; seule la forme change. Résultat : tous les modèles perdent en précision, avec des chutes relatives allant de 8,8 % (un modèle de raisonnement, plus résilient) à 38,2 % (Llama-3.3-70B). Si les modèles raisonnaient vraiment, la performance resterait stable. Elle ne l'est pas.
3. Johri 2025 : le test du dialogue (CRAFT-MD)
Shreya Johri et coll. (Nature Medicine, 2025) ont conçu CRAFT-MD, un cadre où une IA « patient » dialogue avec l'IA « médecin », qui doit mener l'entretien, récolter l'anamnèse et poser un diagnostic, puis des experts humains valident un sous-ensemble. Verdict : en passant de la vignette structurée à la conversation multi-tours, la précision diagnostique baisse. Les faiblesses portent sur le recueil d'antécédents, le questionnement ouvert et la synthèse d'informations dispersées sur plusieurs échanges, précisément le cœur du métier clinique.
4. Goh 2024 : l'essai randomisé qui change le cadrage
Ethan Goh et coll. (JAMA Network Open, 2024) ont mené un essai randomisé en simple aveugle auprès de 50 médecins (médecine de famille, interne, urgences). Question : disposer d'un grand modèle de langage améliore-t-il leur raisonnement diagnostique par rapport aux ressources classiques ? Réponse : non, pas de gain significatif. Le détail qui fait tout : le modèle seul a obtenu un score plus élevé que les médecins, avec ou sans IA. Le goulot d'étranglement n'est donc pas la capacité du modèle, mais l'interaction médecin-IA : confiance mal calibrée, friction d'usage, ancrage sur l'hypothèse initiale.
🔎 Le réflexe méthodo à garder
Un score d'examen (benchmark) et une utilité clinique (essai contrôlé) sont deux choses différentes. Le premier mesure la reconnaissance de bonnes réponses ; le second mesure si, dans la vraie vie, des patients sont mieux pris en charge. Un modèle peut exceller au premier et n'apporter aucun bénéfice au second. Tant qu'on confond les deux, « l'IA bat les médecins » restera un titre, pas un fait clinique.
La near-perfect accuracy sur MedQA sature le signal et masque la part de pattern matching (Bedi : robustesse contrefactuelle faible, modèles de raisonnement seulement partiellement épargnés). La validité écologique s'effondre en multi-tours (Johri). Et le paradoxe d'augmentation de Goh (modèle seul > clinicien, clinicien+modèle ≈ clinicien) déplace la question de l'accuracy vers le design d'interaction et les biais de population.
Reconnaissance de motifs vs raisonnement (Bedi 2025)
Le design contrefactuel NOTA isole le raisonnement de la familiarité de surface. Significativité testée par McNemar, intervalles de confiance par bootstrap (1 000 itérations). Les modèles de raisonnement (type o3-mini, DeepSeek-R1) résistent mieux mais subissent tout de même une baisse significative. L'implication méthodologique est forte : sur des benchmarks où l'accuracy sature au-dessus de 90 %, le score ne discrimine plus la compétence ; il faut des évaluations contrefactuelles et adversariales pour mesurer la robustesse du raisonnement, pas seulement la mémorisation de distributions.
Validité écologique et recueil d'information (Johri 2025)
CRAFT-MD opérationnalise la validité écologique : agents patient-IA et grader-IA, validation par experts sur un sous-ensemble de conversations, comparaison systématique entre réglages vignette, multi-tours, single-turn et résumé. La dégradation est constante de la vignette vers la conversation, et persiste en multimodal (évaluation de GPT-4V). Le diagnostic n'est qu'un point terminal ; l'essentiel de l'erreur naît en amont, dans l'history-taking incomplet et la synthèse d'indices répartis sur plusieurs tours, capacités peu sollicitées par les QCM.
Le paradoxe d'augmentation (Goh 2024)
Modèle seul > clinicien ; clinicien + modèle ≈ clinicien. Trois hypothèses non exclusives : (1) sous-utilisation et confiance mal calibrée, les médecins écartent une suggestion correcte ou n'exploitent pas l'outil ; (2) friction d'interface : coût cognitif d'intégration du sortie-modèle dans le raisonnement ; (3) ancrage sur l'hypothèse initiale, l'IA servant à confirmer plutôt qu'à challenger. Conséquence : l'uplift clinique dépend du design de la collaboration (présentation des incertitudes, moment de l'intervention, format), au moins autant que de la performance intrinsèque du modèle. Optimiser l'accuracy sans optimiser l'interaction ne produit pas de bénéfice patient.
Biais de population et généralisation
Transversalement, la littérature partage une faiblesse : essais, vignettes et seuils sont majoritairement calibrés sur des populations anglophones et blanches. La performance et la sécurité hors de ces populations restent insuffisamment documentées. Un modèle performant « en moyenne » peut sous-performer sur des présentations atypiques, des comorbidités multiples ou des populations sous-représentées, exactement les cas où l'expertise humaine compte le plus.
Ce qu'il faudrait pour trancher honnêtement
Quatre exigences : (1) des essais prospectifs en conditions réelles plutôt que des benchmarks rétrospectifs ; (2) des critères de jugement centrés sur les issues patients (diagnostic correct en temps utile, sécurité, parcours de soin), pas l'accuracy de QCM ; (3) une évaluation multi-tours et conversationnelle ; (4) une mesure explicite de l'effet d'équipe humain-IA, et pas seulement de la performance du modèle isolé. Tant que ces conditions ne sont pas réunies, toute affirmation de supériorité doit être bornée au cadre exact où elle a été mesurée.
✅ La formule honnête
L'IA dépasse les médecins sur un certain type d'examen écrit. Elle ne les remplace pas en clinique, et son rôle le mieux étayé reste l'assistance, à condition de résoudre le problème d'intégration humain-IA. « Meilleur à l'examen » et « meilleur médecin » sont deux phrases différentes : la science actuelle soutient la première, pas la seconde.
L'IA est-elle vraiment meilleure que les médecins pour diagnostiquer ?
Cela dépend entièrement du cadre. Sur des QCM d'examen et des cas cliniques écrits, les meilleurs modèles obtiennent des scores supérieurs à ceux de nombreux médecins (jusqu'à 83 % sur cas complexes, Dinc 2025). Mais en consultation réelle (dialogue avec un patient, informations incomplètes, travail d'équipe avec un clinicien), cet avantage disparaît. « Meilleur à l'examen » n'équivaut pas à « meilleur médecin ».
Pourquoi l'IA réussit-elle les QCM médicaux mais échoue quand la question change ?
Parce qu'une partie de sa performance repose sur la reconnaissance de schémas vus à l'entraînement, pas sur un raisonnement logique. L'étude de Bedi (2025) l'a démontré : en remplaçant la bonne réponse par « aucune des réponses ci-dessus », sans changer le raisonnement requis, la précision des modèles a chuté de 9 à 38 % selon les cas.
Qu'a montré l'étude de Bedi (2025) ?
Publiée dans JAMA Network Open, elle teste si les modèles raisonnent ou reconnaissent des motifs. Sur 68 questions MedQA validées par des cliniciens et modifiées (réponse correcte remplacée par NOTA), tous les modèles ont perdu en précision, jusqu'à 38,2 % de baisse relative. Les modèles de raisonnement résistent mieux, mais aucun n'est épargné.
Que change l'essai randomisé de Goh (2024) ?
Beaucoup. Dans cet essai randomisé auprès de 50 médecins (JAMA Network Open), disposer d'un grand modèle de langage n'a pas amélioré significativement leur raisonnement diagnostique par rapport aux ressources classiques. Pourtant, le modèle seul surpassait les médecins. Le problème n'est donc pas la puissance de l'IA, mais la collaboration humain-IA.
Qu'est-ce que CRAFT-MD (Johri, 2025) ?
C'est un cadre d'évaluation publié dans Nature Medicine qui teste les modèles en dialogue réaliste : une IA « patient » discute avec l'IA « médecin », qui doit mener l'entretien et diagnostiquer. Résultat : en passant de la vignette figée à la conversation multi-tours, la précision diagnostique baisse, notamment sur le recueil d'antécédents et le questionnement.
Les médecins vont-ils être remplacés par l'IA ?
Rien dans la littérature actuelle ne le soutient. Les études montrent que l'IA excelle sur des tâches d'examen mais décroche en conditions cliniques réelles, et qu'elle n'améliore pas encore le raisonnement des médecins lorsqu'elle leur sert d'assistant. Son rôle le mieux étayé est l'aide à la décision, pas le remplacement.
Peut-on se fier à ChatGPT pour un auto-diagnostic ?
Non. Un modèle généraliste n'a pas accès à votre examen clinique, à vos antécédents complets ni au contexte qu'un médecin perçoit ; il peut produire des erreurs avec aplomb et reste sensible à la façon dont la question est posée. Pour un problème de santé réel, consultez un professionnel de santé.
Quelle est la principale limite des études qui disent « l'IA bat les médecins » ?
Elles mesurent presque toujours la performance sur des benchmarks statiques (QCM, vignettes écrites), qui ressemblent à un examen et non à une consultation. Or un score d'examen ne prédit pas l'utilité clinique réelle. Tant que les évaluations ne sont pas prospectives, conversationnelles et centrées sur les issues patients, la comparaison reste biaisée.
🍪 Ce site utilise Google Analytics et le Pixel Facebook pour mesurer son audience. Ces outils ne sont activés qu'avec votre consentement. Politique de confidentialité →