Naukowcy z Harvardu udowadniają: AI diagnozuje trafniej niż lekarze. Nowy benchmark CPC-Bench, oparty na 7102 przypadkach, pokazuje deklasację medyków w analizie.
W skrócie:
- CPC-Bench to nowy standard oceny AI w medycynie, stworzony przez badaczy z Harvard Medical School. Wykorzystuje archiwum 7102 konferencji kliniczno-patologicznych z ostatniego stulecia.
- W testach jeden z wiodących modeli językowych postawił trafną diagnozę w 60% przypadków, pokonując panel dwudziestu ludzkich lekarzy. W 84% przypadków jego diagnoza znalazła się w top 10.
- Stworzony na potrzeby badania AI-dyskutant, Dr. CaBot, w 74% prób został uznany przez lekarzy za człowieka. Sztuczna inteligencja wciąż jednak gorzej radzi sobie z interpretacją obrazów medycznych.
Od ponad stu lat łamy prestiżowego New England Journal of Medicine goszczą Konferencje Kliniczno-Patologiczne (CPC) – intelektualny poligon dla najlepszych umysłów medycyny. To tam, na podstawie skomplikowanych i niejednoznacznych danych, lekarze doskonalą sztukę diagnozy. Dzisiaj ten sam poligon staje się areną, na której człowiek mierzy się z maszyną. I, co tu dużo mówić, właśnie zaliczył pierwszą poważną porażkę. Zespół naukowców z Harvard Medical School i Beth Israel Deaconess Medical Center, w składzie Thomas A. Buckley, Riccardo Conci i inni, opublikował wyniki, które jednym każą pukać się w czoło, a innym – nerwowo spoglądać w przyszłość. Stworzyli oni CPC-Bench, benchmark oparty na 7102 autentycznych, historycznych przypadkach, by sprawdzić, jak z diagnostycznym rozumowaniem radzą sobie duże modele językowe. Wynik? AI nie tylko diagnozuje, ale robi to lepiej od ludzi i potrafi przy tym udawać jednego z nich. Przekonująco.
Jak AI nauczyła się myśleć jak Sherlock Holmes medycyny?
Dotychczasowe testy medycznej AI przypominały raczej odpytywanie z faktów niż prawdziwy egzamin z myślenia. Sprawdzały, czy model pamięta nazwy chorób i objawów. To za mało, by ocenić jego przydatność w realnym świecie, gdzie dane są niekompletne, pacjent nie zawsze mówi prawdę, a wyniki badań bywają sprzeczne. Projekt CPC-Bench, którego szczegóły opisano w artykule “Advancing Medical Artificial Intelligence Using a Century of Cases”, to zupełnie inna liga. Zespół badaczy sięgnął do przepastnego archiwum przypadków publikowanych od 1923 do 2025 roku. Każdy z nich to osobna historia – plątanina objawów, wyników badań laboratoryjnych i fizykalnych. Aby maszyna mogła się z tym zmierzyć, dziesięciu lekarzy ręcznie opisało kluczowe zdarzenia kliniczne w każdym z przypadków, tworząc gigantyczną, ustrukturyzowaną bazę wiedzy. Celem nie było sprawdzenie, czy AI potrafi wyrecytować definicję z podręcznika, ale czy umie połączyć kropki, zintegrować informacje z różnych źródeł i, co najważniejsze, uzasadnić swój tok rozumowania, krok po kroku.
Dr CaBot wchodzi na salę. I nikt nie wie, że to bot
Gdy dane były gotowe, do gry wkroczyły algorytmy. Wyniki ewaluacji są, delikatnie mówiąc, otrzeźwiające. Jeden z testowanych dużych modeli językowych wskazał poprawną ostateczną diagnozę jako pierwszą w 60% z 377 współczesnych przypadków. W 84% przypadków jego propozycja znalazła się w pierwszej dziesiątce. Ten wynik przewyższył osiągnięcia panelu złożonego z dwudziestu doświadczonych lekarzy. Ale to nie wszystko. System wykazał się również zdumiewającą, 98-procentową skutecznością w doborze kolejnych, adekwatnych testów diagnostycznych. Prawdziwym testem na inteligencję okazał się jednak Dr. CaBot – system AI zaprojektowany tak, by naśladować styl ekspertów prezentujących przypadki medyczne. W ślepej próbie lekarze w aż 74% przypadków nie potrafili odróżnić diagnozy różnicowej napisanej przez AI od tej stworzonej przez człowieka. Co więcej, prezentacje Dr. CaBota często oceniali jako bardziej klarowne i merytoryczne. To już nie jest tylko analiza danych. To jest doskonała symulacja ludzkiego eksperta.
Gdzie leży pięta achillesowa cyfrowego lekarza?
Zanim jednak ogłosimy koniec zawodu lekarza, trzeba wlać do tej beczki miodu łyżkę dziegciu. O ile modele językowe radzą sobie fenomenalnie z analizą tekstu, o tyle ich kompetencje w innych obszarach wciąż pozostawiają wiele do życzenia. Badanie wykazało wyraźne słabości w dwóch kluczowych dziedzinach: interpretacji obrazów oraz wyszukiwaniu informacji w literaturze medycznej. W zadaniach z serii Image Challenge, gdzie trzeba było postawić diagnozę na podstawie zdjęcia (np. RTG czy obrazu z mikroskopu), skuteczność AI spadła do 67%. To wciąż imponujący wynik, ale pokazuje, że multimodalność – czyli zdolność do jednoczesnego przetwarzania różnych typów danych – pozostaje dla maszyn wyzwaniem. Autorzy badania sami przyznają, że ocena oparta wyłącznie na trafności ostatecznej diagnozy może zawyżać realne możliwości AI. Kluczowa jest bowiem ocena każdego etapu rozumowania, a nie tylko finalnego rezultatu. Dlatego też, w geście transparentności, zespół udostępnił publicznie zarówno benchmark CPC-Bench, jak i system Dr. CaBot, aby cała społeczność naukowa mogła śledzić postępy i przyczyniać się do rozwoju tej fascynującej technologii.