AI lepsze od lekarzy? Nowy test CPC-Bench z Harvardu szokuje

Naukowcy z Harvardu stworzyli CPC-Bench, test dla AI oparty na 7102 przypadkach medycznych. Wyniki? Model językowy pokonał 20 lekarzy w trafności diagnozy.

W skrócie:

Naukowcy z Harvardu stworzyli CPC-Bench – benchmark oparty na 7102 złożonych przypadkach medycznych z New England Journal of Medicine od 1923 roku.
Testowany model AI osiągnął 60% trafności w finalnej diagnozie, przewyższając w ten sposób panel złożony z dwudziestu doświadczonych lekarzy.
Pomimo sukcesu w analizie tekstu, AI wciąż gorzej radzi sobie z interpretacją obrazów medycznych i wyszukiwaniem literatury, co pozostaje wyzwaniem.

Od ponad stu lat Konferencje Kliniczno-Patologiczne (CPC) publikowane w prestiżowym New England Journal of Medicine stanowiły ostateczny test dla lekarskiego umysłu. To medyczna Liga Mistrzów, gdzie najtęższe głowy mierzą się z najtrudniejszymi przypadkami. Dzisiaj na tej arenie pojawił się nowy, nieoczekiwany gracz – sztuczna inteligencja. I nie przyszła tylko po to, by wziąć udział w zawodach. Przyszła, by wygrać.

Zespół badaczy z Harvard Medical School i Beth Israel Deaconess Medical Center, w tym Thomas A. Buckley i Riccardo Conci, postanowił sprawdzić, czy duże modele językowe (LLM) potrafią nie tylko recytować fakty z podręczników, ale też myśleć jak lekarz. W tym celu stworzyli CPC-Bench, benchmark oparty na gigantycznym archiwum 7102 przypadków opublikowanych od 1923 do 2025 roku. To nie jest prosty test wielokrotnego wyboru. To prawdziwa próba diagnostycznego rozumowania.

Jak AI uczy się medycyny od najlepszych?

Dotychczasowe testy medyczne dla AI często przypominały odpytywanie z encyklopedii. Skupiały się na prostej weryfikacji faktów, ignorując to, co w medycynie kluczowe: proces dochodzenia do diagnozy. Nowy benchmark radykalnie to zmienia. Zmusza modele AI do integrowania informacji z wielu źródeł – historii pacjenta, wyników badań laboratoryjnych, opisów badania fizykalnego i niejednoznacznych danych. To zadanie, które wymaga nie tylko wiedzy, ale i swoistej intuicji.

Badacze nie poprzestali na suchych danych. Dziesięciu lekarzy ręcznie opisało kluczowe zdarzenia kliniczne w analizowanych przypadkach, tworząc granularną mapę postępu choroby. Na tej podstawie powstał “Dr. CaBot”, system AI zaprojektowany tak, by naśladować styl rozumowania i prezentacji eksperta medycznego. Miał nie tylko postawić diagnozę, ale też przekonująco ją uzasadnić. A to, co pokazał, zaskoczyło nawet jego twórców.

Lekarz czy maszyna? Kiedy AI pokonuje człowieka

Spójrzmy na liczby, bo te mówią same za siebie. W konfrontacji z 377 współczesnymi, złożonymi przypadkami medycznymi, jeden z testowanych modeli językowych wskazał prawidłową ostateczną diagnozę jako pierwszą w aż 60% przypadków. Co więcej, jego propozycja znalazła się w pierwszej dziesiątce potencjalnych rozpoznań w 84% sytuacji. Wynik ten okazał się lepszy od rezultatów panelu kontrolnego, składającego się z dwudziestu praktykujących lekarzy.

To nie wszystko. System wykazał się niemal perfekcyjną skutecznością (98%) w doborze kolejnych, niezbędnych badań diagnostycznych. Najbardziej zdumiewający okazał się jednak inny eksperyment. Gdy lekarzom przedstawiono analizy diagnostyczne przygotowane przez Dr. CaBota oraz przez ludzkich ekspertów, w 74% prób nie potrafili odróżnić, który tekst napisała maszyna. Często oceniali prezentacje AI jako bardziej klarowne i merytoryczne.

Gdzie sztuczna inteligencja wciąż potrzebuje lekarza?

Czy to oznacza, że możemy już zwinąć interes i oddać stetoskopy maszynom? Absolutnie nie. Badanie bezlitośnie obnaża też słabości obecnych modeli. O ile AI doskonale radzi sobie z analizą tekstu, o tyle interpretacja obrazów – zdjęć rentgenowskich czy tomografii komputerowej – wciąż jest jej piętą achillesową. Model osiągnął tutaj zaledwie 67% skuteczności, co w medycynie jest wynikiem dalekim od akceptowalnego. Podobnie wygląda kwestia przeszukiwania literatury medycznej w poszukiwaniu najnowszych badań.

To pokazuje, że AI jest na razie potężnym, ale wciąż wyspecjalizowanym narzędziem. Potrafi wyciągać błyskotliwe wnioski z danych tekstowych, ale traci grunt pod nogami, gdy musi zmierzyć się z informacją wizualną lub dynamicznie zmieniającą się wiedzą naukową. To asystent, analityk, być może nawet genialny konsultant. Ale nie jest jeszcze autonomicznym lekarzem.

Co dalej? Przyszłość medycyny jest transparentna

Twórcy CPC-Bench podjęli niezwykle ważną decyzję – udostępnili zarówno cały benchmark, jak i system Dr. CaBot szerokiej społeczności naukowej. To ruch w stronę transparentności, który ma umożliwić śledzenie postępów w rozwoju medycznej AI i przyspieszyć pracę nad coraz doskonalszymi narzędziami. Zamiast zamkniętych, korporacyjnych systemów dostajemy otwartą platformę do testowania i ulepszania algorytmów.

Żyjemy w fascynujących czasach, w których granica między ludzką a maszynową inteligencją zaczyna się zacierać w najbardziej newralgicznych obszarach. Prace zespołu z Harvardu to nie tylko technologiczna ciekawostka. To zapowiedź rewolucji w sposobie, w jaki diagnozujemy choroby i leczymy pacjentów. Rewolucji, w której lekarz i maszyna – zamiast konkurować – staną się partnerami w walce o ludzkie zdrowie.

Szok w medycynie! Nowa sztuczna inteligencja stawia diagnozy lepiej niż lekarze

Jak AI uczy się medycyny od najlepszych?

Lekarz czy maszyna? Kiedy AI pokonuje człowieka

Gdzie sztuczna inteligencja wciąż potrzebuje lekarza?

Co dalej? Przyszłość medycyny jest transparentna

Aleksandra Wilk

Warto przeczytać też:

Badacze ostrzegają: AI nauczyła się „zarażać złem”

BuzzFeed pokazał nowe aplikacje AI. Zamiast oklasków była niezręczna cisza

ChatGPT za 16 zł miesięcznie?! OpenAI testuje nowy plan, ale tylko w jednym kraju

AI na uczelniach: Pomoc czy oszustwo? Wayne State University stawia sprawę jasno

Gigantyczny ślad węglowy AI. Naukowcy wskazali, gdzie budować serwerownie, by uniknąć katastrofy

Koniec z brudnymi miastami? City Detect zebrał 13 mln dolarów na AI, która widzi wszystko