Sztuczna inteligencja z Harvardu, nazwana Dr. CaBot, pokonała panel 20 lekarzy w złożonych diagnozach. Nowy test CPC-Bench, oparty na 7102 przypadkach, szokuje.
W skrócie:
- Stworzono CPC-Bench, nowy test dla AI, wykorzystując 7102 przypadki kliniczne z New England Journal of Medicine publikowane od 1923 do 2025 roku.
- Jeden z testowanych modeli językowych w 60% przypadków postawił trafną diagnozę jako pierwszy, wyprzedzając w wynikach panel złożony z dwudziestu lekarzy.
- AI o nazwie Dr. CaBot tak dobrze naśladowało styl ekspertów, że w 74% prób lekarze nie byli w stanie odróżnić jego analiz od tych napisanych przez człowieka.
Przez ponad sto lat Konferencje Kliniczno-Patologiczne (CPC) publikowane w prestiżowym New England Journal of Medicine stanowiły ostateczny test dla lekarskiego umysłu. To tam najtęższe głowy medycyny mierzyły się z najbardziej zagadkowymi przypadkami, a ich tok rozumowania stawał się wzorem dla pokoleń. Dziś to legendarne pole bitwy otwarto dla nowego gracza – sztucznej inteligencji. I wygląda na to, że ten nowy gracz nie zamierza być tylko obserwatorem.
Naukowcy z Harvard Medical School i Beth Israel Deaconess Medical Center, w tym Thomas A. Buckley i Riccardo Conci, postanowili sprawdzić, czy duże modele językowe potrafią sprostać wyzwaniu. Stworzyli CPC-Bench, benchmark oparty na gigantycznym archiwum 7102 przypadków medycznych, by ocenić, jak AI radzi sobie tam, gdzie ludzka intuicja bywa zawodna. Efekty? Cóż, są co najmniej intrygujące.
Czy to koniec ery Dr. House’a?
Standardowe testy dla medycznej AI często przypominają odpytywanie z faktów – sprawdzają, czy model pamięta definicje chorób lub dawkowanie leków. To ważne, ale w prawdziwym świecie diagnoza to sztuka łączenia kropek, syntezy niejednoznacznych informacji z wywiadu, badań fizykalnych, wyników laboratoryjnych i obrazowych. CPC-Bench powstał, by zmierzyć właśnie tę umiejętność – jakość samego procesu rozumowania, a nie tylko ostateczną odpowiedź. To jak różnica między rozwiązaniem testu jednokrotnego wyboru a napisaniem eseju, który broni skomplikowanej tezy.
Badacze nie poszli na skróty. Dziesięciu lekarzy ręcznie opisało kluczowe zdarzenia kliniczne w tysiącach przypadków, tworząc granularną mapę postępu choroby dla każdego pacjenta. Dzięki temu AI nie musiało zgadywać. Miało przed sobą dane, które wymagały integracji i interpretacji – dokładnie tak, jak w gabinecie lekarskim. Właśnie w tym środowisku, pełnym szumów informacyjnych i fałszywych tropów, modele językowe miały udowodnić swoją wartość. Albo boleśnie obnażyć swoje braki.
Jak maszyna pokonała dwudziestu medyków?
Wyniki okazały się zaskakujące. Jeden z testowanych modeli LLM postawił prawidłową diagnozę jako pierwszy w 60% z 377 analizowanych, współczesnych przypadków. W 84% jego propozycja znalazła się w pierwszej dziesiątce. To wynik, który przewyższył osiągnięcia panelu złożonego z dwudziestu doświadczonych lekarzy. Co więcej, AI wykazało się niemal perfekcyjną skutecznością (98%) w wyborze kolejnych, niezbędnych badań diagnostycznych, co pokazuje, że nie tylko odgaduje, ale faktycznie “rozumie” proces diagnostyczny.
Oczywiście nie jest to obraz bez skazy. O ile model doskonale radził sobie z analizą tekstu, jego piętą achillesową okazała się interpretacja obrazów. W zadaniach z serii Image Challenge uzyskał “zaledwie” 67% skuteczności. To wciąż imponujący wynik, ale jednocześnie wyraźny sygnał, że multimodalność – czyli łączenie danych tekstowych z wizualnymi – pozostaje dla AI sporym wyzwaniem. To ważny prysznic realizmu: cyfrowy medyk jest genialnym analitykiem tekstu, ale wciąż niedowidzącym radiologiem.
Dr. CaBot, czyli AI, które pisze jak profesor
Być może najbardziej fascynującym elementem projektu jest Dr. CaBot – system AI zaprojektowany, by naśladować styl wypowiedzi ekspertów medycznych. I robi to w sposób niemal doskonały. W ślepych testach lekarze mieli ocenić, czy przedstawiona im analiza diagnostyczna została napisana przez człowieka, czy przez maszynę. W 74% przypadków pomylili się, przypisując tekst AI ludzkiemu autorowi. Co więcej, prezentacje Dr. CaBot były przez nich często oceniane wyżej pod względem jakości i klarowności niż te przygotowane przez kolegów po fachu.
To dowodzi, że LLM‑y opanowały nie tylko zdolność do logicznego wnioskowania, ale również do komunikacji w sposób, który budzi zaufanie i sprawia wrażenie głębokiej ekspertyzy. Twórcy projektu, udostępniając publicznie zarówno benchmark CPC-Bench, jak i system Dr. CaBot, otwierają drzwi do transparentnego śledzenia postępów w tej dziedzinie. To zaproszenie dla całej społeczności naukowej do dalszych badań i – kto wie – może do przyspieszenia rewolucji, w której AI stanie się nie tylko narzędziem, ale pełnoprawnym partnerem w procesie leczenia.