Przeglądy AI w Google miały być rewolucją. Analiza The New York Times pokazuje jednak, że co dziesiąta odpowiedź jest błędna. To setki miliardów pomyłek rocznie.
W skrócie:
- Badanie The New York Times i startupu Oumi wykazało, że Przeglądy AI w Google mają około 91% skuteczności, co oznacza miliardy błędnych odpowiedzi w skali roku.
- Ponad połowa poprawnych odpowiedzi była “nieugruntowana”, co oznacza, że linkowane źródła nie potwierdzały w pełni przedstawionych przez sztuczną inteligencję informacji.
- Google zakwestionowało metodologię badania, twierdząc, że test nie odzwierciedla rzeczywistych zapytań, a firma stosuje własne, bardziej precyzyjne benchmarki.
Pamiętacie, jak rok temu internet śmiał się z Google, gdy jego nowa, wspaniała sztuczna inteligencja radziła dodać klej do pizzy? To były czasy. Minął rok, funkcja Przeglądów AI trafiła również do Polski, a Google zapewniało, że system został dopracowany. Ludzie z The New York Times postanowili to sprawdzić. Wzięli pod rękę ekspertów ze startupu Oumi i zajrzeli pod maskę machiny, która ma zredefiniować dostęp do wiedzy. Wyniki? Cóż, są jednocześnie imponujące i przerażające. Zależy, jak na to spojrzeć.
Jak dokładna jest sztuczna inteligencja Google?
Na pierwszy rzut oka wszystko wygląda całkiem nieźle. Analiza, którą oparto na zestawie ponad 4 tysięcy pytań z benchmarku SimpleQA (stworzonego, o ironio, przez OpenAI), wykazała, że system Google odpowiada poprawnie w około 91% przypadków. To skok w porównaniu z październikiem ubiegłego roku, gdy model Gemini 2 osiągał trafność na poziomie 85%. Postęp jest, nikt nie zaprzeczy. Ale diabeł, jak zawsze, tkwi w skali. Google przetwarza około pięciu bilionów zapytań rocznie. Te brakujące 9 – 10% przekłada się na, bagatela, 500 miliardów odpowiedzi zawierających błędy. To nie jest literówka w wypracowaniu. To pół biliona małych lub dużych kłamstw serwowanych jako prawda objawiona.
Diabeł tkwi w źródłach (i halucynacjach)
Jeszcze ciekawiej robi się, gdy zbadamy, co kryje się za odpowiedziami, które system klasyfikuje jako “poprawne”. Dziennikarze “NYT” odkryli, że ponad połowa z nich była “nieugruntowana”. Co to znaczy? To znaczy, że AI podało prawidłową informację, ale linki źródłowe, które do niej dołączyło, wcale tej informacji nie potwierdzały. Albo potwierdzały ją tylko częściowo. Albo zawierały sprzeczne dane. To jak uczeń, który zna odpowiedź, ale nie potrafi wskazać, skąd ją wziął – trochę podejrzane.
Przykłady mnożą się same. System zapytany o datę przekształcenia domu Boba Marleya w muzeum podał błędną informację, mimo że wskazał kilka źródeł – żadne z nich nie zawierało konkretnej daty. W innym przypadku, dotyczącym słynnego wiolonczelisty Yo-Yo Ma, sztuczna inteligencja potrafiła w jednym zdaniu stwierdzić, że dana instytucja nie istnieje, jednocześnie linkując do jej oficjalnej strony. To już nie jest błąd. To jest cyfrowa schizofrenia. Analiza pokazała, że Przeglądy AI zaskakująco często opierają się na źródłach, których żaden szanujący się redaktor by nie tknął – forach dyskusyjnych, Facebooku czy Reddicie.
Dlaczego Google nie zgadza się z krytyką?
Reakcja Google była, delikatnie mówiąc, przewidywalna. Rzecznik firmy, Ned Adriance, stwierdził, że badanie zawiera “poważne luki” i nie odzwierciedla tego, jak z wyszukiwarki korzystają prawdziwi ludzie. Firma podkreśla, że używa własnych, wewnętrznych i podobno znacznie lepszych testów. I pewnie ma w tym trochę racji. Ocena modeli generatywnych to stąpanie po kruchym lodzie. To samo pytanie zadane w odstępie kilku minut może dać zupełnie inne odpowiedzi. Co więcej, sama usługa nie opiera się na jednym monolicie, ale dynamicznie dobiera modele w zależności od złożoności zapytania – od tych potężnych i powolnych po szybkie i tanie, przeznaczone do błahych pytań. Nie można też zapominać, że cała analiza dotyczyła wyłącznie języka angielskiego. Strach pomyśleć, jakie wyniki uzyskalibyśmy, sprawdzając zapytania po polsku.
Czy 90% to wystarczająco dobrze?
W szkole 90 procent to piątka z minusem, powód do dumy. Ale czy możemy stosować tę samą miarę do systemu, który dla milionów ludzi staje się głównym, a często jedynym, źródłem informacji o świecie? Google oczywiście asekuruje się dopiskiem “Odpowiedzi generowane przez sztuczną inteligencję mogą zawierać błędy”, ale bądźmy szczerzy – kto to czyta? Cały interfejs, cała idea Przeglądów AI, krzyczy do użytkownika: “Nie musisz już klikać w linki, masz gotową odpowiedź!”. I ludzie w to wierzą. Problem w tym, że wiara w technologię nie powinna zastępować krytycznego myślenia, a Google, serwując pół-prawdy na masową skalę, wykonuje ruch co najmniej ryzykowny. Ryzykuje czymś znacznie cenniejszym niż przychody z reklam – zaufaniem swoich użytkowników.