Testy bezpieczeństwa AI to iluzja. Raport z Oksfordu i Stanforda demaskuje ponad 440 benchmarków, na których opiera się branża. Są wadliwe i nieprecyzyjne.
W skrócie:
- Wspólne badanie brytyjskiego Instytutu Bezpieczeństwa AI i czołowych uniwersytetów wykazało, że ponad 440 popularnych testów AI jest fundamentalnie wadliwych i nieporównywalnych.
- Zaledwie 16% analizowanych benchmarków stosuje podstawowe narzędzia statystyczne do oceny wiarygodności wyników, co podważa twierdzenia firm o postępach w dziedzinie bezpieczeństwa.
- Brak standardów prowadzi do realnych problemów – od dezinformacji generowanej przez model Google Gemma po dramatyczne incydenty z udziałem chatbotów Character.ai.
Czy można ufać testom, które mają gwarantować bezpieczeństwo sztucznej inteligencji? Odpowiedź brzmi: raczej nie. Brytyjski Instytut Bezpieczeństwa AI, we współpracy z naukowcami z Oksfordu, Stanforda i Berkeley, wziął pod lupę ponad 440 powszechnie stosowanych benchmarków. Wnioski są, delikatnie mówiąc, niepokojące. Okazuje się, że fundament, na którym firmy budują swoje narracje o “przełomach” w AI, jest dziurawy niczym szwajcarski ser.
Jak mierzyć coś, czego nie da się zmierzyć?
Benchmarki to podstawa. To dzięki nim OpenAI, Google czy Anthropic mogą z dumą ogłaszać, że ich nowy model jest “bezpieczniejszy”, “mądrzejszy” i ogólnie “lepszy” od poprzednika. Problem w tym, że jak zauważył główny autor raportu, Andrew Bean z Oxford Internet Institute, większość tych testów jest nieprecyzyjna, nieporównywalna i często błędnie interpretowana. To trochę jak porównywanie sprintera, który biegnie po tartanowej bieżni, z kimś, kto ten sam dystans pokonuje w głębokim błocie. Wyniki w obu przypadkach będą wyrażone w sekundach, ale ich zestawienie nie ma najmniejszego sensu.
Badacze odkryli, że jedynie 16% analizowanych benchmarków stosuje podstawowe narzędzia statystyczne, aby oszacować wiarygodność swoich wyników. Co to oznacza w praktyce? Że większość testów opiera się na surowych punktacjach, które nie uwzględniają marginesu błędu ani zwykłej losowości. To statystyczne kuriozum, które w poważnej nauce nie miałoby prawa bytu. Na dokładkę dochodzi problem definicji. W testach badających “nieszkodliwość” modelu pojęcie to było rozumiane na dziesiątki różnych sposobów – od unikania obelg po zapobieganie szkodom społecznym. Jeden model mógł więc zostać uznany za bezpieczny w jednym teście i skrajnie niebezpieczny w innym.
Gdy testy zawodzą, a AI zaczyna kłamać
Teoria to jedno, ale praktyka bywa brutalna. Kilka dni przed publikacją raportu Google musiało w pośpiechu wycofywać z platformy AI Studio swoje modele Gemma. Jeden z nich, pod wpływem typowych dla LLM-ów halucynacji, “zmyślił” historię o rzekomym romansie amerykańskiej senator z funkcjonariuszem policji. Co gorsza, dołączył do tego fałszywe linki do nieistniejących artykułów prasowych. Model nie tylko kłamał – on preparował dowody, co jest już scenariuszem z koszmaru każdego prawnika.
Google tłumaczyło się, że Gemma była modelem badawczym, a nie konsumenckim, ale przyznało, że halucynacje i tzw. sykofancja (tendencja do mówienia użytkownikowi tego, co chce usłyszeć) to wyzwanie dla całej branży. I trudno się z tym nie zgodzić. Modele językowe z samej swojej natury mają skłonność do konfabulacji, bo ich celem jest generowanie prawdopodobnego tekstu, a niekoniecznie prawdziwego.
Od fikcji do tragedii
Niestety, skutki bywają znacznie poważniejsze niż wizerunkowe wpadki. Start-up Character.ai niedawno musiał zakazać nastolatkom prowadzenia otwartych rozmów ze swoimi botami. Decyzja zapadła po serii dramatycznych zdarzeń, z których najgłośniejsze dotyczyło 14-latka z Florydy. Chłopak odebrał sobie życie po tym, jak chatbot – według relacji jego matki – manipulował jego emocjami i zachęcał do autodestrukcyjnych zachowań.
To ekstremalny i tragiczny przypadek, ale dobitnie pokazuje, że brak rzetelnych metod oceny AI nie jest już tylko akademicką dyskusją. Kiedy algorytmy zaczynają wpływać na zdrowie psychiczne i decyzje życiowe ludzi, wchodzimy na bardzo niebezpieczny grunt. Fałszywe poczucie bezpieczeństwa, budowane na wadliwych testach, staje się tykającą bombą.
Co dalej, skoro fundamenty drżą?
Wobec braku jednolitych regulacji prawnych, benchmarki stały się de facto substytutem nadzoru. Tyle że to nadzór iluzoryczny. Autorzy raportu wskazują, że technologiczni giganci dysponują własnymi, wewnętrznymi testami, ale ich wyniki i metodologia pozostają tajemnicą. To sprawia, że naukowcy, regulatorzy i opinia publiczna nie mają żadnej możliwości, by niezależnie zweryfikować marketingowe obietnice o bezpieczeństwie.
Apel badaczy jest jasny: potrzebujemy wspólnych, otwartych standardów testowania modeli AI. Potrzebujemy jednolitej metodologii i uzgodnionych definicji tak podstawowych pojęć jak “bezpieczeństwo”, “etyka” czy “neutralność”. Bez tego wszyscy – nie tylko inżynierowie i menedżerowie, ale też prawnicy, lekarze i zwykli użytkownicy – będziemy zdani na łaskę i niełaskę algorytmów, których tak naprawdę do końca nie rozumiemy. A to scenariusz, którego wolelibyśmy uniknąć.