Medialna burza wokół polskiego języka jako “najlepszego dla AI” okazała się nieporozumieniem. Microsoft i badacze wyjaśniają, co naprawdę testował OneRuler.
W skrócie:
- Benchmark OneRuler nie testował jakości „promptowania”, a jedynie zdolność modeli AI do wyszukiwania precyzyjnych informacji w bardzo długich tekstach, jak powieści.
- Wysoki wynik języka polskiego mógł wynikać z charakterystyki użytej książki – Nocy i dni – a nie z unikalnych właściwości samego języka.
- Badanie potwierdza, że AI wciąż ma poważne ograniczenia. Modele często popełniają błędy, zwłaszcza gdy muszą stwierdzić, że odpowiedź nie istnieje w tekście.
Internet przez chwilę oszalał. Wiadomość, że nasz skomplikowany, pełen wyjątków język polski okazał się rzekomo najlepszy do komunikacji ze sztuczną inteligencją, niosła się po sieci z prędkością światła. Był to powód do dumy, ale też – jak się okazuje – spore uproszczenie. Microsoft, którego badacze stali za głośnym benchmarkiem OneRuler, postanowił ostudzić entuzjazm. Prawda jest znacznie mniej spektakularna, ale za to o wiele bardziej pouczająca.
Co tak naprawdę testował benchmark OneRuler?
Wyobraźmy sobie zadanie pozornie proste. Dajemy sztucznej inteligencji opasły tom powieści i prosimy o znalezienie jednego, ukrytego w nim zdania. To klasyczny test „igły w stogu siana”, który miał sprawdzić, jak duże modele językowe (LLM) radzą sobie z przetwarzaniem ekstremalnie długich kontekstów. Właśnie na tym polegał benchmark OneRuler. Nie miał on nic wspólnego z „promptowaniem”, czyli sztuką tworzenia skutecznych poleceń dla AI.
W teście wykorzystano różne dzieła literackie. Modelom serwowano polskie Noce i dnie, hiszpańskiego Don Kichota oraz anglojęzyczne Małe kobietki. Zadaniem algorytmu było zlokalizowanie ukrytej frazy na podstawie polecenia wydanego w tym samym języku. Polski faktycznie wypadł nieźle, ale jak podkreślają autorzy badania, wyciąganie z tego wniosku o jego wyższości nad innymi językami jest błędem metodologicznym. To jakby uznać, że dany samochód jest najszybszy na świecie po teście przeprowadzonym wyłącznie na jednym, specyficznym torze.
Dlaczego „Noce i dnie” mogły wprowadzić AI w błąd?
Marzena Karpińska, współautorka badania z ramienia Microsoftu, studzi nastroje. Wskazuje, że wysoka skuteczność modelu w przypadku języka polskiego mogła wynikać z charakterystyki samej książki. Być może struktura tekstu Marii Dąbrowskiej była po prostu łatwiejsza do przetworzenia dla algorytmu niż narracja Cervantesa. To subtelna, ale kluczowa różnica. Sukces nie leżał w języku, a w danych, na których model pracował.
“W badaniu tym jest tak dużo różnych czynników, że na pewno nie możemy na jego podstawie stwierdzić, że polski jest najlepszym językiem do ‘promptowania’” – podkreśla Karpińska. Co więcej, badacze dołożyli jeszcze jeden element komplikujący test. Czasami modele musiały rozpoznać, że poszukiwana fraza w ogóle nie znajduje się w tekście. I tu zaczynały się schody. W takich sytuacjach skuteczność AI drastycznie spadała, co obnaża jej fundamentalną słabość.
Jak myśli AI? To nie jest proste CTRL+F
Całe to zamieszanie jest świetną okazją, by przypomnieć, jak działają duże modele językowe. Nie są one cyfrowymi bibliotekarzami, którzy metodycznie przeszukują tekst za pomocą funkcji znanej jako CTRL+F. One działają na zasadzie prawdopodobieństwa. Model nie „szuka” odpowiedzi, a raczej próbuje ją „odgadnąć” na podstawie miliardów wzorców językowych, które przetworzył podczas treningu. Stara się wygenerować najbardziej prawdopodobną sekwencję słów w odpowiedzi na nasze zapytanie.
Dlatego właśnie AI potrafi z pełnym przekonaniem generować fałszywe informacje (tzw. halucynacje) lub mylić się w pozornie prostych zadaniach. To nie jest logiczna maszyna w ludzkim rozumieniu, lecz niezwykle zaawansowany system statystyczny. Nie rozumie tekstu, jedynie przewiduje, co powinno nastąpić po sobie. Ten mechanizm sprawia, że modele są potężne w zadaniach kreatywnych, ale zawodne, gdy liczy się absolutna precyzja.
Jaki jest prawdziwy wniosek z tego zamieszania?
Podstawowa lekcja płynąca z badania OneRuler jest brutalnie prosta: nawet najnowocześniejsze modele AI wciąż mają poważne ograniczenia i bywają zawodne. Fascynacja ich możliwościami często przesłania nam ich wady. Marzena Karpińska ostrzega, że użytkownicy pokładają w chatbotach zbyt duże zaufanie. Zawsze – absolutnie zawsze – warto weryfikować odpowiedzi w niezależnych źródłach. Sztuczna inteligencja to potężne narzędzie, ale wciąż tylko narzędzie. Czasem tępe, czasem nieprecyzyjne, a już na pewno nie nieomylne. I żadna narodowa duma, nawet ta językowa, nie powinna nam tego faktu przesłaniać.