Skip to content Skip to sidebar Skip to footer

Polski język jednak nie jest najlepszy dla AI? Microsoft oficjalnie dementuje

Medialna burza wokół polskiego języka jako “najlepszego dla AI” okazała się nieporozumieniem. Microsoft i badacze wyjaśniają, co naprawdę testował OneRuler.

W skrócie:

  • Benchmark OneRuler nie testował jakości „promptowania”, a jedynie zdolność modeli AI do wyszukiwania precyzyjnych informacji w bardzo długich tekstach, jak powieści.
  • Wysoki wynik języka polskiego mógł wynikać z charakterystyki użytej książki – Nocy i dni – a nie z unikalnych właściwości samego języka.
  • Badanie potwierdza, że AI wciąż ma poważne ograniczenia. Modele często popełniają błędy, zwłaszcza gdy muszą stwierdzić, że odpowiedź nie istnieje w tekście.

Internet przez chwilę oszalał. Wiadomość, że nasz skomplikowany, pełen wyjątków język polski okazał się rzekomo najlepszy do komunikacji ze sztuczną inteligencją, niosła się po sieci z prędkością światła. Był to powód do dumy, ale też – jak się okazuje – spore uproszczenie. Microsoft, którego badacze stali za głośnym benchmarkiem OneRuler, postanowił ostudzić entuzjazm. Prawda jest znacznie mniej spektakularna, ale za to o wiele bardziej pouczająca.

Co tak naprawdę testował benchmark OneRuler?

Wyobraźmy sobie zadanie pozornie proste. Dajemy sztucznej inteligencji opasły tom powieści i prosimy o znalezienie jednego, ukrytego w nim zdania. To klasyczny test „igły w stogu siana”, który miał sprawdzić, jak duże modele językowe (LLM) radzą sobie z przetwarzaniem ekstremalnie długich kontekstów. Właśnie na tym polegał benchmark OneRuler. Nie miał on nic wspólnego z „promptowaniem”, czyli sztuką tworzenia skutecznych poleceń dla AI.

W teście wykorzystano różne dzieła literackie. Modelom serwowano polskie Noce i dnie, hiszpańskiego Don Kichota oraz anglojęzyczne Małe kobietki. Zadaniem algorytmu było zlokalizowanie ukrytej frazy na podstawie polecenia wydanego w tym samym języku. Polski faktycznie wypadł nieźle, ale jak podkreślają autorzy badania, wyciąganie z tego wniosku o jego wyższości nad innymi językami jest błędem metodologicznym. To jakby uznać, że dany samochód jest najszybszy na świecie po teście przeprowadzonym wyłącznie na jednym, specyficznym torze.

Dlaczego „Noce i dnie” mogły wprowadzić AI w błąd?

Marzena Karpińska, współautorka badania z ramienia Microsoftu, studzi nastroje. Wskazuje, że wysoka skuteczność modelu w przypadku języka polskiego mogła wynikać z charakterystyki samej książki. Być może struktura tekstu Marii Dąbrowskiej była po prostu łatwiejsza do przetworzenia dla algorytmu niż narracja Cervantesa. To subtelna, ale kluczowa różnica. Sukces nie leżał w języku, a w danych, na których model pracował.

“W badaniu tym jest tak dużo różnych czynników, że na pewno nie możemy na jego podstawie stwierdzić, że polski jest najlepszym językiem do ‘promptowania’” – podkreśla Karpińska. Co więcej, badacze dołożyli jeszcze jeden element komplikujący test. Czasami modele musiały rozpoznać, że poszukiwana fraza w ogóle nie znajduje się w tekście. I tu zaczynały się schody. W takich sytuacjach skuteczność AI drastycznie spadała, co obnaża jej fundamentalną słabość.

Jak myśli AI? To nie jest proste CTRL+F

Całe to zamieszanie jest świetną okazją, by przypomnieć, jak działają duże modele językowe. Nie są one cyfrowymi bibliotekarzami, którzy metodycznie przeszukują tekst za pomocą funkcji znanej jako CTRL+F. One działają na zasadzie prawdopodobieństwa. Model nie „szuka” odpowiedzi, a raczej próbuje ją „odgadnąć” na podstawie miliardów wzorców językowych, które przetworzył podczas treningu. Stara się wygenerować najbardziej prawdopodobną sekwencję słów w odpowiedzi na nasze zapytanie.

Dlatego właśnie AI potrafi z pełnym przekonaniem generować fałszywe informacje (tzw. halucynacje) lub mylić się w pozornie prostych zadaniach. To nie jest logiczna maszyna w ludzkim rozumieniu, lecz niezwykle zaawansowany system statystyczny. Nie rozumie tekstu, jedynie przewiduje, co powinno nastąpić po sobie. Ten mechanizm sprawia, że modele są potężne w zadaniach kreatywnych, ale zawodne, gdy liczy się absolutna precyzja.

Jaki jest prawdziwy wniosek z tego zamieszania?

Podstawowa lekcja płynąca z badania OneRuler jest brutalnie prosta: nawet najnowocześniejsze modele AI wciąż mają poważne ograniczenia i bywają zawodne. Fascynacja ich możliwościami często przesłania nam ich wady. Marzena Karpińska ostrzega, że użytkownicy pokładają w chatbotach zbyt duże zaufanie. Zawsze – absolutnie zawsze – warto weryfikować odpowiedzi w niezależnych źródłach. Sztuczna inteligencja to potężne narzędzie, ale wciąż tylko narzędzie. Czasem tępe, czasem nieprecyzyjne, a już na pewno nie nieomylne. I żadna narodowa duma, nawet ta językowa, nie powinna nam tego faktu przesłaniać.