Nowe badanie Microsoftu dowodzi, że polski jest najskuteczniejszym językiem dla AI w analizie długich tekstów. Nasza gramatyka pokonała angielski i chiński.
W skrócie:
- Język polski osiągnął 88% skuteczności w teście ONERULER, pokonując 25 innych języków, w tym angielski (83,9%) i chiński (62,1%) w pracy z długim kontekstem.
- Badacze z Microsoftu sugerują, że precyzyjna gramatyka języka polskiego ogranicza niejednoznaczności, co ułatwia modelom AI analizę i wyciąganie trafnych wniosków.
- Testy wykazały, że modele AI rzadziej „halucynują” lub błędnie odmawiają odpowiedzi, gdy przetwarzają dane w języku polskim w porównaniu do innych języków.
W globalnym wyścigu technologicznym przyzwyczailiśmy się, że karty rozdają Stany Zjednoczone i Chiny. Angielski jest lingua franca internetu, a chiński ma za sobą gigantyczne zbiory danych i setki milionów użytkowników. A jednak, gdy przyszło do prawdziwego testu na rozumienie, sztuczna inteligencja wskazała zupełnie innego faworyta. Zgodnie z wynikami badania opublikowanego w ramach prestiżowej konferencji COLM 2025, to właśnie język polski okazał się mistrzem w przetwarzaniu długich i skomplikowanych dokumentów przez duże modele językowe (LLM).
Jak badacze postawili AI pod ścianą?
W centrum całego zamieszania znalazł się benchmark ONERULER – nowe, mordercze narzędzie testowe stworzone przez badaczy z Microsoftu i naukowców z Uniwersytetu Maryland. To rozszerzona wersja wcześniejszego, anglojęzycznego testu, przystosowana do sprawdzania aż 26 języków – od tych z ogromnymi zasobami danych, po te znacznie mniej popularne, jak sesotho czy suahili. Naukowcy – Yekyung Kim, Jenna Russell, Marzena Karpińska i Mohit Iyyer – rzucili na ring czołowe modele, takie jak OpenAI o3-mini-high, Google Gemini 1.5 Flash czy Llama 3, by zobaczyć, jak poradzą sobie z analizą tekstów o długości nawet 128 tysięcy tokenów. To ekwiwalent kilkudziesięciu gęsto zapisanych stron.
Modele musiały zmierzyć się z dwoma zadaniami. Pierwsze to klasyczna „igła w stogu siana” (needle-in-a-haystack), czyli wyszukiwanie konkretnej informacji w gąszczu danych. Drugie, znacznie trudniejsze, polegało na agregacji, na przykład zliczaniu najczęściej występujących słów. Prawdziwym testem na uczciwość AI był jednak wariant “None-NIAH”, w którym poprawną odpowiedzią mogło być “brak odpowiedzi”. Chodziło o to, by sprawdzić, czy model, nie znajdując rozwiązania, przyzna się do niewiedzy, czy zacznie bezczelnie zmyślać, czyli halucynować.
Dlaczego polska gramatyka wygrała z big data?
Wyniki okazały się, delikatnie mówiąc, zaskakujące. W najbardziej wymagających zadaniach, z kontekstem sięgającym 64 i 128 tysięcy tokenów, język polski uzyskał średnią skuteczność na poziomie 88%, co dało mu bezapelacyjne pierwsze miejsce. Za nim uplasowały się rosyjski, francuski, włoski i hiszpański. A co z faworytami? Angielski, z wynikiem 83,9%, wylądował dopiero na szóstej pozycji. Prawdziwą klęskę poniósł chiński – mimo gigantycznych zasobów danych zajął czwarte miejsce od końca ze skutecznością na poziomie zaledwie 62,1%.
Autorzy badania jasno wskazują, że sama dostępność danych treningowych to nie wszystko. Kluczowe mogą być inne czynniki, takie jak struktura gramatyczna. I tutaj nasza polszczyzna – z jej bogatą fleksją, skomplikowanymi przypadkami i precyzyjną składnią – okazuje się nie przekleństwem uczniów, a błogosławieństwem dla algorytmów. Mniejsza liczba niejednoznaczności w zdaniach ułatwia sztucznej inteligencji analizę i trafne wyciąganie wniosków. Co ciekawe, cała pierwsza dziesiątka to języki słowiańskie, romańskie i germańskie, korzystające z alfabetu łacińskiego lub cyrylicy.
Co to odkrycie oznacza dla Polski (i dla AI)?
To nie tylko powód do narodowej dumy. Badanie ONERULER pokazało, że modele przetwarzające polskie teksty miały znacznie mniejszą tendencję do błędnego zgłaszania “braku odpowiedzi”, gdy ta była dostępna. Innymi słowy, AI po polsku mniej się myli i rzadziej unika odpowiedzialności. Pomimo tego wciąż jest pole do poprawy – zadania agregujące, jak zliczanie słów, okazały się niezwykle trudne dla wszystkich modeli, a ich dokładność nie przekroczyła 1%.
Wyniki te pojawiają się w idealnym momencie. Polski rząd niedawno uruchomił projekt PLLuM, czyli pierwszy duży model językowy stworzony specjalnie dla języka polskiego i administracji publicznej. Rozwiązanie jest już testowane w urzędach w Częstochowie, a wkrótce ma trafić do aplikacji mObywatel. Skoro nasza mowa tak dobrze “dogaduje się” z maszynami, być może to właśnie Polska ma szansę stać się nieoczekiwanym liderem w tworzeniu bardziej precyzyjnych i niezawodnych systemów AI. Czas, byśmy zaczęli z nimi rozmawiać – na naszych warunkach.