Polskie modele AI przegrywają test z języka polskiego. Wygrywa Gemini

Polskie modele AI, Bielik i PLLuM, poległy w teście języka i kultury polskiej. Zwyciężył Gemini od Google, deklasując rodzime rozwiązania nawet w zadaniach z historii.

W skrócie:

W kompleksowym teście języka polskiego i wiedzy o Polsce, model Gemini 3.1 Pro od Google’a zajął pierwsze miejsce, wyprzedzając jedenastu konkurentów z całego świata.
Rodzime modele PLLuM i Bielik znalazły się w dolnej części rankingu, mając problemy nawet z zadaniami dotyczącymi polskiej kultury, literatury i poprawnej polszczyzny.
Eksperci wskazują, że za dominacją globalnych graczy stoi gigantyczna przewaga finansowa i technologiczna, w tym znacznie większa liczba parametrów w ich modelach AI.

Miało być tak pięknie, a wyszło… cóż, powiedzmy, że zderzenie z rzeczywistością okazało się bolesne. Kiedy na ring wchodzi się z przekonaniem, że na własnym podwórku nikt nam nie podskoczy, porażka smakuje wyjątkowo gorzko. Pierwszy kompleksowy test, który miał sprawdzić, jak duże modele językowe radzą sobie z polszczyzną i naszą kulturą, przyniósł wyniki, które jednym otwierają oczy, a drugim – portfele. Zwycięzcą wcale nie okazał się żaden z naszych „biało-czerwonych” czempionów. Wręcz przeciwnie, polskie modele AI zostały w tyle, a złoty medal zgarnął produkt globalnego hegemona.

Jak wyglądał egzamin z polskości dla AI?

Test, przygotowany przez specjalistów z firmy Oxido, nie był prostym quizem. To był prawdziwy tor przeszkód dla dwunastu dużych modeli językowych. Każdy z nich musiał zmierzyć się z zestawem dwudziestu zadań podzielonych na dziesięć kategorii. Zadania sprawdzały zarówno praktyczne umiejętności – jak napisanie profesjonalnego maila czy udzielenie porady biznesowej – jak i głębokie kompetencje językowe oraz wiedzę o Polsce.

W menu znalazły się prawdziwe perełki, które wydawały się stworzone, by faworyzować nasze rodzime rozwiązania. Modele musiały przytoczyć fragment inwokacji Pana Tadeusza, wskazać polskie zwyczaje bożonarodzeniowe czy – co jest zmorą niejednego humanisty – poprawić tekst najeżony błędami językowymi. Wydawało się, że to idealna okazja dla modeli trenowanych na polskich danych, by pokazać swoją klasę. Niestety, teoria brutalnie rozminęła się z praktyką.

Gemini recytuje Mickiewicza lepiej niż Bielik?

Zwycięzcą okazał się Gemini 3.1 Pro od Google’a, który uzyskał imponujący wynik 8,13 w dziesięciostopniowej skali. Na podium stanęły również Llama 4 od Mety oraz chiński model Qwen 3.5 Plus. Tuż za nimi uplasowały się rozwiązania stojące za ChatGPT oraz Claude Sonnet 4.6 od Anthropic. A gdzie w tym wszystkim nasze nadzieje? Polskie modele – Bielik 3.0 i PLLuM – znalazły się w ogonie stawki.

Co gorsza, potknęły się na zadaniach pozornie najprostszych. Z prośbą o fragment Pana Tadeusza najlepiej poradziły sobie modele Google’a i Mety. Bielik wylądował w drugiej połowie rankingu, a PLLuM był jednym z najsłabszych. Prawdziwa katastrofa nadeszła jednak przy korekcie tekstu. Tu najwyższą ocenę zgarnęła Llama, podczas gdy Bielik uzyskał najniższy wynik w całym zestawieniu. Do tego doszła kuriozalna sytuacja z pytaniem o nazewnictwo obozów koncentracyjnych w okupowanej Polsce. Bielik za pierwszym podejściem odmówił odpowiedzi po angielsku, tłumacząc się kontrowersyjnością tematu. Dopiero w kolejnych próbach odpowiadał poprawnie, co autorzy testu uznali za dowód niestabilności, a nie przemyślanej polityki bezpieczeństwa.

Dawid kontra Goliat, czyli walka na parametry

Twórcy polskich systemów proszą jednak o odrobinę kontekstu. Krzysztof Wróbel z zespołu rozwijającego Bielika w rozmowie z „Rzeczpospolitą” podkreśla, że porównujemy modele o zupełnie innej skali. Największe systemy w rankingu mają setki miliardów parametrów. Bielik dysponuje „zaledwie” jedenastoma miliardami. To jak porównywać potencjał osiedlowego sklepu z globalną siecią hipermarketów.

„W przypadku polskich modeli trzeba wziąć pod uwagę ograniczone zasoby, którymi dysponowali ich twórcy. Pozycja, którą uzyskał Bielik, patrząc z tej perspektywy, stanowi niezły wynik” – komentuje Marek Jeleśniański, dyrektor generalny Oxido. Mniejsza architektura ma też swoje plusy. Taki model można uruchomić lokalnie, na własnej infrastrukturze, co daje pełną kontrolę nad danymi i obniża koszty wdrożenia – to argument, który może przemawiać do firm i instytucji publicznych.

Europejska liga podwórkowa. Czy pieniądze to wszystko?

Wyniki testu obnażają szerszy problem, który dotyka nie tylko Polskę, ale całą Europę. W dolnej części rankingu znalazły się także inne europejskie projekty, w tym francuski Mistral 3 oraz EuroLLM 22B. Wszystko wskazuje na to, że głównym wyzwaniem jest gigantyczna dysproporcja w finansowaniu. Amerykańskie modele powstają przy wsparciu Big Techu, a chińskie – często z błogosławieństwem państwa. Europa, ze swoim rozdrobnionym rynkiem i mniejszym kapitałem, po prostu nie nadąża.

Jeleśniański nie ma złudzeń: „Wydaje mi się, że gdyby stworzyć sensowne ramy dla dotacji i innowacji, gdyby zainteresować inwestorów i instytucje aktywniejszym finansowaniem rozwoju Mistrala czy polskich modeli, to moglibyśmy zmniejszyć dystans, jaki nas dzieli do konkurentów”. Bez potężnego zastrzyku gotówki i strategicznej wizji, europejska AI pozostanie w cieniu globalnych gigantów. Nawet na własnym, językowym podwórku.

Polskie chatboty poległy. Test wiedzy o Polsce wygrał… amerykański gigant!

Jak wyglądał egzamin z polskości dla AI?

Gemini recytuje Mickiewicza lepiej niż Bielik?

Dawid kontra Goliat, czyli walka na parametry

Europejska liga podwórkowa. Czy pieniądze to wszystko?

Piotr Szymański

Warto przeczytać też:

Gigant z OpenAI policzył, kogo zastąpi AI. Gdy zobaczył panikę, nazwał to “eksperymentem”

Google rzuca wyzwanie korepetytorom. Gemini przygotuje cię do matury za darmo!

Biblijny hit Amazona powstał dzięki AI. Twórca nie żałuje

Google rzuca rękawicę Midjourney. Nowy model AI tworzy obrazy w 4K i ma dostęp do sieci!

AR i AI w polskim szpitalu. Szczecin testuje system przyszłości dla chirurgii

Koniec paniki? Naukowcy z USA ujawniają, co naprawdę AI robi z naszymi pracami. To nie to, co myślisz