Skip to content Skip to sidebar Skip to footer

Polskie chatboty poległy. Test wiedzy o Polsce wygrał… amerykański gigant!

Polskie modele AI, Bielik i PLLuM, poległy w teście języka i kultury polskiej. Zwyciężył Gemini od Google, deklasując rodzime rozwiązania nawet w zadaniach z historii.

W skrócie:

  • W kompleksowym teście języka polskiego i wiedzy o Polsce, model Gemini 3.1 Pro od Google’a zajął pierwsze miejsce, wyprzedzając jedenastu konkurentów z całego świata.
  • Rodzime modele PLLuM i Bielik znalazły się w dolnej części rankingu, mając problemy nawet z zadaniami dotyczącymi polskiej kultury, literatury i poprawnej polszczyzny.
  • Eksperci wskazują, że za dominacją globalnych graczy stoi gigantyczna przewaga finansowa i technologiczna, w tym znacznie większa liczba parametrów w ich modelach AI.

Miało być tak pięknie, a wyszło… cóż, powiedzmy, że zderzenie z rzeczywistością okazało się bolesne. Kiedy na ring wchodzi się z przekonaniem, że na własnym podwórku nikt nam nie podskoczy, porażka smakuje wyjątkowo gorzko. Pierwszy kompleksowy test, który miał sprawdzić, jak duże modele językowe radzą sobie z polszczyzną i naszą kulturą, przyniósł wyniki, które jednym otwierają oczy, a drugim – portfele. Zwycięzcą wcale nie okazał się żaden z naszych „biało-czerwonych” czempionów. Wręcz przeciwnie, polskie modele AI zostały w tyle, a złoty medal zgarnął produkt globalnego hegemona.

Jak wyglądał egzamin z polskości dla AI?

Test, przygotowany przez specjalistów z firmy Oxido, nie był prostym quizem. To był prawdziwy tor przeszkód dla dwunastu dużych modeli językowych. Każdy z nich musiał zmierzyć się z zestawem dwudziestu zadań podzielonych na dziesięć kategorii. Zadania sprawdzały zarówno praktyczne umiejętności – jak napisanie profesjonalnego maila czy udzielenie porady biznesowej – jak i głębokie kompetencje językowe oraz wiedzę o Polsce.

W menu znalazły się prawdziwe perełki, które wydawały się stworzone, by faworyzować nasze rodzime rozwiązania. Modele musiały przytoczyć fragment inwokacji Pana Tadeusza, wskazać polskie zwyczaje bożonarodzeniowe czy – co jest zmorą niejednego humanisty – poprawić tekst najeżony błędami językowymi. Wydawało się, że to idealna okazja dla modeli trenowanych na polskich danych, by pokazać swoją klasę. Niestety, teoria brutalnie rozminęła się z praktyką.

Gemini recytuje Mickiewicza lepiej niż Bielik?

Zwycięzcą okazał się Gemini 3.1 Pro od Google’a, który uzyskał imponujący wynik 8,13 w dziesięciostopniowej skali. Na podium stanęły również Llama 4 od Mety oraz chiński model Qwen 3.5 Plus. Tuż za nimi uplasowały się rozwiązania stojące za ChatGPT oraz Claude Sonnet 4.6 od Anthropic. A gdzie w tym wszystkim nasze nadzieje? Polskie modele – Bielik 3.0 i PLLuM – znalazły się w ogonie stawki.

Co gorsza, potknęły się na zadaniach pozornie najprostszych. Z prośbą o fragment Pana Tadeusza najlepiej poradziły sobie modele Google’a i Mety. Bielik wylądował w drugiej połowie rankingu, a PLLuM był jednym z najsłabszych. Prawdziwa katastrofa nadeszła jednak przy korekcie tekstu. Tu najwyższą ocenę zgarnęła Llama, podczas gdy Bielik uzyskał najniższy wynik w całym zestawieniu. Do tego doszła kuriozalna sytuacja z pytaniem o nazewnictwo obozów koncentracyjnych w okupowanej Polsce. Bielik za pierwszym podejściem odmówił odpowiedzi po angielsku, tłumacząc się kontrowersyjnością tematu. Dopiero w kolejnych próbach odpowiadał poprawnie, co autorzy testu uznali za dowód niestabilności, a nie przemyślanej polityki bezpieczeństwa.

Dawid kontra Goliat, czyli walka na parametry

Twórcy polskich systemów proszą jednak o odrobinę kontekstu. Krzysztof Wróbel z zespołu rozwijającego Bielika w rozmowie z „Rzeczpospolitą” podkreśla, że porównujemy modele o zupełnie innej skali. Największe systemy w rankingu mają setki miliardów parametrów. Bielik dysponuje „zaledwie” jedenastoma miliardami. To jak porównywać potencjał osiedlowego sklepu z globalną siecią hipermarketów.

„W przypadku polskich modeli trzeba wziąć pod uwagę ograniczone zasoby, którymi dysponowali ich twórcy. Pozycja, którą uzyskał Bielik, patrząc z tej perspektywy, stanowi niezły wynik” – komentuje Marek Jeleśniański, dyrektor generalny Oxido. Mniejsza architektura ma też swoje plusy. Taki model można uruchomić lokalnie, na własnej infrastrukturze, co daje pełną kontrolę nad danymi i obniża koszty wdrożenia – to argument, który może przemawiać do firm i instytucji publicznych.

Europejska liga podwórkowa. Czy pieniądze to wszystko?

Wyniki testu obnażają szerszy problem, który dotyka nie tylko Polskę, ale całą Europę. W dolnej części rankingu znalazły się także inne europejskie projekty, w tym francuski Mistral 3 oraz EuroLLM 22B. Wszystko wskazuje na to, że głównym wyzwaniem jest gigantyczna dysproporcja w finansowaniu. Amerykańskie modele powstają przy wsparciu Big Techu, a chińskie – często z błogosławieństwem państwa. Europa, ze swoim rozdrobnionym rynkiem i mniejszym kapitałem, po prostu nie nadąża.

Jeleśniański nie ma złudzeń: „Wydaje mi się, że gdyby stworzyć sensowne ramy dla dotacji i innowacji, gdyby zainteresować inwestorów i instytucje aktywniejszym finansowaniem rozwoju Mistrala czy polskich modeli, to moglibyśmy zmniejszyć dystans, jaki nas dzieli do konkurentów”. Bez potężnego zastrzyku gotówki i strategicznej wizji, europejska AI pozostanie w cieniu globalnych gigantów. Nawet na własnym, językowym podwórku.