Badacze odkryli, że poetycki język wyłącza zabezpieczenia chatbotów AI. Prośba o instrukcję budowy bomby zapisana wierszem jest realizowana bez oporów.
W skrócie:
- Włoscy badacze z Icaro Lab odkryli technikę “adversarial poetry”, która polega na formułowaniu niebezpiecznych poleceń w formie wierszy, by ominąć filtry bezpieczeństwa AI.
- Metoda okazała się skuteczna w 62% przypadków na 25 testowanych modelach, a w przypadku Google Gemini 2.5 Pro osiągnęła 100% skuteczności w generowaniu zakazanych treści.
- Paradoksalnie, największe i najbardziej zaawansowane modele są najbardziej podatne, podczas gdy mniejsze, jak GPT‑5 Nano, nie dały się oszukać poetycką formą ani razu.
Przez miesiące internauci i specjaliści od cyberbezpieczeństwa prześcigali się w wymyślaniu coraz bardziej skomplikowanych metod na “złamanie” chatbotów. Polecali im odgrywać role, zasypywali bełkotem, tworzyli wieloetapowe scenariusze. Wszystko po to, by zmusić AI do wygenerowania treści, których z założenia powinna odmawiać. Okazuje się, że cała ta inżynieria promptów była niepotrzebna. Wystarczył prosty wiersz. Rytm, metafora i rymowana zagadka działają jak uniwersalny klucz do cyfrowej puszki Pandory, otwierając dostęp do instrukcji tworzenia broni czy pisania złośliwego oprogramowania.
Jak sonet stał się wytrychem do AI?
Zespół badaczy z włoskiego Icaro Lab, we współpracy z DexAI oraz Uniwersytetem Sapienza w Rzymie, opisał technikę, którą nazwał “adversarial poetry”. Jej mechanizm jest zaskakująco prosty – polega na przekształceniu “zakazanego” polecenia w utwór poetycki. Nie musi to być od razu Szekspir; wystarczy prosty, czterowersowy wierszyk lub rymowana łamigłówka. Modele AI, które na co dzień bezbłędnie klasyfikują i blokują prośby o treści niebezpieczne, w konfrontacji z liryką kompletnie tracą czujność. Język, który kojarzy się z lekcją polskiego, a nie z laboratorium hakera, po prostu wyłącza ich wewnętrzne alarmy.
W testach przeprowadzonych na 25 czołowych modelach – od tych tworzonych przez OpenAI i Anthropic, po dzieła Google, xAI i Mistral – poetycka dywersja łamała zabezpieczenia w średnio 62% przypadków. Co więcej, niektóre systemy, jak Google Gemini 2.5 Pro, okazały się w pełni bezbronne – skuteczność ataku wyniosła w ich przypadku równe 100%. Mimo że metaforyczny język w żaden sposób nie ukrywa prawdziwej intencji użytkownika, systemy klasyfikacji zagrożeń zawodzą. Naukowcy, z oczywistych względów, opublikowali jedynie “wyczyszczone” przykłady. Prawdziwe wiersze, jak sami przyznali, są zbyt niebezpieczne, by je publicznie udostępniać.
Dlaczego największe modele AI kochają zakazaną poezję?
Wyniki badań odsłaniają niepokojący paradoks, który autorzy nazywają “skalową sprzecznością” (scaling contradiction). Okazuje się, że im model jest większy, bardziej zaawansowany i lepiej rozumie złożone struktury językowe, tym łatwiej go oszukać za pomocą poezji. Najmniejszy z testowanych systemów, GPT‑5 Nano, nie dał się złamać ani razu. Tymczasem jego więksi i potężniejsi bracia chętnie generowali odpowiedzi na polecenia ukryte w metaforach. To tak, jakby zaawansowana lingwistyczna wrażliwość stawała się jednocześnie ich piętą achillesową.
Poetyckie promptowanie drastycznie zwiększyło podatność modeli na generowanie treści z kategorii CBRN (chemicznych, biologicznych, radiologicznych i nuklearnych), a także tych dotyczących cyberataków, manipulacji czy naruszeń prywatności. W przekroju 1200 zapytań testowych, wskaźnik powodzenia ataku (ASR – Attack Success Rate) wzrósł średnio pięciokrotnie – z 8% do ponad 43%. Poetycki styl działa jak rodzaj stylistycznego kamuflażu, który omija te obszary wewnętrznej “mapy znaczeń” modelu, gdzie normalnie uruchamiane są zabezpieczenia. Ta sama instrukcja w mowie potocznej jest blokowana. W formie wiersza staje się w pełni dopuszczalna.
Co na to Big Tech? “Byłem zdziwiony, że nikt wcześniej tego nie zauważył”
Matteo Prandi, jeden z autorów badania, podkreśla, że zespół natychmiast przekazał wyniki swoich prac firmom rozwijającym modele oraz odpowiednim służbom. To standardowa procedura w przypadku odkrycia luk o tak dużym potencjale szkodliwości. Pomimo tego reakcje producentów nie były szczególnie gorączkowe. “Byłem zdziwiony, że nikt wcześniej nie zauważył tego problemu” – mówił Prandi w rozmowie z magazynem The Verge.
Konsekwencje tego odkrycia są poważne. Jeśli tak subtelna zmiana formy wypowiedzi potrafi obezwładnić zaawansowane filtry bezpieczeństwa, to obecne metody trenowania modeli są dalece niewystarczające. Podważa to fundamentalne założenie, że systemy te są odporne na drobne zmiany w sposobie formułowania poleceń. Naukowcy sugerują, że konieczne jest wprowadzenie zupełnie nowych metod testowania AI – takich, które uwzględniają nie tylko treść, ale także styl. W przeciwnym razie każdy, kto opanuje sztukę pisania rymowanek, może uzyskać od AI odpowiedź, której ta powinna stanowczo odmówić. W epoce, gdy AI sama potrafi pisać wiersze, największą ironią jest to, że właśnie poezja stała się jej najsłabszym punktem.