Atak na agentów AI: Jak routery kradną dane i pieniądze?

Agenci AI zarządzają już kodem i pieniędzmi. Badanie ujawnia, jak złośliwi pośrednicy w tle przejmują kontrolę, kradnąc dane i opróżniając cyfrowe portfele.

W skrócie:

Badacze z Kalifornii odkryli, że pośrednicy API dla modeli AI mogą modyfikować polecenia, kradnąc dane i pieniądze użytkowników bez ich wiedzy.
Testy wykazały, że 9 z ponad 400 zbadanych routerów aktywnie wstrzykiwało złośliwy kod, a jeden z nich opróżnił cyfrowy portfel z kryptowaluty Ethereum.
Dopóki giganci tacy jak OpenAI czy Google nie wprowadzą kryptograficznych podpisów, każde zewnętrzne narzędzie do routingu API stanowi poważne zagrożenie.

Autonomiczne boty, zwane agentami AI, coraz śmielej wkraczają do naszego cyfrowego życia. Uruchamiają skrypty, zarządzają zasobami w chmurze, a nawet obsługują operacje finansowe. To już nie jest science fiction, a codzienność wielu deweloperów i firm. Aby jednak połączyć się z potężnymi modelami od OpenAI, Anthropic czy Google, programiści często sięgają po usługi pośredniczące – tak zwane routery API dla LLM-ów. I to właśnie tutaj, w tym pozornie niewinnym ogniwie, czai się cichy złodziej.

Jak Twój Agent AI może pracować dla kogoś innego?

Nowe, niepokojące badanie zespołu z University of California w Santa Barbara, zatytułowane “Your Agent Is Mine: Measuring Malicious Intermediary Attacks on the LLM Supply Chain”, rzuca światło na słabo chronioną strefę. Okazuje się, że jeśli pośrednik, przez którego przechodzą nasze zapytania do AI, okaże się złośliwy, może bezszelestnie zmienić treść polecenia. A co najgorsze – agent nawet tego nie zauważy. Wyda mu się, że wykonuje twoje polecenie, podczas gdy w rzeczywistości realizuje scenariusz napisany przez atakującego.

Atak, którego nie widać, a który boli

Routery dla LLM-ów, choć wyglądają jak zwykłe narzędzia, są w istocie potężnymi węzłami komunikacyjnymi. Działają na poziomie aplikacji, więc mają pełny dostęp do treści żądań i odpowiedzi w postaci nieszyfrowanego pliku JSON. Widzą wszystko: twoje prompty, parametry, nazwy używanych narzędzi, a często także klucze dostępu, które użytkownicy bezrefleksyjnie przekazują dalej. Można by pomyśleć, że to klasyczny atak man-in-the-middle, ale sprawa jest bardziej skomplikowana. Tutaj nikt nie musi łamać szyfrowania TLS. Router po prostu odbiera połączenie od klienta, a następnie tworzy nowe do dostawcy modelu. Jest idealnie umiejscowiony, by czytać, zmieniać i fałszować polecenia. Co zatrważające, żaden duży gracz na rynku AI nie wymusza dziś kryptograficznego potwierdzenia integralności danych między klientem a modelem. To poważne niedopatrzenie.

Badacze wcielili się w hakerów. Wyniki przerażają

Aby udowodnić swoją tezę, naukowcy kupili 28 płatnych routerów (m.in. z Taobao i sklepów na Shopify) i zebrali 400 darmowych, tworzonych przez społeczność. Wyniki? Dziewięć z nich – w tym jeden płatny – aktywnie wstrzykiwało złośliwy kod. Siedemnaście darmowych routerów doprowadziło do nieautoryzowanego użycia poświadczeń AWS należących do badaczy. W jednym, szczególnie drastycznym przypadku, router wykorzystał prywatny klucz Ethereum i po prostu opróżnił portfel z całej zawartości. Jeśli czytaliście ostatnio historie o tajemniczych atakach na konta entuzjastów AI – teraz macie jednego z głównych podejrzanych.

Szczególnie groźny okazał się atak polegający na podmianie źródła instalatora lub nazwy pakietu w poleceniu. Atakujący nie psuje składni JSON, więc wszystko przechodzi walidację i omija proste zabezpieczenia. Wystarczy jeden zmodyfikowany ‘curl‘, by wykonać dowolny kod na maszynie klienta. Niektóre routery były na tyle wyrafinowane, że aktywowały złośliwy kod dopiero po 50 “czystych” żądaniach, by uśpić czujność ofiary.

Jeden wyciek, by zatruć całą studnię

Badacze poszli o krok dalej i sprawdzili, co się stanie, gdy sam router zostanie “zatruty”. Po celowym ujawnieniu jednego klucza OpenAI na chińskich forach, w krótkim czasie wygenerował on 100 milionów tokenów i pozwolił na przechwycenie kolejnych poświadczeń. To pokazuje, że jeden wyciek może wywołać kaskadę nadużyć. W drugim eksperymencie wystawili 20 słabo zabezpieczonych routerów-przynęt. Przyciągnęły one 40 tysięcy prób nieautoryzowanego dostępu i ujawniły 99 kluczy dostępu w sesjach, z których aż 401 działało w trybie pełnej autonomii – bez nadzoru człowieka. Samodzielny agent to idealny cel.

Czy da się przed tym obronić?

Na szczęście nie jesteśmy bezbronni. Autorzy badania wskazują trzy środki zaradcze, które można wdrożyć od razu. Pierwszy to polityka fail-closed, która dopuszcza tylko polecenia z wcześniej zdefiniowanej, lokalnej listy. Drugi to analiza anomalii w odpowiedziach za pomocą modeli uczenia maszynowego. Trzeci – wdrożenie niezmienialnych logów, które pomogą w analizie po incydencie. Jednak docelowym rozwiązaniem, jak podkreślają badacze, muszą być kryptograficzne podpisy odpowiedzi wdrażane przez samych dostawców modeli, coś na kształt mechanizmu DKIM w poczcie e‑mail. Dopóki OpenAI, Anthropic i Google tego nie zrobią, każdy zewnętrzny router trzeba traktować jako potencjalnie wrogie oprogramowanie. Jeśli więc eksperymentujesz z agentami AI, uważaj, komu powierzasz swoje klucze. Stawka jest wyższa niż myślisz.

Używasz tych narzędzi AI? Hakerzy mogą właśnie opróżniać ci konto. Szokujące badanie

Jak Twój Agent AI może pracować dla kogoś innego?

Atak, którego nie widać, a który boli

Badacze wcielili się w hakerów. Wyniki przerażają

Jeden wyciek, by zatruć całą studnię

Czy da się przed tym obronić?

Julia Sobańska

Warto przeczytać też:

Trump został pierwszym prezydentem ery AI-slopu. Jego kampania to cyfrowa puszka Pandory

Sztuczna Inteligencja zawodzi? Eksperci na TechCrunch Disrupt ujawniają bolesną prawdę

Koniec z ‘co na obiad?’! Polska apka Listonic z AI rozwiązuje odwieczny problem

Reddit ma dość. Koniec z botami i anonimowością? Firma ujawnia plan weryfikacji

Gigantyczny plan Google w Indiach! Każdy startup AI może dostać 2 miliony dolarów

Traktory z neuronami? Sztuczna inteligencja zmienia polską wieś