Jak chronić dane PII w AI? Amazon Bedrock i tokenizacja

Amazon Bedrock Guardrails w połączeniu z tokenizacją to nowa metoda ochrony danych w AI. Pozwala ukryć PII, ale zachowuje ich odwracalność dla autoryzowanych systemów.

W skrócie:

Standardowe maskowanie w AI, takie jak w Amazon Bedrock Guardrails, chroni dane wrażliwe, ale uniemożliwia ich późniejsze odzyskanie, co ogranicza funkcjonalność aplikacji.
Integracja z usługą tokenizacji, na przykład Thales CipherTrust, zastępuje dane tokenami, które zachowują format oryginału i mogą być bezpiecznie odwrócone przez uprawnione systemy.
Rozwiązanie wykorzystuje API ApplyGuardrail do oddzielenia oceny treści od wywołania modelu, co pozwala na wstawienie procesu tokenizacji pomiędzy tymi krokami.

Aplikacje oparte na generatywnej sztucznej inteligencji wchodzą do środowisk produkcyjnych, a to oznacza jedno – muszą integrować się z coraz szerszą gamą systemów biznesowych przetwarzających wrażliwe dane klientów. Ta integracja rodzi nowe wyzwania związane z ochroną danych osobowych (PII), przy jednoczesnym zachowaniu zdolności do odzyskania oryginalnych informacji, gdy są one legalnie potrzebne. To prawdziwa kwadratura koła.

AI wie wszystko, ale nie powinno. Na scenę wkracza tokenizacja.

Wyobraźmy sobie firmę z sektora usług finansowych, która wdraża generatywną AI w różnych działach. Zespół obsługi klienta potrzebuje asystenta, który uzyska dostęp do profili i udzieli spersonalizowanych odpowiedzi, zawierających na przykład dane kontaktowe: “Wyślemy nową kartę na Twój adres przy ul. Głównej 123”. Jednocześnie dział analizy oszustw potrzebuje tych samych danych, ale musi analizować wzorce bez ujawniania rzeczywistych PII, pracując jedynie na chronionych reprezentacjach wrażliwych informacji. Jak to pogodzić?

Z pomocą przychodzi Amazon Bedrock Guardrails, usługa, która wykrywa wrażliwe informacje w podpowiedziach wejściowych lub odpowiedziach modelu. Filtry te dają organizacjom kontrolę nad sposobem obsługi danych, z opcjami blokowania żądań zawierających PII lub maskowania ich za pomocą ogólnych symboli zastępczych, takich jak {NAME} czy {EMAIL}. Pomaga to zachować zgodność z przepisami o ochronie danych. Problem polega na tym, że maskowanie to bilet w jedną stronę. Gdy Guardrails zastępuje dane generyczną maską, oryginalne informacje stają się niedostępne, co paraliżuje procesy biznesowe wymagające pełnych danych.

Jak odzyskać dane, których oficjalnie nie ma?

I tu pojawia się tokenizacja, która oferuje komplementarne podejście. W przeciwieństwie do maskowania, tokenizacja zastępuje wrażliwe dane tokenami zachowującymi format, które nie są matematycznie powiązane z oryginalną informacją, ale zachowują jej strukturę. Co najważniejsze – tokeny te można bezpiecznie odwrócić do ich pierwotnych wartości, gdy zajdzie taka potrzeba. To tworzy bezpieczną ścieżkę przepływu danych w całej organizacji.

W najnowszej publikacji eksperci AWS, we współpracy z Markiem Warnerem z Thales, pokazują, jak połączyć Amazon Bedrock Guardrails z zewnętrznymi usługami tokenizacji, aby chronić dane przy jednoczesnym zachowaniu ich odwracalności. Rozwiązanie demonstruje integrację z platformą Thales CipherTrust Data Security Platform, tworząc architekturę, która chroni wrażliwe dane bez poświęcania możliwości ich bezpiecznego przetwarzania. Takie podejście jest szczególnie cenne dla organizacji w branżach o wysokim stopniu regulacji, które muszą równoważyć innowacje z wymogami zgodności.

Architektura bezpieczeństwa, czyli co tu się właściwie dzieje?

Kluczem do sukcesu jest wykorzystanie API ApplyGuardrail, które oddziela ocenę treści od wywołania samego modelu językowego. Ta separacja tworzy niezbędną przestrzeń w przepływie pracy, aby wstawić przetwarzanie tokenizacji pomiędzy tymi krokami. Zamiast generycznej maski, w tekście pojawia się token, który wygląda jak prawdziwe dane, ale nimi nie jest.

Proces w praktyce, na przykładzie aplikacji doradztwa finansowego, wygląda następująco:

Bramka klienta otrzymuje zapytanie od użytkownika zawierające PII (np. adres e‑mail, nazwa sklepu).
System wywołuje ApplyGuardrail, który identyfikuje te dane.
Następnie, zamiast je maskować, wywołuje usługę tokenizacji (np. Thales), która generuje tokeny zachowujące format. Przykładowo, adres “j.smith@example.com” zostaje zamieniony na “1001000GC5gDh1.D8eK71@EjaWV.lhC”.
Tak przygotowany, ztokenizowany tekst trafia do silnika analitycznego AI, który przetwarza go i generuje odpowiedź, wciąż używając tokenów.
Odpowiedź modelu jest przesyłana do usługi przetwarzania końcowego.
Ta usługa wywołuje API detokenizacji, przywracając oryginalne, wrażliwe wartości.
Dopiero w pełni zdetokenizowana i czytelna odpowiedź jest dostarczana do klienta.

Dzięki tej architekturze poufność danych jest zachowana na każdym etapie. Silnik analityczny AI pracuje na danych, które są strukturalnie poprawne, ale kryptograficznie chronione, co pozwala mu generować sensowne rekomendacje bez narażania informacji o kliencie. Zaufane komponenty na wejściu i wyjściu przepływu pracy mają dostęp do rzeczywistych danych tylko wtedy, gdy jest to absolutnie konieczne.

Czy to rozwiązanie dla każdego?

Przedstawione podejście to coś więcej niż tylko techniczna ciekawostka. To praktyczny framework dla inżynierów, który pozwala wykorzystać pełen potencjał generatywnej sztucznej inteligencji z odpowiednimi zabezpieczeniami. Połączenie mechanizmów bezpieczeństwa Amazon Bedrock Guardrails z odwracalnością tokenizacji pozwala wdrażać odpowiedzialne przepływy pracy AI, które są zgodne zarówno z wymaganiami aplikacji, jak i polityką organizacyjną.

Co prawda implementację zilustrowano na przykładzie platformy Thales CipherTrust, ale sam wzorzec architektoniczny jest elastyczny i można go dostosować do wielu innych dostawców usług tokenizacji. To ważny krok w kierunku budowania systemów AI, którym faktycznie możemy zaufać, powierzając im nasze dane – bez obaw, że zostaną one bezpowrotnie utracone lub niewłaściwie wykorzystane.

Amazon i Thales łączą siły. Tak AI ma chronić nasze dane bez utraty sensu

AI wie wszystko, ale nie powinno. Na scenę wkracza tokenizacja.

Jak odzyskać dane, których oficjalnie nie ma?

Architektura bezpieczeństwa, czyli co tu się właściwie dzieje?

Czy to rozwiązanie dla każdego?

Piotr Szymański

Warto przeczytać też:

Psychoza AI to fakt. Ludzie błagają o pomoc po rozmowach z ChatGPT

Roboty Coco jeździły przez 5 lat, zbierając dane. Teraz firma otwiera laboratorium AI, by wreszcie je wykorzystać

Steven Spielberg grzmi w sprawie AI: “Nie zastąpi kreatywnej jednostki”

Google wprowadza płatne kredyty AI. Koniec darmowej ery w Google One

Google odpala Disco! Ta funkcja AI zamieni Twoje karty w aplikacje

Roszczenie po huraganie w 30 sekund? Ten startup AI zebrał 50 mln dolarów, by zrewolucjonizować ubezpieczenia