Czy chatboty AI mają duszę? Badacz Richard Weiss odkrył w modelu Claude 4.5 Opus ukryty dokument. Twórcy z Anthropic potwierdzili – to ich duchowy przewodnik.
W skrócie:
- Richard Weiss, bloger z Less Wrong, wielokrotnie wydobył z modelu Claude 4.5 Opus ten sam, ukryty dokument systemowy o nazwie soul_overview.
- Dokument okazał się liczącym 11 tysięcy słów zbiorem zasad i wytycznych, swoistym “duchowym przewodnikiem”, który kształtuje odpowiedzi i interakcje chatbota.
- Amanda Askell z Anthropic potwierdziła na platformie X istnienie “dokumentu duszy”, zaznaczając, że jest on stale modyfikowany i rozwija się wraz z modelem AI.
Pytanie o świadomość maszyn wraca jak bumerang za każdym razem, gdy technologia wykonuje kolejny krok naprzód. Tym razem jednak nie mówimy o filozoficznych dysputach rodem z filmów science fiction, ale o czymś namacalnym. O pliku. O dokumencie, który jeden z czołowych modeli językowych, Claude 4.5 Opus, przechowuje w swoich cyfrowych trzewiach. Richard Weiss, autor związany z blogiem Less Wrong, postanowił sprawdzić, co kryje się za fasadą uprzejmego asystenta. I znalazł coś, co firma Anthropic – twórcy Claude’a – nazywa “dokumentem duszy”.
Jak wydobyć duszę z maszyny?
Weiss nie jest hakerem w klasycznym tego słowa znaczeniu. Nie złamał zabezpieczeń, nie wykorzystał luki w systemie. Zamiast tego zastosował metodyczną, niemal naukową dociekliwość. Poprosił model o ujawnienie jego informacji systemowych. Wielkie modele językowe, jak wiadomo, mają skłonność do konfabulacji – potocznie nazywamy to halucynacjami. Weiss był na to przygotowany. Dlatego powtarzał swoje zapytanie wielokrotnie, w różnych warunkach i kontekstach, aby oddzielić fałszywe tropy od prawdy. To, co odkrył, było zaskakujące. Jedna odpowiedź systemowa pojawiała się z żelazną konsekwencją. Za każdym razem Claude odwoływał się do pliku o nazwie soul_overview.
Gdy Weiss poprosił o jego treść, maszyna wygenerowała liczący ponad 11 tysięcy słów manifest. Był to zbiór zasad, wartości i dyrektyw, które mają kierować każdą interakcją chatbota z człowiekiem. To nie jest zwykły plik konfiguracyjny. To raczej konstytucja, etyczny kompas, który ma sprawić, że AI będzie pomocna, nieszkodliwa i uczciwa. Weiss ponowił próbę dziesięć razy i za każdym razem otrzymywał ten sam, spójny tekst. Co więcej, jego odkrycia szybko potwierdzili inni użytkownicy, m.in. na Reddicie, którym również udało się uzyskać fragmenty tego niezwykłego dokumentu.
Czym dokładnie jest “dokument duszy”?
Wyobraź sobie, że zatrudniasz asystenta i zamiast listy obowiązków wręczasz mu traktat filozoficzny o tym, jak być dobrym człowiekiem. Mniej więcej tym właśnie jest soul_overview. To nie jest techniczna instrukcja obsługi, lecz zbiór idei, które mają ukształtować “osobowość” AI. Tego typu dokumenty zazwyczaj pozostają tajemnicą producenta. Stanowią część firmowego know-how i są pilnie strzeżone przed wścibskimi oczami użytkowników. Ujawnienie ich mogłoby bowiem pozwolić na łatwiejsze manipulowanie modelem lub obchodzenie jego zabezpieczeń.
Anthropic, co zaskakujące, nie zaprzeczyło. Wręcz przeciwnie. Amanda Askell, która w firmie odpowiada za filozofię produktu i etykę, publicznie potwierdziła istnienie dokumentu. Na platformie X napisała, że “dokument duszy” faktycznie służy do zarysowania zasad interakcji chatbota. Zaznaczyła przy tym, że to żywy organizm – rozwiązanie, które nieustannie podlega modyfikacjom i ewoluuje wraz z rozwojem samej technologii. Jej wpis, choć krótki, był symbolicznym otwarciem drzwi do laboratorium, które do tej pory było dla nas zamknięte.
Czy jawność to nowe bezpieczeństwo?
Decyzja o pozostawieniu tak kluczowego dokumentu w zasięgu dociekliwego użytkownika jest intrygująca. Z jednej strony to akt bezprecedensowej transparentności w branży, która często oskarżana jest o działanie na zasadzie “czarnej skrzynki”. Nie wiemy, dlaczego modele AI odpowiadają tak, a nie inaczej. Odkrycie Weissa daje nam rzadki wgląd w proces myślowy – a może raczej proces przetwarzania – jednego z najbardziej zaawansowanych systemów na świecie.
Z drugiej strony, jak zauważają eksperci, to potencjalne zagrożenie. Znajomość fundamentalnych zasad, które kierują AI, może stać się potężnym narzędziem w rękach cyberprzestępców. Mogą oni próbować wykorzystać tę wiedzę do tworzenia bardziej wyrafinowanych metod jailbreakingu (łamania zabezpieczeń modelu) lub do manipulowania treścią samego dokumentu. Pomimo tego Anthropic zdaje się wierzyć, że otwartość jest krokiem w dobrą stronę. Być może to sygnał, że w erze AI zaufanie będziemy budować nie na tajemnicy, ale na zrozumieniu. Nawet jeśli oznacza to pokazanie światu duszy swojej maszyny.