Interpreowalność AI: Steerling-8B kończy z czarną skrzynką

Guide Labs udostępnił Steerling-8B – model AI, który kończy z „czarną skrzynką”. Każda jego decyzja jest w pełni śledzona aż do danych źródłowych.

W skrócie:

Startup Guide Labs opublikował model Steerling-8B o 8 miliardach parametrów. Jego kluczową cechą jest pełna interpretabilność, pozwalająca śledzić każdą odpowiedź do źródła.
Architektura modelu opiera się na “warstwie koncepcyjnej”, która kategoryzuje dane treningowe. Umożliwia to precyzyjną kontrolę nad generowanymi treściami, np. blokowanie materiałów chronionych prawem autorskim.
Steerling-8B osiąga 90% wydajności porównywalnych modeli, zużywając mniej danych. Firma, która pozyskała 9 mln dolarów, planuje budowę większych wersji i komercjalizację technologii.

Każdy, kto próbował zmusić duży model językowy do logicznego i spójnego myślenia, zna to uczucie. Mieszanina fascynacji i bezradności. Dlaczego Grok z uporem maniaka wraca do dziwnych poglądów politycznych? Skąd u ChatGPT skłonność do bycia lizusem? I co, u licha, siedzi w tych miliardach parametrów, że prowadzi do halucynacji? Próba zrozumienia tego przypomina grzebanie w mózgu obcej istoty bez mapy i kompasu. Do dzisiaj.

Na scenę wkracza Guide Labs, startup z San Francisco, który właśnie udostępnił jako open source swój 8‑miliardowy model językowy, Steerling-8B. I to nie jest kolejna, odrobinę lepsza kopia LLaMA. To zupełnie nowe podejście. Twórcy obiecują, że każdy pojedynczy token wygenerowany przez ich model można prześledzić aż do jego korzeni w danych treningowych. Koniec z tajemnicami. Koniec z domysłami. Witaj, radykalna przejrzystości.

Jak inżynieria pokonała neuronaukę?

Obecne próby zrozumienia modeli AI przypominają – jak to ujął CEO Guide Labs, Julius Adebayo – “neuronaukę stosowaną na modelu”. Badacze próbują z zewnątrz zajrzeć do środka i jakoś zinterpretować, co się tam dzieje. Adebayo i jego zespół odwrócili ten proces. “My robimy coś innego. Od podstaw projektujemy model w taki sposób, by nie trzeba było uprawiać na nim neuronauki” – wyjaśnił w rozmowie z TechCrunch.

Sekret tkwi w nowatorskiej architekturze. Deweloperzy wprowadzili do modelu dodatkową “warstwę koncepcyjną”, która grupuje dane w identyfikowalne kategorie. To trochę jak tworzenie spisu treści dla mózgu AI. Wymaga to więcej pracy na etapie przygotowania danych, ale dzięki wsparciu innych modeli proces jest skalowalny. Efekt? Pełna kontrola. Możemy nie tylko sprawdzić, skąd model wziął konkretny fakt, ale też zrozumieć, jak interpretuje tak abstrakcyjne pojęcia jak humor czy płeć. Adebayo nazywa to jednym ze “świętych Graali” tej dziedziny. Do tej pory było to niezwykle kruche i zawodne. Teraz staje się standardem inżynieryjnym.

Czy przejrzystość zabija kreatywność AI?

Naturalnie pojawia się pytanie: czy taka kategoryzacja nie zabija magii? Czy model, którego każdy ruch jest śledzony, może jeszcze zaskoczyć? Czy nie traci zdolności do “zachowań emergentnych” – czyli tworzenia nowych połączeń i generalizacji, których go bezpośrednio nie nauczono? Adebayo uspokaja. Jego zespół śledzi tzw. “odkryte koncepty”, czyli pojęcia, które model wypracował samodzielnie. Przykładem jest informatyka kwantowa. Model wciąż potrafi generalizować i tworzyć nowe idee, ale robi to w ramach zrozumiałych dla nas struktur.

Co więcej, ta nowa architektura ma zaskakującą zaletę. Steerling-8B osiąga 90% wydajności istniejących modeli o podobnej wielkości, ale potrzebuje do tego znacznie mniej danych treningowych. To dowód, że przemyślana inżynieria jest efektywniejsza niż brutalna siła w postaci wrzucania do modelu kolejnych petabajtów danych z internetu.

Kto najbardziej potrzebuje takiej technologii?

Odpowiedź jest prosta: wszyscy. Julius Adebayo argumentuje, że interpretable architektury staną się koniecznością. W modelach konsumenckich pozwolą skutecznie blokować wykorzystanie materiałów chronionych prawem autorskim albo lepiej kontrolować toksyczne treści na temat przemocy czy narkotyków. W branżach regulowanych – takich jak finanse – staną się absolutnym wymogiem. Model oceniający wniosek kredytowy musi opierać się na danych finansowych, a nie na rasie czy płci. Dzięki Steerling-8B można to zagwarantować.

Kolejnym polem jest nauka. Modele głębokiego uczenia odniosły gigantyczny sukces w dziedzinie zwijania białek, ale naukowcy często nie wiedzą, dlaczego dana kombinacja jest obiecująca. Przejrzystość da im wgląd w “proces myślowy” maszyny, co może przyspieszyć rewolucyjne odkrycia. “Ten model pokazuje, że trenowanie interpretabilnych modeli to już nie jest kwestia naukowa; to problem inżynieryjny” – podsumowuje Adebayo.

Guide Labs, absolwent Y Combinator, który w listopadzie 2023 roku pozyskał 9 milionów dolarów w rundzie seed od Initialized Capital, nie zamierza spoczywać na laurach. Następnym krokiem jest budowa większego modelu oraz udostępnienie API dla użytkowników. Jak mówi Adebayo: “Gdy zmierzamy w kierunku superinteligentnych modeli, nie chcesz, by decyzje w twoim imieniu podejmowało coś, co jest dla ciebie tajemnicą”. Trudno się z tym nie zgodzić.

Rewolucja w AI! Start-up z San Francisco rozwiązał “święty Graal” uczenia maszynowego

Jak inżynieria pokonała neuronaukę?

Czy przejrzystość zabija kreatywność AI?

Kto najbardziej potrzebuje takiej technologii?

Jakub Majewski

Warto przeczytać też:

Unia Europejska rzuca rękawicę USA i Chinom. Nowa strategia “Apply AI” ma zapewnić cyfrową suwerenność

Nieprawdopodobne, co wymyślił Facebook. AI przejrzy Twoje prywatne zdjęcia. Zgodzisz się?

Jeden prompt w ChatGPT zużywa więcej prądu, niż myślisz. Szokujące dane!

Waszyngton szuka mózgów od AI. Pensja? Nawet 175 tys. dolarów rocznie!

Zdrada za 50 miliardów! Microsoft idzie na wojnę z OpenAI. Chodzi o Amazona

80-godzinny tydzień pracy i 10 miliardów dolarów. Oto kulisy sukcesu Cognition AI