Startup Miry Murati, byłej CTO OpenAI, chce zrewolucjonizować AI. Thinking Machines Lab ujawnia, jak zamierza pokonać losowość w modelach, co może zmienić wszystko.
W skrócie:
- Thinking Machines Lab, startup Miry Murati, opublikował badania, które mają na celu wyeliminowanie losowości w odpowiedziach modeli językowych, czyli tzw. niedeterminizmu.
- Według badacza Horace’a He, źródłem problemu jest sposób, w jaki programy uruchamiane na chipach GPU (jądra) są łączone w procesie wnioskowania.
- Stworzenie przewidywalnych modeli AI mogłoby usprawnić ich trening przez wzmacnianie (RL) i zwiększyć niezawodność w zastosowaniach naukowych oraz biznesowych.
W Dolinie Krzemowej cisza rzadko trwa długo, zwłaszcza gdy w grę wchodzą 2 miliardy dolarów finansowania zalążkowego i wycena na poziomie 12 miliardów. Tyle właśnie zebrała Mira Murati, była dyrektor technologiczna OpenAI, na swój nowy projekt – Thinking Machines Lab. Od miesięcy branża zadawała sobie jedno pytanie: co buduje zespół złożony z gwiazd, które odeszły z firmy Sama Altmana? Wreszcie dostaliśmy pierwszą, fascynującą odpowiedź. I nie jest to kolejny chatbot.
W środę startup opublikował pierwszy wpis na swoim blogu badawczym, dumnie nazwanym “Connectionism”. Tekst autorstwa Horace’a He, jednego z badaczy, nosi tytuł “Pokonując niedeterminizm we wnioskowaniu LLM” i rzuca rękawicę jednemu z fundamentalnych założeń współczesnej AI. Okazuje się, że Thinking Machines Lab chce sprawić, by sztuczna inteligencja przestała… improwizować.
Dlaczego ChatGPT za każdym razem odpowiada inaczej?
Każdy, kto bawił się modelami językowymi, zna to zjawisko. Zadajesz to samo pytanie dwa, trzy, pięć razy i za każdym razem otrzymujesz nieco inną odpowiedź. Czasem różnice są kosmetyczne, a czasem fundamentalne. W branży przyjęło się to traktować jako cechę, a nie wadę – “kreatywność” maszyny. Ten brak powtarzalności, nazywany technicznie niedeterminizmem, jest jednak zmorą dla naukowców, inżynierów i firm, które potrzebują od AI niezawodności i przewidywalności. Trudno budować krytyczne systemy na fundamencie, który za każdym razem lekko się trzęsie.
Do tej pory większość ekspertów wzruszała ramionami. Taka już uroda tych systemów. Zawsze będzie w nich element losowości. Cóż, Thinking Machines Lab uważa inaczej. I twierdzi, że wie, gdzie leży problem.
Jak startup Murati chce to naprawić?
Według Horace’a He, całe zamieszanie nie wynika z natury samych modeli, ale ze sposobu, w jaki małe programy – zwane jądrami (kernels) – są orkiestrowane na chipach graficznych Nvidii podczas procesu inferencji. Inferencja to wszystko, co dzieje się po tym, jak wciśniesz “enter” w ChacieGPT. To właśnie tam, na najniższym poziomie sprzętowym, pojawia się chaos, który sprawia, że wynik końcowy jest nieprzewidywalny. He sugeruje, że poprzez ostrożne kontrolowanie tej warstwy orkiestracji, można zmusić modele do generowania identycznych odpowiedzi na identyczne zapytania. Za każdym razem.
To odważna teza, bo podważa status quo. Jeśli to prawda, nieprzewidywalność AI nie jest jej immanentną cechą, a jedynie problemem inżynieryjnym do rozwiązania. A rozwiązanie go otwiera zupełnie nowe możliwości. Bardziej wiarygodne odpowiedzi dla przedsiębiorstw, powtarzalne wyniki dla naukowców i, co być może najważniejsze, znacznie wydajniejszy trening AI.
Czy to tylko nauka, czy już biznes warty 12 miliardów?
I tu dochodzimy do sedna. Uzyskanie powtarzalnych odpowiedzi mogłoby radykalnie usprawnić proces uczenia przez wzmacnianie (Reinforcement Learning, RL). To technika, w której model jest nagradzany za poprawne odpowiedzi. Jeśli jednak za każdym razem odpowiedzi są nieco inne, dane treningowe stają się “zaszumione”. Stabilne wyniki uczyniłyby cały proces “gładszym” i efektywniejszym. A to kluczowe, bo jak wcześniej donosił portal The Information, Thinking Machines Lab planuje wykorzystać właśnie RL do tworzenia niestandardowych modeli AI dla biznesu.
Mamy więc pierwszy element układanki. Startup Murati nie tylko prowadzi przełomowe badania – on buduje fundament pod swój pierwszy produkt, który ma zostać zaprezentowany “w nadchodzących miesiącach”. Jednocześnie firma deklaruje otwartość i chęć dzielenia się kodem i wynikami, co stanowi wyraźny kontrast wobec coraz bardziej zamkniętej postawy OpenAI. Prawdziwym testem będzie jednak to, czy Thinking Machines Lab zdoła przekuć tę fascynującą teorię w działające produkty. Produkty, które uzasadnią wycenę na 12 miliardów dolarów i udowodnią, że można poskromić chaos w sercu AI.