Inception: modele dyfuzyjne AI rzucają wyzwanie GPT

Startup Inception zebrał 50 mln dolarów na rozwój modeli dyfuzyjnych. Technologia, wspierana przez Nvidię i Microsoft, ma być szybsza i tańsza niż GPT.

W skrócie:

Startup Inception, kierowany przez profesora Stanforda Stefano Ermona, pozyskał 50 milionów dolarów w rundzie zalążkowej na rozwój modeli dyfuzyjnych AI.
Wśród inwestorów znaleźli się giganci tacy jak Microsoft, Nvidia i Snowflake, a także kluczowe postacie branży – Andrew Ng oraz Andrej Karpathy.
Nowy model firmy, Mercury, przeznaczony do tworzenia oprogramowania, ma oferować znacznie niższe opóźnienia i koszty obliczeniowe niż tradycyjne modele typu GPT.

W czasach, gdy pieniądze płyną do startupów AI szerokim strumieniem, posiadanie dobrego pomysłu i zespołu badawczego to niemal gwarancja sukcesu. Czasem jednak, by w pełni rozwinąć skrzydła, trzeba opuścić bezpieczne mury wielkich laboratoriów badawczych. Tą drogą poszedł Inception – startup rozwijający modele dyfuzyjne, który właśnie zamknął rundę zalążkową na astronomiczną kwotę 50 milionów dolarów. To historia o tym, jak alternatywne podejście do architektury AI przyciągnęło największych graczy na rynku.

Rundzie finansowania przewodził fundusz Menlo Ventures, ale lista uczestników wygląda jak Who is Who branży technologicznej: Mayfield, Innovation Endeavors, fundusz M12 od Microsoftu, Snowflake Ventures, Databricks Investment oraz NVentures – czyli ramię inwestycyjne Nvidii. Jakby tego było mało, swoje prywatne środki dołożyli Andrew Ng i Andrej Karpathy. A to – co tu dużo mówić – nie są nazwiska, które inwestują w cokolwiek.

Jak działają modele dyfuzyjne i czym różnią się od GPT?

Mózgiem operacji jest profesor Stanforda Stefano Ermon, którego badania od lat koncentrują się na modelach dyfuzyjnych. To technologia, którą większość z nas kojarzy z generatorów obrazów takich jak Stable Diffusion, Midjourney czy Sora. Zamiast generować wynik sekwencyjnie – słowo po słowie, jak robią to modele autoregresyjne (np. GPT) – modele dyfuzyjne działają bardziej holistycznie. Modyfikują całą strukturę odpowiedzi w iteracyjnych krokach, aż osiągną pożądany rezultat. To trochę jak rzeźbiarz, który stopniowo nadaje kształt bryle materiału, zamiast doklejać do niej kolejne fragmenty.

Panująca na rynku mądrość nakazuje używać modeli autoregresyjnych do zadań tekstowych i podejście to przyniosło spektakularne sukcesy. Jednak coraz więcej badań wskazuje, że modele dyfuzyjne mogą działać lepiej przy przetwarzaniu dużych ilości tekstu lub gdy kluczowe stają się ograniczenia obliczeniowe. Ermon twierdzi, że te cechy stają się decydującą przewagą podczas operacji na ogromnych bazach kodu.

Dlaczego Nvidia i Microsoft uwierzyły w ten projekt?

Odpowiedź jest prosta i składa się z dwóch słów: szybkość i wydajność. Modele dyfuzyjne oferują znacznie większą elastyczność w wykorzystaniu sprzętu, co staje się kluczowe w momencie, gdy zapotrzebowanie na moc obliczeniową AI rośnie w postępie geometrycznym. Podczas gdy modele takie jak GPT muszą wykonywać operacje jedna po drugiej, architektura dyfuzyjna pozwala na równoległe przetwarzanie wielu zadań. Efekt? Drastyczne skrócenie czasu odpowiedzi (latencji).

Stefano Ermon nie rzuca słów na wiatr. “Osiągnęliśmy w testach porównawczych ponad 1000 tokenów na sekundę, co jest wynikiem znacznie przewyższającym wszystko, co jest możliwe przy użyciu istniejących technologii autoregresyjnych” – mówi. “Nasze rozwiązanie jest zbudowane z myślą o równoległości. Jest zbudowane, by być naprawdę, naprawdę szybkie”. Ta obietnica – poparta solidnymi badaniami – wystarczyła, by przekonać do inwestycji firmy, które same tworzą fundamenty współczesnej rewolucji AI.

Czy to początek końca dominacji wielkich modeli językowych?

Inception nie czeka z założonymi rękami na rozwój wypadków. Wraz z ogłoszeniem finansowania firma udostępniła nową wersję swojego modelu Mercury, zaprojektowanego specjalnie z myślą o programistach. Został on już zintegrowany z kilkoma narzędziami deweloperskimi, takimi jak ProxyAI, Buildglare i Kilo Code. To pokazuje, że nie jest to jedynie akademicki eksperyment, ale produkt gotowy do komercyjnego wdrożenia.

Trudno jeszcze mówić o końcu dominacji architektur znanych z modeli OpenAI czy Google. Wszystko wskazuje jednak na to, że rynek AI staje się bardziej zróżnicowany. Zamiast jednego, uniwersalnego modelu do wszystkiego, będziemy świadkami powstawania wyspecjalizowanych narzędzi, które rozwiązują konkretne problemy w sposób bardziej efektywny. A modele dyfuzyjne, dzięki swojej szybkości i niższym kosztom, mają ogromną szansę zająć w tym nowym ekosystemie bardzo ważną pozycję.

Profesor ze Stanforda rzuca wyzwanie OpenAI. Jego AI jest “znacznie szybsza” i właśnie pozyskał 50 mln dolarów

Jak działają modele dyfuzyjne i czym różnią się od GPT?

Dlaczego Nvidia i Microsoft uwierzyły w ten projekt?

Czy to początek końca dominacji wielkich modeli językowych?

Jakub Majewski

Warto przeczytać też:

Cały świat nabrał się na jego filmy. Ten Chińczyk udaje AI lepiej niż samo AI

AI tworzy hity, a artyści protestują. Suno zarabia 300 milionów dolarów!

Meta odpala nowy gigantyczny projekt. Miliony małych firm dostaną wsparcie AI

ChatGPT powie ci, jaka jest pogoda. Koniec skakania między oknami

UE idzie na zwarcie z Google. Chodzi o trenowanie AI na cudzych treściach bez zgody i zapłaty

Harvey AI warte 8 miliardów dolarów. Zaczęło się od zimnego maila do Sama Altmana