OpenAI tworzy generator muzyki AI. Nowe narzędzie po DALL-E i Sora

OpenAI, twórca ChatGPT i Sory, pracuje nad generatorem muzyki z tekstu i audio. Nowe narzędzie ma tworzyć podkłady do wideo i akompaniamenty do istniejących wokali.

W skrócie:

Według doniesień OpenAI rozwija narzędzie do generowania muzyki na podstawie promptów tekstowych oraz istniejących ścieżek audio, co otwiera nowe możliwości dla twórców.
System mógłby być wykorzystywany do automatycznego dodawania ścieżek dźwiękowych do filmów lub tworzenia akompaniamentu, na przykład gitarowego, do nagranego wokalu.
Źródła wskazują, że firma współpracuje ze studentami prestiżowej Juilliard School, którzy pomagają w adnotacji partytur na potrzeby treningu modelu AI.

Cisza przed burzą w OpenAI najwyraźniej dobiegła końca. Po oszałamiającym debiucie modelu Sora, który zamienia tekst w wideo, firma Sama Altmana kieruje swoje moce przerobowe na kolejny bastion kreatywności – muzykę. Jak donosi portal The Information, powołując się na swoje źródła, w laboratoriach twórców ChatGPT powstaje narzędzie zdolne do generowania dźwięku. A to stawia całą, wciąż młodą, branżę muzycznego AI w stan najwyższej gotowości. Bo gdy OpenAI wchodzi do gry, reguły zwykle pisane są na nowo.

Nie jest to oczywiście pierwszy raz, gdy firma flirtuje z dźwiękiem. Wiele osób może pamiętać projekty takie jak Jukebox czy MuseNet, które już lata temu pokazywały potencjał generatywny. Tyle że to była inna epoka. Pre-ChatGPT. Czas, gdy modele językowe nie potrafiły jeszcze prowadzić płynnej konwersacji, a generowanie obrazów było ciekawostką dla garstki zapaleńców. Teraz stawka jest zupełnie inna, a OpenAI, uzbrojone w gigantyczne zasoby obliczeniowe i doświadczenie z transformatorami, może zaoferować coś znacznie potężniejszego.

Jak ma działać muzyczne AI od twórców ChatGPT?

Szczegóły techniczne projektu pozostają, jak to w OpenAI bywa, owiane tajemnicą. Jednak przecieki, na które powołuje się The Information, rzucają nieco światła na potencjalne zastosowania. Nowe narzędzie ma działać w oparciu o prompty tekstowe i – co znacznie ciekawsze – istniejące pliki audio. Użytkownik mógłby więc nie tylko poprosić o “smutną melodię fortepianową w stylu Chopina”, ale również wgrać ścieżkę wokalną i zlecić AI dogranie do niej akompaniamentu gitarowego. Albo podłożyć gotowy materiał wideo i poprosić o wygenerowanie do niego dynamicznej muzyki filmowej.

To funkcjonalności, które stawiają narzędzie OpenAI w bezpośredniej konkurencji z takimi graczami jak Suno AI czy Udio. Jednak potencjalna integracja z innymi produktami firmy, zwłaszcza z generatorem wideo Sora, otwiera zupełnie nowe horyzonty. Wyobraźmy sobie proces, w którym jednym poleceniem tworzymy nie tylko klip wideo, ale również jego kompletną, unikalną ścieżkę dźwiękową. To byłby prawdziwy przełom dla twórców treści, filmowców i marketerów, którzy dziś muszą polegać na bibliotekach z muzyką stockową lub zatrudniać kompozytorów. OpenAI może zaoferować im to wszystko w jednym, spójnym ekosystemie.

Skąd sztuczna inteligencja weźmie “muzykalność”?

Największym wyzwaniem w generowaniu muzyki przez AI nie jest technologia, lecz dane treningowe. Skąd wziąć gigantyczny, zróżnicowany i – co kluczowe – legalny zbiór muzyki, na którym można nauczyć model? Kwestie praw autorskich to pole minowe, o czym przekonali się już twórcy generatorów obrazów. OpenAI wydaje się podchodzić do tego problemu w sposób metodyczny i cokolwiek… akademicki. Jedno ze źródeł The Information twierdzi, że firma nawiązała współpracę ze studentami prestiżowej nowojorskiej uczelni artystycznej, The Juilliard School.

Ich zadaniem ma być adnotowanie partytur muzycznych, czyli dostarczanie modelowi precyzyjnych metadanych, które pomogą mu zrozumieć strukturę, harmonię i teorię muzyki. To podejście – oparte na głębokiej analizie formalnej, a nie tylko na “słuchaniu” milionów piosenek z YouTube – może dać narzędziu OpenAI przewagę jakościową. Zamiast chaotycznie zlepiać nuty, model mógłby “rozumieć” muzykę na znacznie głębszym poziomie. Pomijając już fakt, że współpraca z tak renomowaną instytucją to strzał w dziesiątkę wizerunkowo. Buduje wiarygodność i sugeruje, że firmie zależy na czymś więcej niż tylko na technicznej reprodukcji dźwięków.

OpenAI wraca do gry. Czy Suno i Google mają się czego bać?

W ostatnich latach OpenAI skupiało się głównie na modelach językowych (GPT) i wizualnych (DALL‑E, Sora), pozostawiając pole audio innym. Ten czas doskonale wykorzystały startupy takie jak Suno, które zyskały ogromną popularność, oferując proste i przystępne narzędzia do tworzenia piosenek. Również Google, ze swoim projektem MusicLM, pokazał, że ma w tej dziedzinie wiele do powiedzenia. Wejście OpenAI na ten rynek to sygnał, że okres inkubacji się skończył, a zaczyna się walka o dominację.

Na razie nie wiadomo, kiedy nowe narzędzie miałoby ujrzeć światło dzienne ani w jakiej formie będzie dostępne. Czy jako samodzielny produkt? A może jako nowa funkcja wbudowana w ChatGPT lub Sorę? Niezależnie od strategii, konkurencja ma powody do niepokoju. OpenAI dysponuje nie tylko technologią, ale też gigantyczną bazą użytkowników i rozpoznawalnością marki, która pozwala im z dnia na dzień uczynić z niszowej usługi globalny standard. Pytanie nie brzmi “czy”, ale “kiedy” ich muzyczne AI zmieni zasady gry. I kto na tej zmianie straci najwięcej.

OpenAI wchodzi w muzykę! Ujawnili pierwsze szczegóły narzędzia, które zmieni wszystko

Jak ma działać muzyczne AI od twórców ChatGPT?

Skąd sztuczna inteligencja weźmie “muzykalność”?

OpenAI wraca do gry. Czy Suno i Google mają się czego bać?

Jakub Majewski

Warto przeczytać też:

AI skraca pracę radiologów o 25%. Nowe badanie pokazuje potencjał w diagnostyce

Szef Nvidii ogłasza erę AGI, by po chwili sam w to zwątpić. O co tu chodzi?

OpenAI się wycofuje. Po fali krytyki przywraca GPT-4o

ChatGPT właśnie przeszedł rewolucję. Tę zmianę poczujesz od razu.

AI zjada prąd na Ziemi. Bezos i Musk mają plan: serwerownie w kosmosie!

Google Gemini z nową funkcją. “Na studiach dałbym się za nią pokroić”