Twórcy ChatGPT pracują nad nową AI do generowania muzyki. W proces tworzenia danych treningowych zaangażowano studentów prestiżowej Juilliard School w Nowym Jorku.
W skrócie:
- OpenAI rozwija model sztucznej inteligencji do tworzenia muzyki na podstawie poleceń tekstowych oraz sampli audio, np. ścieżek wokalnych.
- W procesie tworzenia danych treningowych biorą udział studenci z elitarnej Juilliard School, którzy m.in. komentują i opisują partytury muzyczne.
- Projekt stawia czoła konkurencji ze strony Suno i ElevenLabs, jednocześnie budząc obawy o prawa autorskie i zalew platform streamingowych spamem AI.
OpenAI, firma, która sprawiła, że o sztucznej inteligencji rozmawiamy przy rodzinnym obiedzie, ponownie stroi instrumenty. Tym razem cel jest niezwykle ambitny – i potencjalnie wybuchowy. Chodzi o narzędzie, które ma zdemokratyzować tworzenie muzyki. A przynajmniej tak to wygląda na papierze. Każdy, kto kiedykolwiek marzył o karierze kompozytora, ale zatrzymał się na etapie “Stairway to Heaven” na zakurzonej gitarze, może dostać swoją szansę. Pytanie, jakim kosztem.
Firma, która dała światu ChatGPT i kontrowersyjną Sorę, teraz pracuje nad modelem AI zdolnym do generowania muzyki. Doniesienia mówią o systemie, który reaguje na polecenia tekstowe i próbki dźwiękowe. Wyobraźmy sobie scenariusz: nagrywasz smartfonem linię wokalną, a AI w kilka chwil tworzy do niej profesjonalnie brzmiący akompaniament gitarowy. Albo prosisz o “smutną, filmową ścieżkę dźwiękową w stylu Hansa Zimmera z elementami synthwave” i dostajesz gotowy podkład do swojego wideo na YouTube. Brzmi jak utopia dla twórców. A może jak dystopia dla muzyków?
Co wiemy o muzycznym projekcie OpenAI?
Na razie szczegóły są skąpe, ale jeden element wyróżnia ten projekt na tle innych. OpenAI zaangażowało do współpracy studentów z The Juilliard School – jednej z najbardziej prestiżowych uczelni artystycznych na świecie. To nie jest przypadkowy ruch. Ich zadaniem jest m.in. komentowanie i opisywanie partytur, co sugeruje, że model jest trenowany nie tylko na surowych plikach audio, ale na formalnym zapisie nutowym.
To kluczowa różnica. Zamiast uczyć AI “brzmienia” muzyki, OpenAI próbuje nauczyć ją jej “języka” – struktury, harmonii, rytmiki i relacji między poszczególnymi instrumentami. To podejście, które może dać firmie ogromną przewagę nad konkurencją, taką jak Suno czy ElevenLabs, których generatory, choć imponujące, często opierają się na bardziej powierzchownym naśladowaniu wzorców dźwiękowych.
Dyrygent, kompozytor czy… bezduszny plagiator?
Każda rewolucja technologiczna ma swoje ofiary, a w tym przypadku na pierwszej linii frontu stoją prawa autorskie i etyka. Rynek już teraz zmaga się z problemem spamu AI na platformach streamingowych. Spotify i Apple Music są zalewane tysiącami generycznych utworów, które zaśmiecają algorytmy i utrudniają odkrywanie prawdziwych artystów. Nowe, potężne narzędzie od OpenAI może tylko spotęgować ten chaos.
Pojawiają się też fundamentalne pytania. Na jakich danych trenowany jest model? Czy OpenAI posiada licencje na wykorzystywane partytury i nagrania? Co, jeśli AI wygeneruje utwór łudząco podobny do istniejącego hitu? Firma nie ma w tej kwestii czystej karty. Głośna premiera modelu wideo Sora pokazała, że OpenAI stosuje strategię “wypuść produkt, a o konsekwencje martw się później”. Twórcy i wytwórnie muzyczne mają pełne prawo patrzeć na te zapowiedzi z głęboką nieufnością.
Dlaczego partytura ma większe znaczenie niż myślisz?
Współpraca z Juilliard to coś więcej niż chwyt marketingowy. To deklaracja, że celem jest jakość i muzyczna “inteligencja”, a nie tylko masowa produkcja dźwięków. Model, który rozumie teorię muzyki, może stać się potężnym narzędziem w rękach profesjonalistów – kompozytorów filmowych, producentów czy projektantów dźwięku. Zamiast zastępować człowieka, mógłby stać się rodzajem zaawansowanego asystenta, który pomaga w aranżacji, harmonizacji czy eksplorowaniu nowych pomysłów.
Taki model mógłby uchwycić niuanse frazowania, dynamiki i artykulacji – elementy, które odróżniają muzykę od zwykłego hałasu. To właśnie ten nacisk na fundamentalną strukturę muzyczną może okazać się tajną bronią OpenAI. Zamiast tworzyć kolejne narzędzie-zabawkę, firma może dostarczyć coś, co faktycznie przyda się w procesie twórczym, oferując kontrolę nad kompozycją na poziomie niedostępnym dla obecnych generatorów. Oczywiście, pod warunkiem, że uda się rozwiązać gordyjski węzeł problemów prawnych i etycznych. A z tym bywa różnie.