Skip to content Skip to sidebar Skip to footer

Głos z AI brzmi jak on. Słynny radiowiec idzie na wojnę z Google!

Znany radiowiec David Greene oskarża Google, że ich narzędzie NotebookLM bezprawnie skopiowało jego głos. Spór pokazuje, jak cienka jest granica między inspiracją a kradzieżą.

W skrócie:

  • David Greene, były gospodarz NPR, twierdzi, że głos w aplikacji Google NotebookLM odtwarza jego unikalny styl mówienia, intonację i kadencję.
  • Narzędzie potrafi generować podcasty na podstawie dostarczonych dokumentów, a jeden z syntetycznych głosów brzmi niepokojąco podobnie do dziennikarza.
  • Google stanowczo zaprzecza zarzutom, twierdząc, że głos został nagrany przez opłaconego aktora i nie ma żadnego związku z Greene’em.

Wyobraź sobie, że pewnego dnia dostajesz maila od dawnego współpracownika. Pyta, czy sprzedałeś swój głos technologicznej korporacji. Brzmi jak scenariusz odcinka Black Mirror? Dla Davida Greene’a, wieloletniego gospodarza kultowej audycji “Morning Edition” w radiu NPR, to nowa, niepokojąca rzeczywistość. Spór z Google o głos w narzędziu NotebookLM nie jest tylko kolejną prawniczą batalią. To opowieść o tym, gdzie kończy się algorytm, a zaczyna człowiek. I o tym, jak łatwo można stracić kontrolę nad czymś tak osobistym jak własna barwa głosu.

Skąd wziął się ten głos w mojej aplikacji?

Wszystko zaczęło się niewinnie. Były kolega z pracy napisał do Greene’a z prostym pytaniem: czy pozwolił Google’owi na wykorzystanie swojego głosu? Powód? Nowa funkcja w aplikacji NotebookLM – Audio Overviews – generowała męski głos, który łudząco go przypominał. Jak donosi The Washington Post, wkrótce podobne sygnały zaczęły napływać od innych znajomych. To nie była tylko kwestia podobnego brzmienia. Narzędzie miało replikować jego charakterystyczną kadencję, specyficzną intonację i nawet drobne, nieświadome wtrącenia, które przez lata stały się jego wizytówką.

Greene podkreśla, że głos to dla niego coś więcej niż narzędzie pracy. To fundamentalny element tożsamości. “Głos jest dla mnie elementem tożsamości, a nie tylko brzmieniem, które da się bezkosztowo skopiować” – mówił. Tutaj konflikt wchodzi na zupełnie inny poziom. Nie chodzi już tylko o potencjalne straty finansowe, ale o kontrolę nad własnym wizerunkiem i reputacją. W czyich materiałach i w jakim kontekście pojawi się głos, który tysiące słuchaczy kojarzą z konkretną osobą? Tego typu pytania stają się kluczowe, gdy technologia syntezy mowy wkracza do masowego użytku.

Jak działa podcast od Google, który tworzy się sam?

NotebookLM to, w dużym uproszczeniu, inteligentny notatnik. Możesz “nakarmić” go swoimi dokumentami, notatkami czy plikami, a on pomoże ci je zrozumieć i uporządkować. Jego funkcja Audio Overviews idzie o krok dalej. Potrafi przetworzyć dostarczone materiały w gotowe nagranie audio, które brzmi jak rozmowa dwóch prowadzących. Taki podcast na zawołanie. Problem w tym, że jeden z męskich głosów w tej konwersacji – według Greene’a i jego otoczenia – to jego cyfrowy bliźniak.

Co ciekawe, wcale nie musi to być kopia jeden do jednego. Wystarczy, że algorytm uchwyci esencję stylu mówienia, by odbiorcy poczuli, że mają do czynienia z kimś znajomym. W świecie audio, gdzie autentyczność i zaufanie są walutą, takie wrażenie ma ogromne znaczenie. To pokazuje, jak szybko narzędzia do syntezy mowy wchodzą w delikatny obszar prawa do wizerunku, a w tym przypadku – prawa do własnego, unikalnego głosu. To już nie jest science fiction.

Czy to nowa afera w stylu Scarlett Johansson?

Google, co było do przewidzenia, twardo odpiera zarzuty. Firma utrzymuje, że głos w NotebookLM należy do profesjonalnego aktora głosowego, który otrzymał za swoją pracę wynagrodzenie. Według oficjalnego stanowiska model nie był trenowany na nagraniach Davida Greene’a. Tyle że rynek pamięta niedawną potyczkę między Scarlett Johansson a OpenAI. Wówczas jeden z głosów w ChatGPT, nazwany Sky, brzmiał tak podobnie do aktorki (znanej z roli systemu AI w filmie Her), że wywołało to globalną burzę. OpenAI ostatecznie wycofało głos, pomimo tego, że również zaprzeczało celowemu kopiowaniu.

Przypadek Greene’a jest sygnałem ostrzegawczym dla całej branży. Nawet jeśli firma nie trenuje modelu na danych konkretnej osoby, subiektywne odczucie użytkowników może wystarczyć, by wywołać kryzys wizerunkowy i kosztowne postępowanie sądowe. Dla twórców, lektorów, aktorów i dziennikarzy to ważna lekcja. Głos staje się zasobem cyfrowym, który wymaga takiej samej ochrony prawnej jak nazwisko, twarz czy autorski format programu. Wygląda na to, że prawnicy specjalizujący się w AI będą mieli w najbliższych latach pełne ręce roboty.