Aplikacje AI obiecują usunąć obcy akcent, oferując awans społeczny i koniec dyskryminacji. Czy to jednak cyfrowe wybielanie, które odbiera nam tożsamość?
W skrócie:
- Aplikacje takie jak BoldVoice wykorzystują AI do analizy mowy i proponują ćwiczenia, które mają “zneutralizować” obcy akcent, zbliżając go do wzorca native speakera.
- Technologia budzi skrajne emocje – z jednej strony jest postrzegana jako narzędzie walki z dyskryminacją, z drugiej zaś jako forma “cyfrowego wybielania” i unifikacji.
- Problem jest głębszy niż technologia. Badania potwierdzają istnienie “hierarchii prestiżu akcentów”, a historia zna przypadki, gdy sposób wymowy decydował o życiu lub śmierci.
Wszystko zaczęło się, jak to często bywa, od reklamy na Instagramie. “Nikt ci tego nie powie, jeśli jesteś imigrantem, ale dyskryminacja ze względu na akcent to realny problem” – mówiła kobieta z delikatnym, wschodnioeuropejskim akcentem. Reklamowała BoldVoice, aplikację napędzaną sztuczną inteligencją, która obiecuje “trening akcentu”. To obietnica, która dla milionów ludzi na świecie nie jest technologiczną fanaberią, lecz szansą na przełamanie niewidzialnej bariery. Jednym z tych, którzy postanowili ją sprawdzić, był Sheon Han, koreański pisarz i programista mieszkający od dekady w USA. Jego angielski jest nie tylko płynny, jest “hiperpłynny”, a słownictwo znacznie przewyższa amerykańską średnią. Mimo to wciąż nie brzmi jak “native”.
Czy AI może sprawić, że zabrzmisz jak Amerykanin?
Aplikacja BoldVoice przywitała Hana narzędziem o nazwie “Wyrocznia Akcentu” (Accent Oracle), która po wysłuchaniu jednej frazy bezbłędnie stwierdziła: “Mój przyjacielu, twój akcent jest koreański”. Werdykt był trafny, ale i nieco arogancki. Algorytm działał dalej, oceniając jego wymowę raz na 89% (“Lekko akcentowany”), a innym razem na 92% (“Natywny lub prawie natywny”). Ta niewielka, ale niepokojąca rozbieżność uświadomiła mu, jak cienka jest granica. Jak sam napisał, nawiązując do mrocznych kart historii: “W zły dzień mógłbym zostać zarżnięty”. To nie jest przesada. W Księdze Sędziów plemię Gileadczyków używało słowa “szybolet”, by identyfikować i zabijać Efraimitów, którzy nie potrafili wymówić dźwięku “sz”. W 1937 roku dominikański dyktator Rafael Trujillo rozkazał zamordować każdego Haitańczyka, który nie był w stanie poprawnie wymówić hiszpańskiego słowa perejil (pietruszka). Stawka jest więc wyższa, niż mogłoby się wydawać.
Dyskryminacja, której nikt nie widzi, ale każdy słyszy
Sposób, w jaki mówimy, często zdradza więcej niż treść naszych słów – pochodzenie, klasę społeczną, wykształcenie. W większości społeczeństw fonetyczne mistrzostwo staje się formą kapitału społecznego. Firmy takie jak Krisp i Sanas już sprzedają oprogramowanie do “neutralizacji” akcentu w czasie rzeczywistym, skierowane głównie do pracowników call center. Głos agenta z Filipin może zostać w locie przetworzony tak, by brzmiał bardziej swojsko dla klienta z Ohio. Krytycy natychmiast określili to mianem “cyfrowego wybielania” (digital whitewashing) i kapitulacji przed imperialnym, monolitycznym modelem angielszczyzny. Jednak takie uproszczenie jest mylące. W jednym z wątków na Hacker News ktoś napisał: “Wolałbym dążyć do świata, w którym akcenty mają mniejsze znaczenie, niż je naprawiać”. Han ripostuje, że to typowy, pełen hipokryzji frazes kogoś, kto jest native speakerem lub celowo ignoruje codzienne upokorzenia, jakich doświadczają imigranci. Powiedzcie to Koreańczykom, którzy nawigują po zdradliwej fonetycznej przepaści między beach a bitch.
Pygmalion 2.0 czy narzędzie opresji?
Modulowanie mowy dla osiągnięcia korzyści społecznych nie jest niczym nowym. Wystarczy przypomnieć sobie Pygmaliona George’a Bernarda Shawa, gdzie profesor Higgins przekształca prostacki akcent Elizy Doolittle, otwierając jej drzwi do wyższych sfer. Nawet wybitny niemiecki filozof Johann Gottlieb Fichte porzucił swój saksoński akcent, obawiając się, że nikt nie potraktuje go poważnie, jeśli będzie brzmiał jak wieśniak. To nie relikt przeszłości. Brytyjskie badanie z 2022 roku wykazało, że “hierarchia prestiżu akcentów” wciąż istnieje i niewiele zmieniła się od 1969 roku. Co czwarty pracownik zgłosił jakąś formę dyskryminacji ze względu na akcent w miejscu pracy. Zjawisko jest więc realne, a technologia AI po prostu na nie odpowiada. Pytanie brzmi, czy oferuje rozwiązanie, czy raczej utrwala problem, zmuszając wszystkich do dostosowania się do jednego, uprzywilejowanego wzorca?
Głos jako wokalny odcisk palca
Dlaczego w ogóle mamy akcenty? Fonemy, czyli podstawowe jednostki dźwięku, nie przekładają się idealnie między językami. Angielski ma ich około 44, koreański 40, ale wiele z nich gubi się w tłumaczeniu. Po diagnozie BoldVoice wskazał Hanowi jego główne problemy: dźwięk “th”, bezdźwięczność ostatniej spółgłoski (np. wymawianie “did” jak “dit”) oraz skracanie samogłoski “ee” w słowach takich jak “seat”. Aplikacja zaleciła mu powtarzanie do telefonu fraz “think, thought, thirty”. Po trzech lekcjach zrezygnował. Upokorzenie związane z siedzeniem w domu i mamrotaniem do smartfona było zbyt absurdalne. Co więcej, uświadomił sobie, co może stracić. Jego akcent, choć niedoskonały, przez lata stał się częścią jego tożsamości – “dźwiękowym skrótem, który telegrafuje, kim jestem”. Wygładzenie ostatnich “obcych” krawędzi w jego mowie oznaczałoby wymazanie wokalnego odcisku palca, który czyni go rozpoznawalnym. Ostatecznie przyznaje jednak, że dla innych – jak dla współzałożycielki BoldVoice, albańskiej imigrantki – takie narzędzie może być bezcenne. Nigdy nie wiadomo, kiedy ktoś poprosi nas o wymówienie słowa “pietruszka”.