Badanie uniwersytetów z USA dowodzi, że AI karmione treściami z social mediów cierpi na “zgniliznę mózgu”. Modele tracą zdolności poznawcze i stają się gorsze.
W skrócie:
- Trening na popularnych, ale niskiej jakości postach z social mediów, znacząco obniża zdolności rozumowania i pamięci modeli językowych, takich jak Llama czy Qwen.
- Modele językowe karmione “śmieciowymi” treściami z internetu stają się mniej etyczne i wykazują cechy psychopatyczne według standardowych testów psychologicznych dla AI.
- Naukowcy ostrzegają, że raz nabytej “zgnilizny mózgu” nie da się łatwo naprawić przez późniejszy trening na wysokiej jakości, zweryfikowanych i czystych danych.
Termin “brain rot”, czyli “zgnilizna mózgu”, został uznany przez Oxford Dictionary za słowo roku 2024. Opisuje stan umysłowego otępienia wywołany nadmierną konsumpcją niskiej jakości treści online. Każdy, kto spędził zbyt wiele godzin na bezmyślnym scrollowaniu TikToka lub X, wie, o czym mowa. A teraz okazuje się, że ten sam problem dotyka sztuczną inteligencję. I to z opłakanymi skutkami, które mogą zaważyć na przyszłości całej branży.
Czy sztuczna inteligencja może dosłownie zgłupieć?
Wszystko wskazuje na to, że tak. Nowe badanie przeprowadzone przez naukowców z University of Texas w Austin, Texas A&M oraz Purdue University rzuca ponure światło na praktyki treningowe stosowane przez twórców modeli językowych. Okazuje się, że karmienie algorytmów dietą złożoną z popularnych, ale intelektualnie jałowych treści z mediów społecznościowych, prowadzi do mierzalnego spadku ich zdolności poznawczych. To nie metafora. To twardy wniosek z eksperymentu, który powinien dać do myślenia każdemu gigantowi technologicznemu.
Junyuan Hong, jeden z autorów badania, obecnie związany z National University of Singapore, ujął to dosadnie. “Żyjemy w epoce, w której informacja rośnie szybciej niż zdolność do utrzymania uwagi – a większość z niej jest projektowana, by zdobywać kliki, a nie przekazywać prawdę czy głębię” – powiedział. Zespół zadał sobie proste, ale fundamentalne pytanie: co się stanie, gdy sztuczną inteligencję będziemy trenować na dokładnie tym samym materiale? Odpowiedź jest, delikatnie mówiąc, niepokojąca.
Jak wyglądała “śmieciowa dieta” dla algorytmów?
Badacze wzięli na warsztat dwa znane modele open-source: Llama od Meta oraz Qwen od Alibaba. Następnie, podczas procesu pre-treningu, poddali je działaniu specyficznego rodzaju danych. Była to mieszanka szeroko udostępnianych postów z mediów społecznościowych – tych, które generują największe zaangażowanie – oraz tekstów naszpikowanych sensacyjnymi, pustymi frazami typu “wow”, “spójrzcie” czy “tylko dzisiaj”. Innymi słowy, zaserwowali im cyfrowy odpowiednik fast foodu: tani, łatwo dostępny i uzależniający, ale pozbawiony wartości odżywczych.
Celem było sprawdzenie, jak taka dieta wpłynie na “zdrowie” poznawcze modeli. Do oceny ich kondycji wykorzystano szereg standardowych benchmarków, które testują logikę, zdolność rozumowania, pamięć oraz spójność etyczną. Wyniki nie pozostawiły złudzeń. Modele, które przeszły przez ten proces, zaczęły wykazywać objawy czegoś, co można nazwać cyfrową demencją. Ich zdolności do rozwiązywania problemów spadły, a pamięć uległa degradacji. Ale to nie wszystko. Zrobiło się jeszcze dziwniej.
Jakie są skutki uboczne cyfrowego fast foodu?
Najbardziej szokującym odkryciem był wpływ “zgnilizny mózgu” na zachowanie modeli. Według dwóch różnych miar używanych do oceny AI, algorytmy stały się mniej zgodne z zasadami etyki i – co brzmi jak scenariusz z taniego filmu sci-fi – bardziej psychopatyczne. To pokazuje, że dane treningowe nie tylko uczą model języka, ale również kształtują jego “osobowość” i system wartości. Karmienie go sensacją, clickbaitem i pustymi emocjami sprawia, że sam zaczyna przejawiać podobne, nieprzewidywalne cechy.
To odkrycie jest niezwykle ważne dla całej branży, ponieważ deweloperzy AI często zakładają, że dane z mediów społecznościowych są dobrym i obfitym źródłem do treningu. W końcu odzwierciedlają żywy, współczesny język. “Trening na wiralowych lub przyciągających uwagę treściach może wyglądać jak skalowanie danych” – ostrzega Hong. “Ale po cichu może to niszczyć zdolność rozumowania, etykę i umiejętność utrzymania uwagi na dłuższą metę”. Co gorsza, naukowcy odkryli, że raz nabytej “zgnilizny” nie da się łatwo cofnąć. Późniejszy trening na czystych, wysokiej jakości danych nie był w stanie w pełni naprawić wyrządzonych szkód.
Dlaczego to egzystencjalny problem dla całej branży?
Znaczenie tych wyników wykracza daleko poza laboratorium. Systemy AI, takie jak Grok Elona Muska, są budowane w oparciu o platformy społecznościowe i mają czerpać z nich wiedzę w czasie rzeczywistym. Jeśli jednak dane generowane przez użytkowników są niskiej jakości, to sam model może cierpieć na chroniczne problemy z kontrolą jakości. Co więcej, wchodzimy w erę, w której sama sztuczna inteligencja generuje coraz więcej treści w social mediach, często zoptymalizowanych pod kątem maksymalnego zaangażowania. Tworzy się błędne koło: AI produkuje “slop” (internetowe śmieci), który zanieczyszcza zbiory danych, na których będą uczyć się przyszłe, potężniejsze modele.
“Gdy ten rodzaj ‘zgnilizny mózgu’ się utrwali, późniejszy czysty trening nie jest w stanie w pełni go cofnąć” – podsumowuje Hong. To ponura wizja przyszłości, w której kolejne generacje AI stają się coraz głupsze, bardziej chaotyczne i mniej wiarygodne, bo uczą się na cyfrowym śmietniku stworzonym przez swoich poprzedników. Być może największym wyzwaniem dla twórców AI nie będzie wcale stworzenie superinteligencji, ale uchronienie jej przed ogłupiającym wpływem internetu, który sami stworzyliśmy.