Anthropic Opus 4.5: Rekord w kodowaniu i 'nieskończony czat'

Anthropic rzuca wyzwanie rywalom, prezentując Opus 4.5. Nowy model jako pierwszy w historii złamał barierę 80% w teście kodowania i oferuje ‘nieskończony czat’.

W skrócie:

Opus 4.5 jako pierwszy model przekroczył 80% w benchmarku kodowania SWE-Bench, wyznaczając nowy standard w branży i rzucając wyzwanie rywalom z OpenAI i Google.
Firma wprowadza funkcję “endless chat”, która dzięki ulepszonemu zarządzaniu pamięcią pozwala na prowadzenie nieprzerwanych rozmów, nawet po przekroczeniu okna kontekstowego.
Równolegle z modelem debiutują rozszerzenia Claude for Chrome i Claude for Excel, które integrują zaawansowane możliwości AI bezpośrednio z popularnymi aplikacjami.

Wyścig zbrojeń w świecie sztucznej inteligencji nie zwalnia ani na sekundę. Kiedy wydawało się, że po niedawnych premierach GPT‑5.1 od OpenAI i Gemini 3 od Google na rynku zapanuje chwilowy spokój, na scenę wkracza Anthropic. I robi to z hukiem. W poniedziałek firma zaprezentowała Opus 4.5, najnowszą i najpotężniejszą wersję swojego flagowego modelu. To precyzyjnie wymierzona odpowiedź, która w kilku kluczowych obszarach może zawstydzić konkurencję.

Jak Opus 4.5 przepisuje zasady gry w kodowaniu?

Liczby rzadko kłamią, a ta jedna jest szczególnie wymowna. Opus 4.5 jest pierwszym w historii modelem AI, który uzyskał wynik powyżej 80% w SWE-Bench, jednym z najbardziej szanowanych i wymagających testów umiejętności programistycznych. To nie jest syntetyczny teścik z teorii algorytmów. SWE-Bench sprawdza zdolność AI do rozwiązywania realnych problemów inżynierii oprogramowania, prosto z repozytoriów na GitHubie. Oznacza to, że model potrafi analizować zgłoszenia błędów, rozumieć istniejący kod i proponować działające poprawki.

Przekroczenie tej bariery to coś więcej niż cyferka w tabeli. To sygnał, że przechodzimy od AI, które jest co najwyżej glorifikowanym generatorem fragmentów kodu, do systemów, które mogą pełnić rolę kompetentnego asystenta programisty. Konkurencja otrzymała właśnie bardzo wysoko zawieszoną poprzeczkę – i to w dziedzinie, która napędza rozwój całej branży technologicznej.

AI, które nigdy nie zapomina? Tajemnica “nieskończonego czatu”

Jedną z najbardziej frustrujących cech chatbotów AI było dotąd ograniczone okno kontekstowe. Każdy, kto prowadził dłuższą rozmowę, zna ten ból, gdy model nagle “zapomina” o czym była mowa na początku. Anthropic postanowił rozwiązać ten problem raz na zawsze, wprowadzając funkcję “endless chat” dla płacących użytkowników Claude.

Mechanizm działa w tle – gdy rozmowa zbliża się do limitu kontekstu, model inteligentnie kompresuje swoją pamięć, zachowując najważniejsze informacje bez przerywania interakcji. To zasługa fundamentalnych zmian w architekturze pamięci. *“Wprowadziliśmy ulepszenia w ogólnej jakości długiego kontekstu podczas trenowania Opus 4.5, ale same okna kontekstowe nie wystarczą”* – powiedziała TechCrunch Dianne Na Penn, szefowa działu zarządzania produktem w Anthropic. *“Wiedza o tym, które szczegóły należy zapamiętać, jest naprawdę ważna jako uzupełnienie dłuższego okna kontekstowego.”* To subtelna, ale kluczowa różnica: zamiast większej pamięci, dostajemy pamięć mądrzejszą.

Czy Claude w Excelu to koniec ręcznej analizy danych?

Nawet najpotężniejszy model jest bezużyteczny, jeśli nie da się go zastosować w praktyce. Anthropic doskonale to rozumie, dlatego wraz z premierą Opus 4.5 szerzej udostępnia narzędzia, które do tej pory znajdowały się w fazie pilotażowej. Mowa o Claude for Chrome oraz Claude for Excel. Pierwsze rozszerzenie trafi do wszystkich użytkowników planu Max, a integracja z arkuszem kalkulacyjnym będzie dostępna dla klientów Max, Team i Enterprise.

To ruch, który ma potencjał zdemokratyzować zaawansowaną analitykę. Zamiast pisać skomplikowane formuły, użytkownik będzie mógł poprosić AI wprost: “znajdź trzy najważniejsze trendy sprzedaży w ostatnim kwartale i stwórz ich wizualizację”. To przeniesienie ciężaru z technicznej wiedzy o obsłudze narzędzia na umiejętność zadawania właściwych pytań. A to już zupełnie inna para kaloszy.

Dyrygent orkiestry AI – czym są zastosowania agentowe?

Wszystkie te usprawnienia – od rekordów w kodowaniu po inteligentną pamięć – składają się na szerszą wizję. Anthropic nie buduje po prostu lepszego chatbota. Firma tworzy fundamenty pod tak zwane “zastosowania agentowe” (agentic use cases). W tym scenariuszu potężny model, jak Opus 4.5, pełni rolę dyrygenta lub menedżera projektu. Może on zlecać i koordynować pracę floty mniejszych, wyspecjalizowanych modeli (jak Haiku) w celu wykonania złożonych, wieloetapowych zadań.

*“To tutaj fundamenty takie jak pamięć stają się naprawdę ważne”* – dodaje Penn. *“Ponieważ Claude musi być w stanie eksplorować bazy kodu i duże dokumenty, a także wiedzieć, kiedy się cofnąć i coś ponownie sprawdzić.”* Taka architektura pozwala na rozwiązywanie problemów, które wykraczają poza możliwości pojedynczego modelu. To przyszłość, w której AI nie tylko odpowiada na pytania, ale samodzielnie realizuje projekty. A Opus 4.5 jest właśnie mózgiem tej operacji.

Anthropic rzuca rękawicę OpenAI. Nowy Opus 4.5 łamie rekordy w kodowaniu i wprowadza “nieskończony czat”

Jak Opus 4.5 przepisuje zasady gry w kodowaniu?

AI, które nigdy nie zapomina? Tajemnica “nieskończonego czatu”

Czy Claude w Excelu to koniec ręcznej analizy danych?

Dyrygent orkiestry AI – czym są zastosowania agentowe?

Piotr Szymański

Warto przeczytać też:

AI pogłębia rasizm? Eksperci z Berkeley ujawniają mroczną stronę algorytmów

Koniec ery programistów? “Nie napisałem linijki kodu od grudnia” – mówi inżynier od AI

Ekspert ostrzega: “Wielu zbankrutuje”. Ceny RAM i SSD to dopiero początek

Sztuczna inteligencja prześwietli twój głos. Koniec z CV i rozmowami o pracę?

AI od prezentacji zgarnia 30 milionów dolarów! Zobacz, na co je wyda

Czat to za mało. OpenAI ujawnia swój prawdziwy plan, a za wszystkim stoi jeden człowiek