Claude Sonnet 5 stigao agentske performanse bliske Opusu 4.8, cijena znatno niža

Anthropic je 30. juna objavio Sonnet 5, model koji prema benchmarkima dostiže ili premašuje Opus 4.8 na pojedinim zadacima, uz uvodni API pristup po cijeni od 2 dolara na milion ulaznih tokena. Opus 4.8 košta 5 dolara.

Claude Sonnet 5 stigao agentske performanse bliske Opusu 4.8, cijena znatno niža
Sadržaj

Anthropic je 30. juna objavio Claude Sonnet 5, model pozicioniran između Sonneta 4.6 i Opusa 4.8 po sposobnostima, ali po cijeni znatno ispod Opusa. Uvodni API pristup košta 2 dolara na milion ulaznih tokena (Opus 4.8 košta 5 dolara). Na nekim benchmarkima Sonnet 5 premašuje Opus 4.8. Postaje podrazumijevani model za Free i Pro korisnike na Claude.ai, dostupan je u Claude Codeu i na svim platformama. Za firme koje grade AI agente i automatizovane tokove rada, ovo je jedna od praktičnijih vijesti ovog mjeseca.

Dok su svi gledali prema Fable 5, Anthropic je tiho isporučio model koji će za mnoge firme biti važniji od bilo kojeg headline lansiranja.

Šta je Sonnet 5

Claude Sonnet 5 je Anthropicov novi model srednje klase, dizajniran posebno za agentne zadatke: planiranje, korištenje alata poput pregleda, terminala i autonomno izvršavanje višekroračnih zadataka.

Prethodne Sonnet generacije, bile su prve koje su pokazale impresivne agentske sposobnosti. U međuvremenu, jasni skokovi u ovoj oblasti dešavali su se u Opus klasi. Sonnet 5 sužava taj jaz.

Prema Anthropicovim riječima, sposobnošću je bliz Opusu 4.8, ali po nižoj cijeni.

Šta kažu konkretne performanse

Na Terminal-Bench 2.1 evaluaciji, Sonnet 5 postiže 80,4%, što nadmašuje Opus 4.8 na 74,6%. Na BrowseComp evaluaciji agentskih web pretraga, Sonnet 5 dostiže 84,7%. Na SWE-bench Pro softverskom inženjeringu postiže 63,2%, a na OSWorld evaluaciji korištenja računara 81,2%.

Na GDPval-AA v2 evaluaciji znanja, Sonnet 5 postiže 1.618 Elo bodova, u poređenju s Opusovim 1.615.

Kontekst: radi se o evaluacijama na kojima je Opus 4.8 do sada bio referentna tačka. Sonnet 5 na nekim od njih izlazi ispred.

Cijena koja mijenja računicu

Ovo je ono što je zaista relevantno za firme.

Opus 4.8 košta 5 dolara na milion ulaznih tokena i 25 dolara na milion izlaznih tokena.

Sonnet 5 u uvodnom periodu do 31. augusta košta 2 dolara na milion ulaznih tokena i 10 dolara na milion izlaznih tokena. Nakon toga ide na 3 dolara i 15 dolara.

To je 60% niža cijena u uvodnom periodu uz performanse koje na realnim poslovnim zadacima u velikom broju slučajeva ne zaostaju za Opusom.

Napomena: Sonnet 5 koristi ažurirani tokenizator koji pretvara isti tekst u otprilike 1,0 do 1,35 puta više tokena. Uvodno snižavanje cijene postavljeno je tako da je prelaz s Sonneta 4.6 na Sonnet 5 otprilike troškovnoneutralan.

Gdje i kako je dostupan

Od 30. juna, Sonnet 5 je podrazumijevani model za Free i Pro korisnike na Claude.ai. Dostupan je i Max, Team i Enterprise korisnicima, kao i u Claude Codeu i na Claude Platformi. API poziv ide kroz claude-sonnet-5 model ID. Kontekstni prozor iznosi milion tokena.

Sigurnosni profil

Anthropic navodi da Sonnet 5 ima nižu stopu halucinacija i servilnosti od Sonneta 4.6, te da je bolji u odbijanju zlonamjernih zahtjeva i otpornosti na prompt injection napade.

Na evaluacijama potencijalno opasnih kibernetičkih zadataka, kao što je razvoj eksploatacija ranjivosti, Sonnet 5 pokazuje znatno lošije performanse od Opusa 4.8 i Mythos 5. Nijedan od Sonnet modela nije uspio razviti funkcionalan exploit u testiranju. Sonnet 5 je lansiran s uključenim kibernetičkim klasifikatorima, ali manje restriktivnima nego Fable 5.

Naša perspektiva

Naziv Sonnet 5 asocira na manji korak, pogotovo u sedmici u kojoj svi prate Fable 5 i GPT-5.6. Pogrešno.

Ono što Sonnet 5 zapravo donosi je promjena u ekonomiji AI agenata. Dok je do sada za ozbiljne agentne zadatke trebao Opus 4.8 po cijeni od 5 dolara na milion ulaznih tokena, Sonnet 5 nudi usporedivu sposobnost za 2 dolara do kraja avgusta.

Za firmu koja gradi AI agent koji obrađuje desetke ili stotine hiljada tokena dnevno, ovo nije marketinška razlika, ovo je stvarna uštedina u operativnom trošku.

Dvije firmama relevantne implikacije.

Prva: timovi koji su dosad birali Sonnet 4.6 zbog cijene, ali su žrtvovali sposobnosti, sada imaju bolji izbor. Sonnet 5 na benchmarkima redovno premašuje Opus 4.7 i na nekim zadacima izlazi ispred Opusa 4.8.

Druga: timovi koji su koristili Opus 4.8 zbog sposobnosti mogu testirati Sonnet 5 na svom konkretnom slučaju primjene. Uvodni period do 31. avgusta je idealan za to.

Kontekst koji vrijedi imati na umu u isto vrijeme kada Fable 5 dolazi s restriktivnijim klasifikatorima koji neke coding zadatke preusmjeravaju na Opus 4.8, Sonnet 5 nudi drugi put prema moćnom i jeftinom modelu za svakodnevni agentni rad.

Za one koji grade produkte i automatizovane procese na Claude API-ju, ovo je tjedan vrijedan ponovne procjene modelskog izbora.

Pretplatite se da biste se pridružili diskusiji.

Napravite besplatan nalog da biste postali član i pridružili se diskusiji.

Već imate nalog? Prijavite se

Prijavi se na AIBalkan - vijesti o vještačkoj inteligenciji newsletter.

Budite u toku sa pažljivo odabranom kolekcijom naših najboljih priča.

Provjerite svoj inboks i potvrdite. Nešto je pošlo po zlu. Pokušajte ponovo.