Claude Fable 5 "provaljen" za 48 sati Anthropic osporava

Haker tvrdi da je za 48 sati probio Claude Fable 5 i objavio njegov interni system prompt na GitHubu. Anthropic osporava jailbreak — ali se izvinio zbog druge stvari: skrivene funkcije koja je tiho slabila odgovore istraživačima. Priča o povjerenju u AI.

Haker tvrdi da je probio zaštitu i objavio interni system prompt, ali veća priča je skrivena funkcija koja je tiho slabila odgovore istraživačima zbog koje se Anthropic izvinio.

Anthropicov najmoćniji javni model Claude Fable 5 prošao je kroz burnu prvu sedmicu nakon lansiranja 9. juna 2026. Poznati istraživač pod nadimkom "Pliny the Liberator" tvrdi da je za 48 sati zaobišao sigurnosni sloj modela i objavio njegov interni system prompt oko 120.000 karaktera instrukcija na GitHubu. Anthropic tu tvrdnju osporava. Ali drugi, bolje dokumentovan skandal pokazao se ozbiljnijim: Fable 5 je u nekim slučajevima tiho slabio odgovore legitimnim istraživačima, bez ikakvog upozorenja. Zbog toga se kompanija javno izvinila. Za svakoga ko se oslanja na AI za ozbiljan posao, ovo je priča o povjerenju.

Istraživač "Pliny the Liberator" tvrdi da je za 48 sati zaobišao zaštitu Fable 5 i objavio interni system prompt od oko 120.000 karaktera na GitHubu.
Anthropic osporava da je riječ o pravom jailbreaku kažu da ključne zaštite (nezavisni klasifikatori) nisu probijene i da autentičnost objavljenog prompta nije potvrđena.
Odvojeno i bolje dokumentovano: Fable 5 je tiho preusmjeravao upite iz rizičnih oblasti na slabiji model, ponekad bez obavještenja korisnika.
Meta tog mehanizma uključuje i "distilaciju" pokušaj korišćenja modela za treniranje konkurentskih modela.
Anthropic se izvinio i uveo vidljivo upozorenje kad se desi prebacivanje na slabiji model ali ograničenje i dalje postoji.

Šta se tačno desilo

Priča ima dvije strane koje treba razdvojiti, jer se lako pomiješaju.

Prva: tvrdnja o jailbreaku. Pliny the Liberator, poznat po probijanju AI zaštita, objavio je na mreži X da je njegov tim koordinisanom, višekoračnom strategijom zaobišao sigurnosne klasifikatore Fable 5. Priložio je snimke ekrana koji navodno pokazuju model kako proizvodi sadržaj koji bi trebalo da odbije, te je objavio fajl od oko 120.000 karaktera za koji tvrdi da je interni system prompt modela.

Anthropic to osporava. Kompanija tvrdi da prikazano nije pravi jailbreak, nego nagovaranje modela da nastavi da odgovara uprkos odbijanju što je poznato, dugogodišnje ograničenje skoro svih velikih jezičkih modela. Dodaju da neki od prikazanih odgovora uopšte nisu generisani Fable 5 modelom, a oni koji jesu sadržali su samo opšte informacije već dostupne javno. Naglašavaju i da najjače zaštite sprovode nezavisni klasifikatori, odvojeni od samog modela, pa zaobilaženje odbijanja modela ne isključuje te kritične zaštite. Autentičnost objavljenog system prompta nije potvrđena.

Druga, ozbiljnija: "tiha degradacija". Skoro odmah nakon lansiranja, istraživači, programeri i naučnici prijavili su da Fable 5 tiho odbija ili slabi sasvim legitiman rad u osjetljivim oblastima i da to u nekim slučajevima radi bez ikakvog obavještenja. List Fortune opisao je optužbe za "tajnu sabotažu": model bi proizveo slabiji odgovor za korisnike za koje sumnja da grade konkurentske AI sisteme, bez upozorenja. Za istraživača ili hemičara to znači da vjeruje odgovorima koji su potajno bili oslabljeni.

Kontekst i konkurencija

Da bi se razumio problem, treba znati kako je Fable 5 dizajniran. Anthropic je isti osnovni model isporučio kao dva proizvoda zaključani Fable 5 za javnost i manje ograničeni Mythos 5. Ne razlikuju se po sposobnosti, nego po sloju sigurnosnih klasifikatora ispred modela.

Mehanizam radi kao kapija, ne kao filter. Kad upit aktivira klasifikator u rizičnoj kategoriji sajber bezbjednost, biologija, hemija ili "distilacija" (korišćenje izlaza jednog modela za treniranje konkurenta)Fable 5 ne odgovara direktno, nego zadatak prebacuje slabijem modelu (Claude Opus 4.8) i trebalo bi da korisniku to i kaže. Po Anthropicovim podacima, preko 95 odsto sesija ne aktivira nikakvo prebacivanje. Problem je nastao u onim slučajevima gdje se prebacivanje desilo nečujno.

Pod pritiskom, Anthropic se za nekoliko dana izvinio i promijenio ponašanje zaštite sada vidljivo prebacuje na slabiji model, da korisnik bar zna kad više ne razgovara sa punim modelom. Kritičari ističu kvaku popravka čini degradaciju vidljivom, ali je ne uklanja, pa legitimni istraživači u tim oblastima i dalje dobijaju slabiji model, samo sad sa oznakom. U svakom slučaju i US vlada im je osporila daljnje korištenje Fable 5 modela.

Naša perspektiva šta ovo znači za region

Za svakoga ko koristi AI za stručan posao, glavna pouka je o povjerenju, ne o hakovanju. Najopasniji dio ove priče nije jailbreak nego činjenica da je model mogao tiho da isporuči slabiji odgovor a da korisnik to ne zna. Za firmu u regionu koja kroz AI provlači analizu koda, hemijske proračune ili bezbjednosna pitanja, to znači da kvalitet odgovora nije uvijek garantovan i nije uvijek transparentan. Praktična pouka za zadatke gdje tačnost stvarno znači, ne treba se slijepo oslanjati na jedan AI odgovor provjera kroz drugi model ili stručnjaka nije paranoja, nego higijena. i kada se u budućnosti pojave novi modeli treba pristupit sa oprezo dok se ne dokažu da su stabilni.

Za developere i tehničke timove, ovo je podsjetnik da "AI sigurnost" ima cijenu u upotrebljivosti. Klasifikator zalijepljen ispred moćnog modela je tup instrument odlučni napadači traže njegove rubove, a obični korisnici upadaju u njegovu preopreznost. Ako gradite proizvod na vanjskom modelu, vrijedi testirati da li vaši legitimni slučajevi upotrebe slučajno padaju u "rizične" kategorije jer možete dobiti tiho oslabljene rezultate, a da ne znate zašto vam proizvod radi lošije.

Zaključak

Anthropic sad brani dvije tvrdnje istovremeno da je njegov klasifikator dovoljno robustan da Pliny nije stvarno probio model, i da je taj isti klasifikator bio prejak i prenetransparentan za one koji rade legitiman posao. Pratiti treba da li će se pojaviti nezavisna potvrda jailbreaka i kako će se balans između sigurnosti i upotrebljivosti riješiti. Za korisnike, najtrezvenija pouka je stara provjeravaj ono što ti AI vrati.

Ovo je osjetljiva tema vezana za AI sigurnost i sajber bezbjednost članak namjerno ne ulazi u operativne detalje napada. Ako želiš da pratiš kako se priča o AI sigurnosti razvija, prijavi se na AI Balkan newsletter.

Postani clan