ARC-AGI-3 vraća stvari na početak, i to nije slučajno
ARC-AGI-3 ponovo spušta rezultate AI modela gotovo na nulu. Ne zato što su slabiji, već zato što test uklanja sve na šta su se oslanjali.
U trenutku kada najveće AI kompanije pokušavaju uvjeriti svijet da su “razumijevanje” i “rezonovanje” praktično riješeni problemi, pojavljuje se test koji sve to resetuje na nulu. Ne kroz spektakularan demo ili viralni proizvod, nego kroz nešto mnogo nezgodnij jednostavne zadatke koje ljudi rješavaju bez razmišljanja, a modeli gotovo uopšte ne.
Ovo nije prvi put da se to dešava. Ali razlika je u tome što sada više nije moguće ignorisati obrazac.
Šta se zapravo desilo
ARC Prize Foundation, koju vodi François Chollet, objavila je novu verziju svog benchmarka: ARC-AGI-3. Rezultati su, blago rečeno, neugodni za industriju.
Najbolji model, Gemini Pro, postiže 0.37%.
Slijede GPT-5.4 High sa 0.26%, Claude Opus 4.6 sa 0.25%, dok Grok-4.20 ostaje na 0%.
Ljudi? 100% iz prvog pokušaja.
Format testa ostaje isti u svojoj suštini: nema instrukcija, nema primjera za treniranje, nema “hintova”. Model dobija niz zadataka koji liče na apstraktne igre i mora sam:
- prepoznati pravila
- formirati cilj
- osmisliti strategiju
Drugim riječima, raditi ono što industrija već godinama tvrdi da modeli već rade.
Zašto je ovo uopšte bitno
ARC benchmark nikada nije bio o performansama u klasičnom smislu. On je test hipoteze da li modeli zaista razvijaju opšte rezonovanje ili samo postaju bolji u prepoznavanju obrazaca koje su već vidjeli. Ono što ARC-AGI-3 radi jeste brutalno jednostavno uklanja sve što modeli koriste kao oslonac.
- Nema distribucije podataka na koju su navikli.
- Nema “sličnih zadataka” iz trening seta.
- Nema skaliranja koje spašava stvar.
I rezultat je konzistentan, performanse kolabiraju.
To ne znači da modeli nisu impresivni. Ali znači da njihov napredak možda ne dolazi iz onoga što mislimo. Kada François Chollet dizajnira test koji razdvaja memoriju od rezonovanja, većina sistema se ponaša kao da je ostala bez temelja.
Šta se previđa u javnoj priči
Postoji jedna pretpostavka koju industrija rijetko dovodi u pitanje da će dovoljno veliki modeli, trenirani na dovoljno podataka, spontano razviti opštu inteligenciju.
ARC-AGI serija uporno pokazuje suprotno.
Da, laboratorije su već jednom “riješile” prethodnu verziju. ARC-AGI-2 je skočio sa 3% na oko 50% za manje od godinu dana. Ali način na koji se to desilo je ključan — masivno treniranje, optimizacija na benchmark, i ogromni resursi.
Drugim riječima adaptacija, ne razumijevanje.
Mike Knoop otvoreno kaže da laboratorije ovaj put obraćaju mnogo više pažnje. Postoji i nagrada od milion dolara. Ali to samo pojačava pitanje: da li će napredak doći kroz stvarno bolje modele ili kroz još sofisticiraniji “brute force”?
Jer ARC-AGI-3 je dizajniran upravo da to razotkrije.
Šira slika
Ako se ovaj obrazac nastavi, industrija će se morati suočiti sa neugodnom istinom: skaliranje možda ima granice koje nisu samo tehničke, nego konceptualne.
To bi objasnilo zašto modeli briljiraju u jeziku, kodu i predvidivim zadacima a istovremeno posrću kada se suoče sa nečim što zahtijeva stvarno “snalaženje”.
ARC nije proizvod. Ne donosi prihode. Ne može se monetizovati kao chatbot ili API.
Ali kao mjerni instrument, on postavlja pitanje koje sve ostalo pokušava da zaobiđe: šta zapravo znači razumjeti problem?
Naš zaključak
Ako svaki novi benchmark resetuje rezultate na gotovo nulu, možda problem nije u testovima nego u tome šta tačno mjerimo kao “napredak”.