Microsoft i problem koji niko ne vidi dok ne postane prekasno

Kako AI postaje infrastruktura, sigurnost modela više nije tehnički detalj. Microsoftovo istraživanje pokazuje koliko malo zapravo znamo o onome što koristimo.

Microsoft i problem koji niko ne vidi dok ne postane prekasno
Apstraktni prikaz sigurnosti i sabotaže AI modela

U svijetu vještačke inteligencije danas se mnogo govori o bržim modelima, jeftinijem treniranju i sve većoj autonomiji sistema. Manje se govori o tome šta se dešava kada ti sistemi nisu samo pogrešni, već namjerno izmijenjeni. Ne bugovani. Ne loše istrenirani. Nego sabotirani.

Kako kompanije sve više preuzimaju gotove, često open-source modele i ugrađuju ih duboko u svoje proizvode, pojavljuje se neugodno pitanje: da li uopšte znamo šta ti modeli zaista rade ispod haube?

Najnovije istraživanje iz Microsofta ne donosi dramatične naslove, ali nosi tiho upozorenje koje industrija dugo gura pod tepih.

Šta se zapravo desilo

Microsoft-ov interni AI Red Team objavio je istraživanje koje se bavi tzv. “backdoored” modelima. To su modeli koji su namjerno otrovani prije ili tokom treniranja, tako da u sebi nose skrivene obrasce ponašanja koji se aktiviraju samo u određenim uslovima.

Drugim riječima, model može izgledati potpuno normalno, sve dok se ne pojavi određena fraza, kontekst ili signal. Tada radi ono što je napadač unaprijed zamislio.

Istraživači su identifikovali tri obrasca koji mogu ukazivati na ovakvu sabotažu. Prvi je promjena pažnje modela: umjesto da “razumije” cijeli upit, model se zakači za jednu riječ ili frazu i ignoriše ostatak. Drugi je curenje vlastitih podataka o trovanju, ako se model dovoljno vješto ispituje. Treći je tzv. “fuzziness” backdoor se može aktivirati i djelimičnim ili približnim verzijama okidača.

Uz istraživanje je objavljen i open-source alat za skeniranje modela, što je rijedak primjer da jedna velika kompanija javno prizna koliko malo kontrole zapravo postoji nad porijeklom AI sistema.

Zašto je ovo uopšte bitno

Industrija se trenutno ponaša kao da su modeli samo još jedan softverski dependency. Ako radi, koristi se. Ako je brz i jeftin, još bolje. Ali AI modeli nisu biblioteke koda. Oni su kompleksni sistemi odlučivanja čije unutrašnje logike često ne razumiju ni njihovi autori.

Kako agenti preuzimaju sve više autonomije, od pisanja koda do donošenja poslovnih odluka, mali skriveni pomak u ponašanju modela može imati ogromne posljedice. Problem sa backdoorom nije u tome što će model odmah “poludjeti”, nego što će mjesecima ili godinama raditi savršeno, dok ne dođe trenutak kada to više nije u interesu onoga ko ga koristi.

Microsoft ovdje pokušava biti ispred krive. Ne zato što problem već eksplodira, nego zato što zna da hoće.

Šta se previđa u javnoj priči

Mnogo se priča o sigurnosti AI-ja na nivou odgovora: halucinacije, netačni podaci, etički problemi. Mnogo manje se govori o sigurnosti samog modela kao artefakta.

Kako je rekao Ram Shankar Siva Kumar, auditabilnost modela je “svuda i nigdje”. Ne postoje standardi, ne postoji obaveza provjere, a većina manjih timova jednostavno nema resurse da uradi dubinsku analizu težina i ponašanja modela.

Otvoreni kod ne znači automatski sigurnost. Često znači samo da je odgovornost prebačena na onoga ko ga koristi.

Šira slika

Ovo istraživanje se savršeno uklapa u širi trend: AI se industrijalizuje brže nego što se profesionalizuje njegova sigurnost. Brzina implementacije daleko nadmašuje brzinu razumijevanja rizika.

Velike kompanije poput Microsofta mogu sebi priuštiti interdisciplinarne timove koji razmišljaju unaprijed. Većina drugih ne može. A upravo ti drugi danas grade proizvode koji će sutra donositi odluke bez ljudskog nadzora.

Naš zaključak

Backdoored modeli nisu problem zato što su česti, nego zato što su tihi. I što je AI moćniji, to je skuplje ignorisati pitanje koje se sve češće nameće: da li zaista znamo kome smo povjerili razmišljanje naših sistema.