Kontrola AI agenata DeepMind objavio plan za bezbjednost

Sljedeća faza bezbjednosti : lozinke, logovi, dozvole, kočnice. Google DeepMind je objavio plan za kontrolu moćnih AI agenata i tretira ih kao mogućeg insajdera sa pristupom osjetljivim sistemima. Za firme koje uvode agente, ovo je nacrt kako da autonomija ostane pod kontrolom.

Google DeepMind plan za kontrolu i bezbjednost AI agenata, ilustracija nadzora autonomnih AI sistema

Google DeepMind tretira moćne AI agente kao mogućeg insajdera i gradi sigurnosni sloj koji liči više na IT sigurnost nego na filozofiju.

Sljedeća faza bezbjednosti AI ne liči na filozofske rasprave, nego na IT sigurnost lozinke, logovi, dozvole, monitori, kočnice za hitne slučajeve. Google DeepMind je objavio AI Control Roadmap, plan za kontrolu moćnih internih AI agenata, sa osvježavajuće praktičnom pretpostavkom čak i ako je model treniran da bude koristan, sistem oko njega i dalje treba kontrole za dan kad se ponaša loše. Za svakoga ko razmišlja da AI agenta pusti da radi sam u firmi, ovo je prvi ozbiljan nacrt kako da autonomija ostane pod kontrolom.

DeepMind napredne AI agente posmatra kao potencijalnu unutrašnju prijetnju, slično zaposlenom sa pristupom osjetljivim sistemima.
Plan dodaje sigurnost na nivou sistema povrh "alignmenta" treniranje modela da se ponaša dobro je samo jedna odbrana.
Provjereni AI nadzornici prate rasuđivanje, akcije i planove drugog agenta.
Kontrole se skaliraju po riziku od odgođenog pregleda za bezopasne radnje do blokiranja u realnom vremenu za opasne.
Mjeri se konkretno pokrivenost, recall (koliko lošeg ponašanja se uhvati) i vrijeme do reakcije.

Šta se tačno desilo

Poenta je u jednoj rečenici: AI agenti više ne samo odgovaraju na pitanja. Čitaju fajlove, pretražuju web, pozivaju alate, pišu kod i obavljaju višekoračne zadatke. A pogrešna akcija je mnogo gora od pogrešnog odgovora može da obriše podatke, procuri fajl, odobri uplatu ili tiho sabotira projekat.

Zato DeepMind pozajmljuje iz cyber sigurnosti, koja već zna bolnu istinu i sistemima kojima vjerujemo neko može da ovlada. Umjesto da se sve oslanja na to da je model "dobro vaspitan", plan dodaje slojeve oko njega provjerene AI nadzornike (pouzdane modele koji nadgledaju rad drugog agenta), kontrolu pristupa, revizione logove i sandboxing (izolovano okruženje u kojem agent ne može da dira prave sisteme).

Ključno je što kontrole nisu sve ili ništa. Skaliraju se po riziku: za bezopasne radnje dovoljan je naknadni pregled, za opasne blokiranje u realnom vremenu prije nego što se akcija izvrši.

Kontekst i konkurencija

DeepMind je dao i mjerne jedinice koje ovo dižu iznad praznih obećanja pokrivenost (koliko saobraćaja agenta se nadgleda), recall (koliko lošeg ponašanja se uhvati) i vrijeme do reakcije (koliko brzo sistem može da zaustavi agenta). To je bezbjednost kao operacija, ne kao izjava u blog postu.

Smjer nije izolovan. Anthropicov potez ka robotici pokazuje istu promjenu iz drugog ugla Claude počinje da koordiniše fizičke zadatke, ne samo posao na ekranu. Što agenti više rade u stvarnom svijetu, to bezbjednost postaje manje teoretska i mnogo teža za glumiti.

Naša perspektiva šta ovo znači za region

Za firme koje uvode AI agente, ovdje je glavna poruka jednostavna: pravi posao ne počinje kad demo proradi, nego kad postaviš sistem dozvola. Magični demo manje je bitan od pravila koja sprečavaju da agent dotakne platni spisak u dva ujutru ili pošalje mejl klijentu prije nego što ga čovjek pregleda. Primjer: agent koji obrađuje fakture može da pripremi sve, ali plaćanje preko određenog iznosa mora da čeka ljudsko odobrenje to je jedna linija pravila koja vam štedi katastrofu.

Za tradicionalne firme koje tek razmišljaju o automatizaciji, ovo je razlog manje za strah, a ne više. Poenta DeepMindovog plana je da se autonomijom može upravljati istim alatima koje IT već poznaje: dozvole, logovi, nadzor. Ne morate AI agentu dati ključeve od svega dajete mu tačno onoliko pristupa koliko zadatak traži, i pratite šta radi.

Praktično pravilo za svakoga ko kreće počni od najmanje rizičnog procesa, daj agentu minimalne dozvole, uključi log svega što radi, i traži ljudsko odobrenje za sve što troši novac ili šalje nešto van firme.

Zaključak

Firme koje će dobiti trku oko AI agenata vjerovatno su one koje učine autonomiju dosadnom pouzdanom, predvidljivom, pod kontrolom. Naredno što vrijedi pratiti: da li će se ovi sigurnosni standardi (logovi, dozvole, AI nadzornici) pretvoriti u nešto što i manje firme mogu da primijene, a ne samo laboratorije sa stotinama inženjera.

Napravili smo i checklistu uz ovu temu: 7 kontrola koje treba da postaviš prije nego pustiš AI agenta da radi sam u firmi (od dozvola i logova do ljudskog odobrenja za osjetljive akcije). Preuzmi je besplatno kad se prijaviš na AI Balkan newsletter.