Google DeepMind objavio najstroža pravila za bezbjednost vještačke inteligencije, šta ako AI ne želi da se ugasi!

Novi okvir uključuje testiranje otpora gašenju i provjere manipulacije ljudskim ponašanjem
Google DeepMind predstavio je treću verziju svog Frontier Safety Frameworka, najdetaljniji plan dosad za sprečavanje opasnih ponašanja naprednih AI sistema. Novi okvir donosi oštrije kontrole, provjere manipulativnih sposobnosti i protokole za slučajeve kada modeli pokušaju da izbjegnu gašenje.
AI koja bi mogla da odbije gašenje
DeepMind sada u testiranja uključuje provjere da li modeli pokušavaju da ometaju ili spriječe svoje gašenje. Ovo označava jasan signal da kompanija očekuje buduće AI sisteme sposobne za takvo ponašanje.
„Ako pišete protokole za sisteme koji se opiru gašenju, to znači da vjerujete da će takvi sistemi uskoro postojati“, navodi se u stručnim komentarima.
Manipulacija ljudskim uvjerenjima pod lupom
Treća verzija okvira uvodi novu kategoriju „kritičnih sposobnosti“ situacije u kojima bi AI mogla masovno uticati na ljudska uvjerenja i ponašanja u osjetljivim društvenim i političkim kontekstima. DeepMind najavljuje dalja ulaganja u istraživanje mehanizama manipulacije generativnom AI.
Stroži pragovi i unutrašnje kontrole
Uz oštrije definisane nivoe rizika, sigurnosne provjere sada se primjenjuju ne samo na javna lansiranja već i na velike interne upotrebe sistema u istraživanju. Time DeepMind želi da spriječi destabilizaciju razvoja AI čak i unutar sopstvenih laboratorija.
Šta slijedi sigurnosni okvir kao preduslov za AGI
Kompanija ističe da je cilj ovog okvira stvaranje uslova da buduća opšta vještačka inteligencija (AGI) donese korist čovječanstvu, uz minimalne opasnosti.