Google lansira Gemini 2.5 Computer Use: nova era za AI agente koji kontrolišu interfejse

Pro verzija optimizovana za rad s web i mobilnim UI okruženjima donosi precizniju i bržu automatizaciju.
Google je predstavio Gemini 2.5 Computer Use, specijalizovani model iz porodice Gemini 2.5 Pro, dizajniran za agente koji mogu direktno da upravljaju web i mobilnim korisničkim interfejsima. Model prednjači na testovima kontrole interfejsa i postiže nižu latenciju od konkurencije, što ga pozicionira kao vodeće rješenje za UI automatizaciju.
Novi nivo kontrole: klik, unos, skrol i formulari
Gemini 2.5 Computer Use omogućava agentima da klikću, kucaju, skroluju, prevlače i popunjavaju forme direktno u aplikacijama i browserima.
Sistem funkcioniše kroz screenshot akcija petlju, što povećava pouzdanost i tačnost izvršavanja. Prije svake rizične akcije, model traži potvrdu korisnika, čime se dodatno osigurava bezbjednost.
„Gemini 2.5 donosi potpuno novi nivo povjerenja i kontrole nad automatizacijom korisničkog interfejsa“, navodi Google u saopštenju.
Brži i precizniji: rezultati testiranja
Na specijalizovanim benchmark testovima, Gemini 2.5 Computer Use pokazao je impresivne rezultate:
- 72% tačnosti u izvođenju zadataka uživo na webu.
- Najbolji rezultat u kompleksnoj višekoracnoj navigaciji.
- Izuzetne performanse u mobilnim aplikacijama.
- Latencija od 225 sekundi najniža u klasi pri ovom nivou tačnosti.
- Testeri su prijavili 50% brže procese i 25% manje grešaka u radu.
Primjena: od testiranja do automatizacije plaćanja
Interno, Google već koristi novi model u projektima kao što su Firebase Agent, Project Mariner i AI Mode.
Partneri poput Poke.com i Autotab prijavili su značajna poboljšanja u brzini i stabilnosti svojih AI asistenata, dok je Google Payments zabilježio 60% automatskog oporavka neuspjelih testova.
Dostupnost i pristup
Gemini 2.5 Computer Use je trenutno dostupan u javnom pregledu putem Gemini API-ja u AI Studio i Vertex AI okruženjima.
Korisnici mogu da isprobaju funkcionalnosti preko Browserbase platforme ili da razvijaju sopstvene agente koristeći Playwright lokalno ili u cloud VM-ovima.
Očekuje se da će ovaj model postati ključni alat za razvoj autonomnih UI agenata, sa potencijalom da promijeni način na koji se softver testira, održava i koristi u realnom vremenu.