Google Gemini 3 donosi agentic vision i podiže razumijevanje slika

Google je predstavio Agentic Vision u Gemini 3 modelu, koji slike analizira aktivno uz pomoć koda, donoseći veću tačnost i nove mogućnosti za poslovne korisnike.

Google Gemini 3 donosi agentic vision i podiže razumijevanje slika
Ilustracija Google Gemini 3 modela koji analizira slike uz Agentic Vision.

Google predstavlja novi pristup vizuelnom rezonovanju u okviru Gemini 3 modela, koji slike više ne posmatra pasivno, već ih aktivno istražuje.

Vještačka inteligencija je godinama bila dominantno fokusirana na tekst, dok su slike često bile sekundarni izvor informacija. To se sada mijenja. Google je predstavio novu funkcionalnost pod nazivom Agentic Vision u okviru modela Gemini 3, koja donosi aktivno vizuelno razumijevanje uz pomoć rezonovanja i izvršavanja koda. Cilj je da AI ne pogađa propuštene detalje, već da ih samostalno pronalazi i provjerava.

  • Gemini 3 koristi Agentic Vision za aktivno istraživanje slika
  • Model se može fokusirati, zumirati i označavati dijelove slike
  • Preciznost na vizuelnim testovima povećana je do 10%
  • Dostupan je kroz Gemini API, Google AI Studio i Vertex AI
  • Funkcija stiže i u Gemini aplikaciju za širu publiku

Šta je Agentic Vision u Gemini 3

Za razliku od klasičnih AI modela koji sliku analiziraju jednim „pogledom“, Agentic Vision tretira vizuelni sadržaj kao proces istrage. Model Gemini 3 Flash je obučen da:

  • automatski zumira dijelove slike kada prepozna sitne detalje
  • koristi Python kod za označavanje elemenata na slici
  • kombinuje vizuelne informacije sa logičkim rezonovanjem

Prema Googleu, Gemini 3 Flash sa izvršavanjem koda postiže i do 10% bolje rezultate na benchmark testovima kao što su MMMU Pro, Visual Probe i OfficeQA, u poređenju sa standardnom verzijom modela.

Kako funkcioniše u praksi

Jedan od demonstriranih primjera uključuje jednostavno pitanje: koliko prstiju se nalazi na slici ruke. Umjesto da „pogodi“, Gemini 3 koristi kod da iscrta okvire oko svakog prsta, numeriše ih i tek tada daje konačan odgovor.

Pored toga, Agentic Vision omogućava:

  • preciznije brojanje objekata na slikama
  • čitanje sitnog teksta na predmetima
  • analizu kompleksnih tabela i njihovu pretvorbu u grafikone

Ovo značajno smanjuje halucinacije koje su česte kod višekorakih vizuelnih zadataka.

Tržište i konkurencija

Tokom protekle godine, fokus industrije bio je na generisanju slika i video zapisa. Rješenja poput Sora iz OpenAI ili Googleovih modela Imagen 3 i Veo pomjerila su granice realističnog sadržaja.

Međutim, Google sada naglašava da je tačna analiza postojećih slika jednako važna kao i njihovo kreiranje, posebno za poslovne korisnike i profesionalne alate.

Naša perspektiva: Šta to znači za region

Za firme i profesionalce u regionu Balkana, Agentic Vision može imati direktan uticaj na produktivnost. Automatizovana analiza dokumenata, tehničkih crteža, fotografija proizvoda ili poslovnih tabela može ubrzati procese u finansijama, logistici, marketingu i edukaciji.

Posebno je važno što je funkcija dostupna kroz Google AI Studio i Vertex AI, što olakšava integraciju u postojeće poslovne sisteme.

Zaključak

Agentic Vision u Gemini 3 predstavlja značajan korak ka AI sistemima koji zaista „razumiju“ ono što vide. Umjesto pasivnog opisivanja slika, Google uvodi aktivno vizuelno rezonovanje koje može postati standard u profesionalnoj primjeni vještačke inteligencije. U narednom periodu, ovakav pristup bi mogao postati ključna prednost za kompanije koje se oslanjaju na vizuelne podatke.