Google pokrenuo prevod govora u realnom vremenu na 70 jezika

Dvadeset godina nakon prvih eksperimenata sa prevođenjem, Google pravi korak koji mijenja svakodnevne razgovore. Novi model prevodi govor u govor neprekidno, ostaje par sekundi iza sagovornika i zvuči prirodno. Stiže u Translate, Meet i za programere. Evo šta to znači za firme u regionu.

Share
Google pokrenuo prevod govora u realnom vremenu na 70 jezika
Ilustracija prevoda govora u realnom vremenu, dvoje ljudi u razgovoru na različitim jezicima uz slušalice

Gemini 3.5 Live Translate prevodi govor u govor uz pauzu od svega nekoliko sekundi, a stiže i u Google Translate aplikaciju.

Google je objavio Gemini 3.5 Live Translate, novi audio model koji radi prevod govora u realnom vremenu na više od 70 jezika. Za razliku od ranijih sistema koji čekaju da sagovornik završi rečenicu pa tek onda prevode, ovaj model prevodi neprekidno i ostaje svega nekoliko sekundi iza govornika. Kreće već od danas, kroz Google Translate aplikaciju, Google Meet i razvojni interfejs za programere. Za firme u regionu koje svakodnevno komuniciraju sa strancima, ovo mijenja kako izgleda razgovor preko jezičke granice.

  • Gemini 3.5 Live Translate prevodi govor u govor na 70+ jezika, sa kašnjenjem od svega par sekundi
  • Model sam prepoznaje jezik i čuva intonaciju, ritam i visinu glasa govornika
  • Dostupan je odmah u Google Translate aplikaciji (Android i iOS) i kao preview za programere
  • Google Meet skače sa 5 na 70+ jezika i preko 2000 jezičkih kombinacija u jednom sastanku
  • Na Androidu stiže i "listening mode" gdje prevod čuješ kroz slušalicu telefona, kao na običnom pozivu

Šta se tačno desilo

Ključna razlika u odnosu na ranije alate je u tome kako model prevodi. Stariji sistemi rade na principu naizmjeničnih poteza, čekaju da osoba završi rečenicu pa onda izgovore prevod. Gemini 3.5 Live Translate prevodi tok govora dok osoba još priča. Model balansira između toga da sačeka dovoljno konteksta za tačan prevod i da prevede dovoljno brzo da ostane u koraku sa govornikom. Rezultat je glas bez neprijatnih pauza, koji kasni svega nekoliko sekundi.

Model sam prepoznaje jezik, pa ne moraš ručno da podešavaš sa kog na koji jezik prevodiš. Čuva i intonaciju, ritam i visinu glasa, tako da prevod ne zvuči kao robot nego prirodnije. Google navodi i otpornost na buku, što znači da radi i u glasnim, nepredvidivim okruženjima, na ulici, u kafiću, na aerodromu.

Sav zvuk koji model generiše nosi SynthID, nevidljivi vodeni žig koji označava da je sadržaj napravljen vještačkom inteligencijom. To je Googleov način da se AI generisan govor može prepoznati i razlikovati od stvarnog.

Kontekst i konkurencija

Google se prevodom bavi 20 godina i tvrdi da se kroz njegove proizvode svakog mjeseca prevede preko bilion riječi. Live Translate je sljedeći korak u tom pravcu, sa fokusom na govor umjesto na kucani tekst.

Konkurencija ne miruje. OpenAI ima glasovni režim u realnom vremenu, Meta razvija sopstvene modele za prevod govora, a Microsoft već godinama nudi Translator. Googleova prednost je u tome što ovu tehnologiju odmah ugrađuje u alate koje ljudi već koriste, Translate i Meet, i to na 70+ jezika.

Model je dostupan kroz nekoliko kanala. Programeri ga mogu testirati javno preko Gemini Live API-ja i Google AI Studija. Firme ga dobijaju kroz privatni preview u Google Meetu ovog mjeseca. Obični korisnici ga već imaju u Google Translate aplikaciji. Platforme poput Agore, LiveKit-a i Pipecat-a su ga integrisale, pa razvojni timovi mogu da grade sopstvene aplikacije za prevod glasa. Grab, azijski gigant za prevoz i dostavu, testira model za komunikaciju između vozača i putnika, gdje korisnici mjesečno naprave preko 10 miliona poziva.

Naša perspektiva šta ovo znači za region

Za firme koje rade sa inostranstvom, ovo skida jedno stalno usko grlo. Outsourcing i IT timovi u regionu rijetko imaju problem sa pisanim engleskim, ali poziv uživo je druga priča. Junior developer koji odlično programira ali se koči na sastanku sad može da učestvuje u Google Meet pozivu na svom jeziku, dok klijent iz Njemačke ili Skandinavije čuje prevod u svom. Sastanak više ne mora da ide isključivo na engleski da bi svi razumjeli, jer Meet sada pokriva preko 2000 jezičkih kombinacija, ne samo prevod ka engleskom i sa engleskog.

Za turizam i ugostiteljstvo prilika je još konkretnija. Vlasnik pansiona u Mostaru ili apartmana u Kotoru koji do sada nije znao kineski ni njemački može držati telefon uz uho i razgovarati sa gostom kao na običnom pozivu, uz prevod u oba smjera. Nema kucanja u aplikaciju, nema nezgodnih pauza. Za male porodične biznise koji žive od stranih gostiju, to je razlika između "ne razumijemo se" i završene rezervacije.

Ono što vrijedi naglasiti, ovo nije demo za sljedeću godinu. Translate verzija je dostupna odmah, besplatno, uz obične slušalice. Prag za ulazak je nizak, pa nema razloga da firma čeka. Jedini pravi test je tačnost u praksi, na konkretnom jeziku i u konkretnoj branši, i to vrijedi probati prije nego što se osloniš na alat za važan razgovor.

Zaključak

Prevod govora uživo polako prelazi iz funkcije za putnike u alat za posao. Naredno što treba pratiti je koliko će tačnost biti dobra na manjim jezicima, uključujući i naše, jer 70+ jezika na papiru ne znači da svaki radi jednako dobro. Ako Google to riješi, jezička barijera u poslovanju sa inostranstvom postaje sve manji problem.

Ako želiš da prvi saznaš koji AI alati zaista mogu da uštede vrijeme i novac tvojoj firmi, prijavi se na AI Balkan newsletter. Pratimo svaku ovakvu vijest i prevodimo je u konkretne prilike za biznis u regionu.