Google lansirao Gemini 3.1 Flash TTS sa audio tagovima

Google je predstavio Gemini 3.1 Flash TTS Preview, novi model za pretvaranje teksta u govor sa audio tagovima koji omogućavaju preciznu kontrolu tona, tempa i stila. Riječ je o važnom koraku za firme, kreatore sadržaja i AI agente koji traže prirodniji i fleksibilniji govor.

Google lansirao Gemini 3.1 Flash TTS sa audio tagovima
Ilustracija koja prikazuje lansiranje Google Gemini 3.1 Flash TTS modela sa audio tagovima i modernim AI glasovnim interfejsom

Nova Googleova TTS nadogradnja donosi izražajniji govor, precizniju kontrolu tona i podršku za višejezične audio scenarije.

Google je predstavio Gemini 3.1 Flash TTS Preview, novi model za pretvaranje teksta u govor koji stavlja fokus na izražajnost, kontrolu i rad u više jezika. Ključna novost su takozvani audio tagovi, odnosno komande u uglastim zagradama koje se ubacuju direktno u tekst kako bi se modelu zadali ton, tempo, emocija ili način izgovora. Google u zvaničnoj dokumentaciji navodi da je model namijenjen scenarijima u kojima je potreban tačan izgovor teksta uz finu kontrolu stila, uključujući podkaste, audioknjige i višeglasne formate.

  • Google je lansirao Gemini 3.1 Flash TTS Preview kao novi model za izražajniji text-to-speech.
  • Audio tagovi omogućavaju da se unutar samog teksta zadaju emocija, stil, pauza i tempo izgovora.
  • Model podržava single-speaker i multi-speaker generisanje govora.
  • Google navodi podršku za veliki broj jezika, a dokumentacija prikazuje široku listu podržanih jezika uključujući arapski, japanski, hindi i srpski.
  • Ograničenje je to što je TTS i dalje u preview fazi i ne podržava streaming.

Šta se tačno promijenilo

Najvažnija stvar kod Gemini 3.1 Flash TTS nije samo kvalitet glasa, nego način upravljanja glasom. Umjesto klasičnih TTS podešavanja, Google omogućava da se stil govora vodi prirodnim jezikom, a dodatno i pomoću audio tagova poput [whispers], [shouting], [excited], [serious] i sličnih oznaka. U dokumentaciji se navodi da se tim oznakama mogu mijenjati ton, naglasak, tempo i način izvođenja pojedinih dijelova teksta, bez potrebe za komplikovanijim audio markapom.

To je bitna razlika u odnosu na starije TTS pristupe, gdje je kontrola često zavisila od rigidnog SSML-a ili od unaprijed definisanih parametara. Google ovdje praktično približava režiranje glasa običnom pisanju prompta. Na DeepMind stranici model je opisan kao sistem za “granular expressive control”, uz mogućnost generisanja naracije, dijaloga i višeglasnih scena iz jednog tekstualnog ulaza.

Googleova dokumentacija takođe potvrđuje da Gemini 3.1 Flash TTS Preview podržava i single-speaker i multi-speaker izlaz, što znači da se isti model može koristiti i za klasične naracije i za simulirane razgovore, intervjue ili podkaste.

Tehnički detalji i ograničenja

Prema zvaničnoj Gemini API dokumentaciji, model se koristi pod oznakom gemini-3.1-flash-tts-preview i trenutno je dostupan kao preview opcija. TTS prima samo tekstualni ulaz i vraća audio izlaz, uz podršku za 30 glasovnih opcija. Dokumentacija takođe navodi da TTS sesija ima limit od 32k tokena i da trenutno ne podržava streaming, što je važno za developere koji planiraju upotrebu u realnom vremenu.

Kad je riječ o jezicima, Google prikazuje veliku listu podržanih jezika, među kojima su engleski, arapski, japanski, hindi, korejski, francuski, njemački, španski i srpski. To potvrđuje da je model jasno usmjeren na globalne proizvode, a ne samo na englesko govorno područje.

Važno je napomenuti i da Google upozorava na preview ograničenja. U dokumentaciji stoji da model ponekad može vratiti tekstualne tokene umjesto audio izlaza, što može izazvati serverske greške, pa se preporučuje retry logika u produkciji.

Konkurencija i stanje na tržištu

Tržište AI glasa je sada mnogo gušće nego prije godinu dana. ElevenLabs na svojim stranicama ističe da njihov TTS nudi izražajan govor, višejezičnost i čak audio tags pristup u novijim proizvodima, dok Amazon Polly i dalje naglašava podršku za SSML, promjenu brzine, izgovora i veliki broj jezika. Drugim riječima, Google ne ulazi u prazan prostor, nego direktno u segment gdje se već takmiče platforme fokusirane na voiceover, agente i audio lokalizaciju.

Googleova prednost je što TTS ne dolazi kao izolovan alat, nego kao dio šire Gemini infrastrukture. To znači da firme koje već koriste Gemini API, AI Studio ili Vertex ekosistem lakše mogu povezati generisanje govora sa agentima, multimodalnim radnim tokovima i automatizacijom sadržaja. U praksi, to može biti važnije od samog “najljepšeg glasa”, jer poslovni korisnici traže integraciju, skaliranje i upravljanje kroz jedan sistem. Ovaj zaključak je izveden iz načina na koji Google pozicionira Gemini TTS uz Gemini API i širi Gemini Audio portfolio.

Naša perspektiva

Za tržište Balkana ovo je važnije nego što na prvi pogled djeluje. Većina firmi u regionu nema budžet da za svaki jezik, kanal i kampanju posebno angažuje studio, spikera i audio produkciju. Model koji može iz jednog teksta napraviti dovoljno prirodan, kontrolisan i višejezičan audio otvara prostor za jeftiniju produkciju edukacija, reklama, korisničke podrške i internih trening materijala.

Za poslovne korisnike koji koriste AI u radu, najveća vrijednost nije samo “glas koji zvuči prirodno”, nego mogućnost da se isti sadržaj brzo prilagodi različitim publikama. Jedan skript može postati korporativna naracija, opušten demo, prodajni video ili lokalizovana podrška za više tržišta. Audio tagovi su tu posebno korisni jer smanjuju potrebu za dodatnim ručnim podešavanjem i približavaju audio produkciju timu koji zna pisati promptove, ali nije nužno audio ekspert.

Za region je dodatno značajno što zvanična lista podržanih jezika uključuje srpski. To ne znači automatski da će kvalitet za sve lokalne varijante biti isti kao za najveće jezike, ali znači da Balkan više nije potpuno izvan mape kod savremenih TTS alata.

Zaključak

Gemini 3.1 Flash TTS djeluje kao Googleov pokušaj da TTS pretvori iz pomoćne funkcije u ozbiljan kreativni i poslovni alat. Najveća promjena nije sama sinteza glasa, nego to što se stil govora sada može režirati direktno iz teksta, na način koji je bliži radu sa LLM-ovima nego klasičnim TTS alatima.

Naše očekivanje je da će ovakav pristup posebno brzo ući u call centre, edukacione platforme, marketing timove i AI agente za podršku. Ako Google zadrži kvalitet i smanji preview ograničenja, Gemini 3.1 Flash TTS bi vrlo lako mogao postati jedan od standardnih alata za firme koje žele da AI govori uvjerljivo, brzo i na više jezika.