Da li dolazi novi Omni model iz OpenAI-ja? AI zajednica ponovo bruji o velikom iskoraku

AI zajednica ponovo raspravlja o dolasku novog Omni modela iz OpenAI-ja. Komentari istraživača i zaposlenih u kompaniji pokrenuli su spekulacije da bi potpuno multimodalni ChatGPT mogao stići već ove godine.

Da li dolazi novi Omni model iz OpenAI-ja? AI zajednica ponovo bruji o velikom iskoraku

U posljednjih nekoliko dana na mreži X i u AI zajednici ponovo se pojavila intenzivna diskusija o mogućem dolasku novog Omni modela iz OpenAI-ja. Povod su komentari nekoliko poznatih ljudi iz AI industrije koji su reagovali na pitanje: da li je konačno vrijeme za pravi “full omni” model?

Diskusija je krenula nakon što je korisnik Angel postavio direktno pitanje:

“Are we getting a new omni model from OpenAI? Has the time finally come?”

Na to je reagovao Brandon McKenzie, AI istraživač, kratkim ali zanimljivim odgovorom:

“Sounds like a great idea to me.”

Iako ovakve poruke same po sebi ne potvrđuju ništa konkretno, činjenica da ljudi iz AI industrije otvoreno komentarišu ovu ideju ponovo je pokrenula spekulacije o sljedećoj generaciji modela

Šta je zapravo Omni model

U AI terminologiji Omni model označava potpuno multimodalan model koji može prirodno raditi sa svim vrstama podataka u jednom sistemu.

To uključuje:

  • tekst
  • slike
  • glas
  • video
  • dokumente
  • kod
  • real-time interakciju

Ideja je jednostavna: jedan model koji razumije i generiše sve modalitete bez potrebe za spajanjem više različitih AI sistema. Ranije su AI sistemi radili kroz pipeline:

glas → transkripcija → tekstualni model → odgovor → sintetizovan glas.

Kod pravog omni modela sve se dešava unutar jednog modela koji direktno razumije sve vrste ulaza.

GPT-4o je bio prvi korak

OpenAI je već napravio važan korak u tom smjeru sa modelom GPT-4o, gdje “o” znači omni.

GPT-4o može:

  • razumjeti tekst, slike i glas
  • razgovarati u realnom vremenu
  • analizirati dokumente i vizualne sadržaje

Ipak, mnogi u AI zajednici smatraju da to još uvijek nije potpuno realizovan omni koncept, već prelazna faza.

Zašto se sada ponovo priča o Omni modelima

Dodatni signal došao je iz komentara Atiya El Tityja iz OpenAI-ja, koji je na pitanje o voice modu odgovorio:

“Voice mode is a big priority for us. Stay tuned for some major updates this year.”

Ova izjava je mnoge navela da pomisle da OpenAI radi na novoj generaciji modela koji bi mogao značajno unaprijediti glasovne i multimodalne sposobnosti.

Spekulacije dolazi li novi ChatGPT model

Neki analitičari i komentatori na X-u tvrde da OpenAI razvija potpuno novi Omni model, koji bi mogao biti predstavljen tokom ove godine.

Prema tim spekulacijama, novi model bi mogao:

  • objediniti sve multimodalne sposobnosti u jednoj arhitekturi
  • dodatno unaprijediti glasovnu komunikaciju
  • omogućiti napredniju real-time interakciju sa AI sistemima
  • potencijalno postati nova generacija ChatGPT modela

Za sada nema zvanične potvrde, ali činjenica da se ova tema sve češće pojavljuje među ljudima iz industrije pokazuje da je razvoj potpuno omni AI sistema vjerovatno jedan od glavnih pravaca razvoja u narednom periodu.

Šta bi Omni model značio za korisnike

Ako se pojavi pravi full omni model, to bi značilo da će AI asistenti moći:

  • gledati video i komentarisati ga u realnom vremenu
  • razgovarati prirodno kao sa čovjekom
  • analizirati dokumente, slike i podatke istovremeno
  • generisati tekst, slike i glas u jednoj interakciji

Drugim riječima, AI bi postao univerzalni digitalni interfejs za gotovo sve vrste informacija.