AI troškovi izmakli kontroli token panika u firmama

Direktori na Databricks konferenciji otvoreno govore: AI inference troškovi ruiniraju IT budžete. CFO-ovi dolaze s kosilicama. Anthropic i OpenAI direktno pogođeni. Šta to konkretno znači za firme u regionu koje plaćaju ChatGPT i Claude pretplatu.

AI token troškovi firme token panika enterprise 2026

Na najvećoj AI konferenciji za enterprise, direktor Databricksa rekao je naglas ono što CFO-ovi šapatom govore u hodnicima: troškovi AI inferencije su "potpuno neodrživni".

Na Databricks Data i AI Summitu, novinar koji je razgovarao s direktorima iz različitih kompanija dobio je tri citata koji opisuju atmosferu bolje od svakog izvještaja: "Naš CFO će polupiti kad dođu troškovi inferencije," "Coding agenti su nam tokene račune doveli do ludila," i "Prošle godine su direktori puštali da sve cvijeta; sad dolaze s kosilicama." Ali Ghodsi, CEO Databricksa, stavio je to u kontekst: "To je potpuno neodrživo za organizacije." I odmah zatim: pitanje broj jedan koje dobijaju od klijenata je "kako smanjiti troškove a da nastavimo investirati u AI?"

Troškovi AI inferencije (plaćanje po tokenu za modele poput ChatGPT-a i Claudea) prekoračili budžete u velikom broju enterprise kompanija
Coding agenti posebno krivi za eksploziju troškova
Dva rješenja se kristaliziraju: pametniji odabir modela i lokalno pokretanje open-source modela
OpenAI i Anthropic su direktno pogođeni, posebno Anthropic koji je profitirao od "neograničenog token pristupa" zaposlenima
Databricks lansirao Unity AI Gateway (kontrola troškova), Omnigent (upravljanje coding agentima) i Genie One (enterprise agentic platforma)

Šta se tačno desilo

Na Databricks Data + AI Summitu 2026. nije bilo skriveno pitanje nego ono koje je CEO sam otvorio u uvodnom govoru troškovi AI inferencije izmakli su kontroli u velikom dijelu enterprise sektora.

Problem je konceptualno jednostavan. Kompanije su dale zaposlenima pristup naprednim AI modelima poput GPT-4o, Claude 3.5 Sonnet ili Gemini 1.5 Pro, bez ograničenja. Modeli se naplaćuju po tokenu, token je jedinica teksta (otprilike četiri karaktera). Složena pitanja, dugi dokumenti, višekratni razgovori i, posebno, coding agenti koji autonomno generišu i reviziraju kod, sve to troši tokene brzo i skupo.

Ghodsi je to opisao jasno: koristiš frontier model za jednostavno pitanje kao da koristiš motornu pilu da odsječeš tratinčicu. Alat radi posao, ali si preplatila.

Dva rješenja postaju industrijski standard.

Prvo je odabir modela. Veliki broj upita koji idu na ChatGPT, Claude i Gemini mogao bi biti odrađen jeftinijim, manjim ili domenski specifičnim modelima. GPT-4o-mini, Claude Haiku ili lokalni open-source modeli poput Llame koštaju višestruko manje za iste rutinske zadatke.

Drugo je hibridno računarstvo. Pokretanje open-source modela lokalno na vlastitom hardveru eliminira trošak po tokenu. Komplikacija: mora se upravljati prometom upita tako da se lokalni kapacitet koristi do maksimuma, umjesto da se plaća po tokenu kad lokalni sistem bude zauzet.

Anthropic i OpenAI kraj slobodnog "tokenmaxxinga"

Ova promjena direktno pogađa kompanije kojima je neograničen pristup tokenima bio biznis model.

Anthropic je posebno profitirao od prakse u kojoj su enterprise klijenti kupili pristup i dali zaposlenima neograničenu upotrebu. Vladimirovi prihodi su rasli dok su tokeni tekli. Sad CFO-ovi dolaze s kosilicama.

Za OpenAI situacija je slična. Oba su najveće žrtve onoga što autor teksta naziva "tokenmaxxing", stanja u kojem preduzeća troše na tokene bez mjerenja vrijednosti koja se dobija.

Ovaj pritisak nije teorijski. Kombinovano s pritiskom rasta OpenAI-jevih gubitaka i konsolidacijom tržišta, čini 2026. godinom u kojoj slobodni dani neograničenih AI pretplata za enterprise polako završavaju.

Databricks rješenja: Unity AI Gateway, Omnigent i Genie One

Databricks nije samo dijagnostifikovao problem, lansirao je i alate.

Unity AI Gateway je platforma za upravljanje AI potrošnjom. Daje vidljivost u to koliko tokena organizacija troši, po korisniku i po zadatku, s mogućnošću postavljanja tvrdog budžetskog limita i upozorenja po korisniku. Što je važnije, automatski rutira upite na najodgovarajući model po kombinaciji kvalitete i troška.

Omnigent je open-source meta-harness za pokretanje AI agenata: Claude Code, Codex, Cursor i ostali coding agenti rade kroz njega uz centralizovanu kontrolu troškova, pravila i observability. Beta verzija je upravo lansirana kao upravljana usluga na Databricksu.

Genie One je enterprise agentic platforma za poslovne timove, s cijenama baziranim na upotrebi, ne na sjedištu. Svaka organizacija dobija do deset dolara besplatno po korisniku miesečno.

Naša perspektiva: šta ovo znači za firme u regionu

Enterprise panika iz San Francisca i Nürnberga relevantna je i za firmu od deset zaposlenih u Sarajevu ili Beogradu, samo u manjem obimu.

Ako plaćaš ChatGPT Teams za tim od desetero ljudi, to je oko 300 dolara mjesečno. Za taj novac svaki zaposleni može nesmetano koristiti GPT-4o za svaki zadatak, od složene analize do pitanja tipa "kako se piše ova rečenica". Napredni model svaki od tih upita naplaćuje isto, bez obzira na složenost.

Konkretna ušteda za manji tim ne dolazi nužno iz prebacivanja na Databricks, nego iz promjene navike koristiti pravi model za pravi zadatak.

Za rutinsku obradu teksta, sažimanje, prijevod i jednostavno sortiranje podataka, modeli poput Claude Haiku, GPT-4o-mini ili Gemini Flash koštaju višestruko manje i daju iste rezultate. Za složenu analizu, kod i višekornu argumentaciju, tada ide Opus ili GPT 5.5.

Za firme koje koriste API direktno i grade vlastite alate, ovo je razlika između maintainable i unsustainable troška na skali.

Zaključak

"Token panika" nije efemeralni problem nego strukturna promjena u tome kako firme razmišljaju o AI troškovima. Prošla je faza kada su direktori odobravali neograničen AI pristup bez mjerenja povrata. Sad dolaze CFO-ovi s kosilicama, a industrija im nudi prve prave alate za kontrolu.

Za 2026. pratiti: da li će OpenAI i Anthropic prilagoditi modele naplate enterprise klijentima, i koliko brzo će hibridni compute modeli (lokalni modeli uz cloud) postati standard umjesto eksperimenta.

Ako pratiš kako troškovi AI alata utiču na odluke koje donosiš u firmi, svake sedmice to prevodimo na konkretan jezik. Prijavi se na AI Balkan newsletter.

Postani clan