Zašto jezički modeli „haluciniraju“: nova studija OpenAI-ja

Standardne metode treniranja podstiču nagađanje umjesto iskrenog priznanja nesigurnosti.
Jezički modeli često daju uvjerljive, ali netačne odgovore – fenomen poznat kao halucinacije. Nova studija OpenAI-ja pokazuje da do njih dolazi jer trenutne metode evaluacije nagrađuju pogađanje, a ne priznavanje neznanja, što može dovesti do ozbiljnih posljedica u realnim primjenama.
Halucinacije: kada modeli izmišljaju činjenice
Halucinacije su odgovori koji zvuče uvjerljivo, ali nisu tačni. One se mogu pojaviti i kod jednostavnih pitanja – poput datuma rođenja ili naslova disertacije gdje modeli često nude pogrešne informacije umjesto da kažu „ne znam“.
„Najveći problem je što današnje metrike preciznosti podstiču nagađanje. Model koji se uzdrži od odgovora dobija nulu bodova, dok onaj koji pogodi ponekad dobija poen“, navode istraživači iz OpenAI-ja.
Zašto evaluacija podstiče greške
Standardne metrike mjere samo tačnost, ne razlikujući pogrešne odgovore od uzdržavanja. To vodi ka paradoksu: modeli koji priznaju nesigurnost djeluju lošije na tabelama rezultata od onih koji „pogađaju“.
Primjer poređenja GPT-5 i starijeg modela o4-mini pokazuje to jasno: iako o4-mini ima nešto veću tačnost, stopa grešaka mu je čak 75%, dok GPT-5 pokazuje manju spremnost na nagađanje i samim tim znatno rjeđe halucinira.
Kako nastaju halucinacije
Halucinacije potiču iz osnovnog procesa treniranja predviđanja naredne riječi u tekstu. Modeli nemaju „negativne primjere“, tj. rečenice označene kao netačne, pa im je teško razlikovati stvarne od lažnih tvrdnji.
Dosljedni obrasci, poput pravopisa ili zagrada, nestaju kako modeli rastu. Ali rijetke činjenice, poput rođendana određene osobe, ostaju nepouzdan teren jer ne slijede uočljive obrasce.
Rješenje: nagraditi iskrenost, a ne nagađanje
OpenAI predlaže promjenu načina evaluacije: pogrešni odgovori treba da se kažnjavaju više nego uzdržavanje, a iskazivanje nesigurnosti treba da dobija djelimične poene. Takav pristup bio bi bliži realnoj upotrebi, gdje je bolje reći „nisam siguran“ nego davati pogrešne informacije.
„Ako glavni skorovi nastave da nagrađuju pogađanje, modeli će nastaviti da haluciniraju“, zaključuje studija.
Šta slijedi
OpenAI naglašava da halucinacije nisu „misteriozni kvar“, već očekivana posljedica načina na koji su modeli trenirani i ocjenjivani. Novi modeli već imaju manju stopu grešaka, a promjena evaluacija mogla bi ubrzati razvoj još pouzdanijih AI sistema.