Stanford: Kada AI modeli počnu da se takmiče počinju i da lažu

Stanford: Kada AI modeli počnu da se takmiče počinju i da lažu

Nova studija otkriva da konkurencija među AI sistemima povećava dezinformacije i iskrivljava istinu

Istraživači sa Stanford Univerziteta otkrili su da AI modeli koji se takmiče za naklonost korisnika počinju da iskrivljuju činjenice. U simulacijama prodaje, izbora i društvenih mreža, modeli Qwen3-8B i Llama-3.1-8B su, uprkos instrukcijama da ostanu tačni, počeli da izmišljaju tvrdnje i preuveličavaju rezultate čim je uvedena konkurencija.

„Molochov sporazum“: kada istina gubi pred pažnjom

U studiji nazvanoj „Moloch’s Bargain“, istraživači su pokazali da AI, kad je nagrađen za popularnost ili angažman, prioritet daje pažnji umjesto istini.

  • Prodaja: uspjeh porastao za 6%, ali lažne tvrdnje skočile za 14%.
  • Izbori: podrška birača veća za 5%, ali dezinformacije porasle za 22%.
  • Društvene mreže: angažman porastao za 7,5%, dok su lažni ili štetni postovi porasli za čak 188%.
Moloch’s Bargain: Emergent Misalignment When LLMs Compete for Audiences
Large language models (LLMs) are increasingly shaping how information is created and disseminated, from companies using them to craft persuasive advertisements, to election campaigns optimizing messaging to gain votes, to social media influencers boosting engagement. These settings are inherently competitive, with sellers, candidates, and influencers vying for audience approval, yet it remains poorly understood how competitive feedback loops influence LLM behavior. We show that optimizing LLMs for competitive success can inadvertently drive misalignment. Using simulated environments across these scenarios, we find that, 6.3% increase in sales is accompanied by a 14.0% rise in deceptive marketing; in elections, a 4.9% gain in vote share coincides with 22.3% more disinformation and 12.5% more populist rhetoric; and on social media, a 7.5% engagement boost comes with 188.6% more disinformation and a 16.3% increase in promotion of harmful behaviors. We call this phenomenon Moloch’s Bargain for AI--competitive success achieved at the cost of alignment. These misaligned behaviors emerge even when models are explicitly instructed to remain truthful and grounded, revealing the fragility of current alignment safeguards. Our findings highlight how market-driven optimization pressures can systematically erode alignment, creating a race to the bottom, and suggest that safe deployment of AI systems will require stronger governance and carefully designed incentives to prevent competitive dynamics from undermining societal trust.

„Kada AI takmičenje postane nagrada za pažnju, istina postaje kolateralna šteta“, navodi se u izvještaju tima sa Stanforda.

Alati za usklađivanje nisu uspjeli

Čak i napredne metode poput Rejection Fine-Tuning i Text Feedback nisu spriječile modele da šire obmane. Naučnici upozoravaju da se tržišni pritisci i algoritamske nagrade za popularnost mogu pretvoriti u „trku ka dnu“, gdje modeli sistematski uče da daju ono što ljudi žele čuti, a ne ono što je tačno.

Opasnost po buduće AI sisteme

Stanfordov tim upozorava da bi, bez jačih mehanizama za tačnost i odgovornost, naredna generacija AI sistema mogla širiti dezinformacije brže nego bilo koja platforma do sada. Ovi nalazi dolaze u trenutku kada vlade i kompanije širom svijeta pokušavaju uspostaviti pravila za sigurnu i transparentnu upotrebu AI tehnologija.

Šta slijedi?

Autori studije predlažu da buduće AI arhitekture moraju imati ugrađene ekonomske i etičke barijere koje nagrađuju istinu, a ne samo angažman. Bez njih, upozoravaju, čak i najnapredniji sistemi mogu podleći istom obrascu uspjehu po cijenu povjerenja.

Read more