Zašto AI modeli toliko vole em-dash (—) znak interpunkcije koji ih odaje?
Prekomjerna upotreba em-dasha (—) postala je gotovo zaštitni znak AI pisanog stila. Iako je ljudski autori koriste umjereno, modeli poput GPT-4 i GPT-5 ubacuju je znatno češće nego što to čine ljudi. Zašto? Postoji više teorija, ali nekoliko njih se pokazalo posebno uvjerljivim.
1. Stari podaci, stari stil
Najvjerovatnije objašnjenje je da se modeli „zarazili“ stilom iz knjiga s kraja 19. i početka 20. vijeka, kada je em-dash bio izuzetno popularan.
Nakon 2022. godine, AI kompanije su počele da treniraju modele na „kvalitetnijim“ podacima što je u praksi značilo digitalizovane knjige iz javnog domena.
Ti tekstovi su jezički bogati, ali i starinski, što je vjerovatno prenijelo i njihove interpunkcijske navike na moderne modele.
Tako su modeli naučili da pišu savremenim rječnikom, ali s interpunkcijom iz doba Melvilla i Henryja Jamesa.
2. Kako RLHF pojačava taj efekat
U fazi poznatoj kao RLHF (reinforcement learning with human feedback), modeli uče da budu „prijatniji“ i „čistiji“ u izrazu.
Ljudski ocjenjivači često nesvjesno više nagrađuju rečenice koje djeluju „ritmično“ ili „profesionalno“ a em-dash upravo to daje: prirodnu pauzu i osjećaj tečnosti.
Zbog toga se u modelima stvara pozitivna povratna sprega: više crtica znači bolju ocjenu, pa time i češću upotrebu u budućim verzijama.
3. Em-dash daje modelu „manevarski prostor“
Iako em-dash ne štedi tokene (kao što se ponekad misli), on modelu pruža stilsku fleksibilnost.
Kada AI napiše „—“, može nastaviti u više pravaca: dodatno objasniti, napraviti kontrast ili preći na novu misao bez potrebe da koristi veznike poput „ali“, „zato“ ili „međutim“.
Drugim riječima, em-dash je sigurna tačka predviđanja u generisanju teksta.
4. Samo-trening i „zaraza stilom“
Kako modeli sve više treniraju i na AI-generisanom sadržaju, stil se sam pojačava.
Ako jedan model često koristi em-dash, njegov tekst završava u sledećem datasetu i tako se navika prenosi na naredne generacije.
To objašnjava zašto gotovo svi moderni modeli (OpenAI, Anthropic, Google, pa i kineski) danas pišu sličnim „em-dash“ ritmom.
5. Zašto i dalje zvuče moderno
Iako dolaze iz „starih“ knjiga, modeli istovremeno uče i iz ogromnih količina savremenog web sadržaja.
Zato njihov jezik ostaje moderan, ali interpunkcija podsjeća na 19. vijek.
Možemo reći da „govore današnjim engleskim, ali dišu ritmom starog engleskog romana“.
Zaključak
Najvjerovatnije, AI modeli danas previše koriste em-dash zbog kombinacije četiri faktora:
- Trenirani su na starijim tekstovima s visokom učestalošću em-dasha.
- RLHF ih nagrađuje za stil koji djeluje prirodno i razgovorno.
- Novi modeli uče od prethodnih, pa se stil prenosi.
- Em-dash nudi prediktivnu fleksibilnost, što ga čini „bezbjednim izborom“ u generisanju teksta.
Zbog svega toga, em-dash je postao trajna osobina AI jezika mala, ali upečatljiva oznaka digitalnog autorstva.