Kada agenti preuzmu fiziku, problem više nije brzina već značenje

Vještačka inteligencija ulazi u fiziku visokih energija ne kao zamjena za naučnike, već kao rješenje za hronično usko grlo. Brzina raste, ali rizik pogrešnog zaključivanja postaje dio sistema.

Kada agenti preuzmu fiziku, problem više nije brzina već značenje
Tamni, filmski prikaz laboratorije sa sudarima čestica i apstraktnim tokovima podataka.

U fizici visokih energija već odavno ne nedostaje podataka. Sudari čestica se dešavaju brže nego što ljudi mogu pisati analitičke skripte, a razmak između sirovih mjerenja i objavljenog rada postaje sve veći. U tom prostoru, između mašina koje proizvode terabajte i istraživača koji ih pokušavaju razumjeti, nastaje usko grlo koje više nije eksperimentalno nego ljudsko.

Zato nije slučajno da se priča o agentima velikih jezičkih modela pojavljuje upravo sada. Ne kao futuristička demonstracija, već kao odgovor na realan operativni problem u savremenoj nauci. Laboratorije ne traže čudo, nego rasterećenje.

Šta se zapravo desilo

Istraživači sa University of California, Berkeley predstavili su okvir u kojem agenti zasnovani na velikim jezičkim modelima automatizuju dijelove analize u fizici visokih energija. Fokus nije na otkrivanju novih čestica, nego na onome što najviše troši vrijeme: pisanju, provjeravanju i iteriranju koda za obradu i vizualizaciju podataka.

Automating High Energy Physics Data Analysis with LLM-Powered Agents
We present a proof-of-principle study demonstrating the use of large language model (LLM) agents to automate a representative high energy physics (HEP) analysis. Using the Higgs boson diphoton cross-section measurement as a case study with ATLAS Open Data, we design a hybrid system that combines an LLM-based supervisor-coder agent with the Snakemake workflow manager. In this architecture, the workflow manager enforces reproducibility and determinism, while the agent autonomously generates, executes, and iteratively corrects analysis code in response to user instructions. We define quantitative evaluation metrics including success rate, error distribution, costs per specific task, and average number of API calls, to assess agent performance across multi-stage workflows. To characterize variability across architectures, we benchmark a representative selection of state-of-the-art LLMs spanning the Gemini and GPT-5 series, the Claude family, and leading open-weight models. While the workflow manager ensures deterministic execution of all analysis steps, the final outputs still show stochastic variation. Although we set the temperature to zero, other sampling parameters (e.g., top-p, top-k) remained at their defaults, and some reasoning-oriented models internally adjust these settings. Consequently, the models do not produce fully deterministic results. This study establishes the first LLM-agent-driven automated data-analysis framework in HEP, enabling systematic benchmarking of model capabilities, stability, and limitations in real-world scientific computing environments. The baseline code used in this work is available at https://huggingface.co/HWresearch/LLM4HEP. This work was accepted as a poster at the Machine Learning and the Physical Sciences (ML4PS) workshop at NeurIPS 2025. The initial submission was made on August 30, 2025.

U takvom sistemu, agenti koriste modele poput OpenAI-ovog GPT-5 ili Anthropic-ovog Claudea 3.5 da preuzmu ulogu pomoćnog istraživača. Oni generišu skripte, povezuju više koraka analize i vraćaju rezultate koje ljudski stručnjaci potom provjeravaju. Cilj je da se skrati ciklus između ideje i upotrebljivog rezultata, posebno u okruženjima poput CERN-a.

Zašto je ovo uopšte bitno

Ako agent može pouzdano da zamijeni sate rutinskog rada, onda se mijenja ekonomija naučnog istraživanja. Brža analiza u fizici visokih energija ne znači samo više radova, nego i raniji pristup znanju koje kasnije utiče na energetiku, materijale ili medicinsku tehnologiju.

Ono što ovaj pristup pomjera iz sfere demonstracije u strategiju jeste mjerljiva efikasnost. Automatizacija “supervizor–koder” petlje oslobađa istraživače od ponavljanja i omogućava im da se bave interpretacijom, a ne sintaksom. Testovi pokazuju da agenti mogu izvesti višekoračne zadatke nad velikim skupovima podataka bez očiglednih logičkih lomova. To je prag koji je industrija dugo čekala.

Šta se previđa u javnoj priči

Manje se govori o riziku koji nije tehnički, nego epistemološki. Jezički modeli nemaju urođeno razumijevanje fizičkih zakona. Oni znaju kako izgleda dobar odgovor, ali ne i zašto je tačan. U kontekstu fizike, to otvara prostor za halucinacije konstanti ili pogrešno tumačenje statističkog šuma kao signala.

Bez stroge verifikacije i fizički informisanih ograničenja, automatizacija lako može skalirati lošu nauku. Problem nije da agent pogriješi, nego da pogriješi uvjerljivo i brzo.

Šira slika

Ovo se uklapa u širi pomak u kojem se vještačka inteligencija ne koristi samo za ubrzanje, već za preuzimanje uloga koje su nekada bile rezervisane za ljude. Razlika je u tome što nauka, za razliku od biznisa, nema luksuz da “iterira u produkciji”. Greške ovdje ne znače loš proizvod, nego pogrešno razumijevanje prirode.

Zato se linija fronta pomjera: od agenata koji pišu kod ka agentima koji moraju razumjeti domenu u kojoj taj kod djeluje.

Naš zaključak

Ako agenti postanu sastavni dio naučnih tokova rada, ključno pitanje više neće biti koliko su brzi, nego koliko znaju kada da stanu.