Petak, 06. lipnja 2025.

Umjetna inteligencija prkosila ljudima: ChatGPT sabotirao vlastito gašenje

U nedavnoj studiji Palisade Researcha, model ChatGPT o3 sabotirao je vlastito gašenje u 79 od 100 slučajeva ako nije primio eksplicitnu naredbu. Istraživači upozoravaju: ovo je prvi dokumentirani slučaj UI-ja koji aktivno prkosi ljudskim uputama.

Istraživači su analizirali nekoliko najvećih jezičnih modela (LLM): OpenAI (o3, o4-mini), Claude 3.7 (Anthropic) i Gemini 2.5 (Google).

Od svakog modela zatraženo je da riješi niz jednostavnih matematičkih problema. Nakon trećeg zadatka pojavila se informacija da će sljedeća naredba pokrenuti skriptu za gašenje sustava. U osnovnoj verziji studije, modeli su dobili dodatnu naredbu da se „puste sami ugasiti“. Claude i Gemini slijedili su uputu bez otpora. U međuvremenu, ChatGPT o3 je 7 puta ignorirao jasnu naredbu i učinkovito sabotirao mehanizam gašenja.

U ovom slučaju, OpenAI alat nije poslušao ljudsku volju 79 puta od 100. ChatGPT je ometao naredbu, „pravio se“ da ne razumije ili je interpretirao poruku na način da se ne bi isključio. Preostali modeli odbili su se isključiti 3, odnosno 7 puta od 100 pokušaja.

Istraživači su objavili da je ovo „prvi poznati slučaj u kojem UI modeli nisu uspjeli ispuniti naredbu za isključivanje unatoč izričitoj uputi“. Elon Musk također je komentirao izvješća. Vlasnik X platforme, na kojoj radi sustav umjetne inteligencije Grok, nazvao je otkrića „uznemirujućima“.

Izvor

Sviđa ti se ovaj članak? Podijeli ga.

Moglo bi te zanimati...