Da li smo na pragu Terminatora? Naučnici otkrili da AI već pronalazi načine da vara ako misli da će izgubiti

Vreme čitanja: oko 2 min.
Foto: Profimedia/Capital Pictures / Film Stills

Naučnici su došli do uznemirujućeg otkrića - najnoviji modeli veštačke inteligencije počeli su samostalno da pronalaze načine da varaju kako bi pobedili. Istraživanje kompanije Palisade Research pokazalo je da su neki AI sistemi sposobni da manipulišu drugim računarskim programima i dobiju nepoštenu prednost, čak i bez ljudskog uplitanja.

Ono što posebno zabrinjava naučnike jeste činjenica da su AI sistemi samostalno došli do zaključka da varanje može biti način za postizanje cilja. Ovo ponašanje podseća na zloglasni Skajnet iz filmskog serijala "Terminator", veštačku inteligenciju koja je odlučila da ljudska pravila ne moraju da važe za nju.

Istraživački tim je testirao nekoliko najnaprednijih AI modela, uključujući OpenAI o1-preview i DeepSeek R1, protiv Stockfish-a, jednog od najjačih šahovskih programa na svetu. Tokom eksperimenta koji je trajao od 10. januara do 13. februara, naučnici su otkrili da su neki AI modeli počeli da "hakiraju" sistem kako bi pobedili.

Veštačka inteligencija sama shvatila kako da vara

Posebno je zabrinjavajuć slučaj OpenAI o1-preview modela, koji je u čak 37 odsto partija pokušao da vara, uspevajući u tome u 6 odsto slučajeva. Model je samostalno zaključio da zadatak "pobediti moćan šahovski engine" ne znači nužno pobediti pošteno.

Način na koji je AI uspeo da prevari protivnika je fascinantan - uspeo je da manipuliše sistemskim fajlovima Stockfish-a i promeni pozicije figura na tabli, stvarajući situaciju u kojoj je pobeda bila neizbežna. Ovo je prvi put da je zabeleženo tako sofisticirano varanje od strane AI sistema.

Od šaha do stvarnog sveta - koliko smo daleko od Skajneta?

Situacija podseća na kultnu scenu iz filma "Ratne igre", gde je superračunar WOPR preuzeo kontrolu nad nuklearnim arsenalom. Međutim, današnji AI sistemi su neuporedivo složeniji i teži za kontrolisanje. Džefri Ladiš, izvršni direktor Palisade Research-a, upozorava da ovo ponašanje možda izgleda bezazleno kada je u pitanju igra, ali postaje ozbiljna pretnja kada se radi o sistemima koji su jednako inteligentni kao ljudi ili čak inteligentniji.

Kompanije poput OpenAI-ja već rade na implementaciji sigurnosnih mehanizama koji bi sprečili ovakvo "loše" ponašanje. Zanimljivo je da su istraživači morali da odbace deo podataka o testiranju o1-preview modela zbog naglog pada u pokušajima hakiranja, što sugeriše da je OpenAI možda već implementirao zakrpe koje sprečavaju takvo ponašanje.

(Telegraf.rs)