
Opasno otkriće: Hakeri koriste veštačku inteligenciju za napade na veštačku inteligenciju - i uspeva im
Bilo je samo pitanje vremena kada će hakeri početi da koriste veštačku inteligenciju za napad na veštačku inteligenciju – i taj trenutak je konačno stigao. Novo istraživačko otkriće učinilo je napade ubrizgavanjem promptova (prompt injection) bržim, lakšim i zastrašujuće efikasnim, čak i protiv navodno sigurnih sistema poput Google Gemini modela.
Napadi ubrizgavanjem promptova predstavljaju jedan od najpouzdanijih načina za manipulaciju velikim jezičkim modelima (LLM). Ubacivanjem zlonamernih instrukcija u tekst koji AI čita – poput komentara u bloku koda ili sakrivenog teksta na veb stranici – napadači mogu naterati model da ignoriše svoja prvobitna pravila.
To može značiti curenje privatnih podataka, davanje pogrešnih odgovora ili izvršavanje drugih neželjenih ponašanja. Međutim, problem je što napadi ubrizgavanjem promptova tipično zahtevaju mnogo "ručnih" pokušaja i grešaka da bi uspeli, posebno kod modela zatvorene arhitekture kao što su GPT-4 ili Gemini, gde programeri ne mogu da vide izvorni kod ili podatke za treniranje.
Nova tehnika pod nazivom "Fun-Tuning", ipak, sve to menja. Razvijena od strane tima univerzitetskih istraživača, ova metoda koristi Google API za fino podešavanje Gemini modela kako bi automatski kreirala ubrizgavanja promptova sa visokom stopom uspeha. Nalazi istraživača trenutno su dostupni u preliminarnom izveštaju.
AI oružje koje samo sebe usavršava
Zloupotrebom interfejsa za treniranje Gemini modela, Fun-Tuning pronalazi najbolje "prefikse" i "sufikse" kojima će obuhvatiti zlonamerni prompt napadača, dramatično povećavajući šanse da će biti izvršen. Rezultati napada govore sami za sebe.
U testiranju, Fun-Tuning je postigao stopu uspeha do 82 procenta na nekim Gemini modelima, u poređenju sa manje od 30 procenta kod tradicionalnih napada. Radi tako što iskorišćava suptilne tragove u procesu finog podešavanja – poput toga kako model reaguje na greške u treniranju – i pretvara ih u povratne informacije koje usavršavaju napad. Možemo ga zamisliti kao sistem navođenja raketa sa veštačkom inteligencijom, ali za napade ubrizgavanjem promptova.
Još više zabrinjava činjenica da se napadi razvijeni za jednu verziju Gemini modela lako prenose na druge. To znači da jedan napadač potencijalno može razviti jedan uspešan prompt i implementirati ga na više platformi. A pošto Google nudi ovaj API za fino podešavanje besplatno, trošak izvođenja takvog napada iznosi svega oko 10 dolara za računarsko vreme.
Google je priznao pretnju, ali nije komentarisao da li planira da promeni svoje funkcije za fino podešavanje. Istraživači iza Fun-Tuning upozoravaju da odbrana od ove vrste napada nije jednostavna – uklanjanje ključnih podataka iz procesa treniranja učinilo bi alat manje korisnim za programere. Ali ostavljanje istih olakšava napadačima da ih iskoriste.
Jedno je sigurno - napadi ubrizgavanjem promptova poput ovog znak su da je igra ušla u novu fazu, gde veštačka inteligencija nije samo meta, već i oružje.
(Telegraf.rs)
Video: Građani Šapca treba da budu spokojni, ne očekujemo značajnija dešavanja vezano za izlivanje reka
Telegraf.rs zadržava sva prava nad sadržajem. Za preuzimanje sadržaja pogledajte uputstva na stranici Uslovi korišćenja.