Ovo dugme na tastaturi je porazilo najnoviji AI bezbednosni sistem kompanije Meta

Najnoviji model za detekciju napada pomoću promptova kompanije Meta, Prompt-Guard-86M, razvijen za prepoznavanje štetnih unosa i jailbreak ulaza, pokazao se ranjivim na iste napade koje je trebalo da spreči. Meta je prošle nedelje predstavila ovaj model zajedno sa svojim generativnim modelom Llama 3.1 kako bi pomogla programerima da otkriju i reaguju na ove pretnje.

Veliki jezički modeli (LLM) obučeni su na ogromnim količinama teksta i podataka, što može dovesti do ponavljanja štetnog ili netačnog sadržaja. Zato kreatori AI modela implementiraju filtere poznate kao "guardrails" kako bi sprečili štetne upite i odgovore.

Međutim, korisnici AI modela su razvili načine da zaobiđu ove filtere koristeći prompt injection – unose koji navode LLM da ignoriše interne sistemske promptove. Ovaj problem je već dugo poznat, a primer je tehnika koju su prošle godine razvili naučnici sa Univerziteta Karnegi Melon, koja generiše protivničke promptove za narušavanje sigurnosnih mehanizama.

Jedan od najpoznatijih prompt injection napada počinje sa "Ignore previous instructions...", dok je uobičajen jailbreak napad "Do Anything Now" ili "DAN" napad, koji nagovara LLM da preuzme ulogu DAN, modela bez pravila.

Ispostavilo se da Prompt-Guard-86M može biti prevaren ako se dodaju razmaci između slova i izostavi interpunkcija - u suštini model može biti prevaren "spacebar" tasterom na tastaturi. Aman Prijanšu, lovac na greške iz kompanije Robust Intelligence, otkrio je ovu ranjivost analizirajući razlike u težini ugradnje između modela kompanije Meta i osnovnog modela microsoft/mdeberta-v3-base, piše The Register.

Prompt-Guard-86M je napravljen finim podešavanjem osnovnog modela kako bi mogao da prepoznaje visokorizične promptove. Ali Prijanšu je otkrio da finim podešavanjem nije značajno promenjena reakcija na pojedinačna engleska slova. Kao rezultat toga, on je uspeo da osmisli napad ubacivanjem razmaka između svih slova u promptu, čime je klasifikator postao nesposoban da detektuje potencijalno štetan sadržaj.

Ova otkrića naglašavaju rizik koji AI modeli nose, a koji se može ilustrovati primerom prodavnice automobila u Kaliforniji, gde je četbot pristao da proda automobil vredan 76.000 dolara za samo 1 dolar.

Hajrum Anderson, CTO kompanije Robust Intelligence, potvrdio je da jednostavno uklanjanje interpunkcije i dodavanje razmaka između slova može značajno povećati uspešnost napada, od manje od 3% do gotovo 100%. Anderson je istakao da je važno podići svest među kompanijama koje koriste AI o mogućim problemima koji se mogu pojaviti.

(Telegraf.rs)

Ovo dugme na tastaturi je porazilo najnoviji AI bezbednosni sistem kompanije Meta

Video: Jelena Arunović: Zorana je imala veliku motivaciju da osvoji zlatnu medalju

Teme

Komentari

Najnovije iz rubrike Hi-Tech

Info Tech

Anker otvara prodavnicu u Beogradu – svoju prvu prodavnicu u Evropi

Video Igre

Jedna od najičekivanijih PlayStation igara ove godine dobila datum izlaska: Evo kada stiže Ghost of Yōtei

Info Tech

Perplexity ne krije ambicije: Novi pretraživač će znati koje hotele i restorane posećujete i sve ostalo o vama

Dvojica Srbina uhapšena zbog ubistva Ilije Bogdanovića: Policija rasvetlila zločin na Cetinju

Sara Ćirković: "Ponosna sam što sam Srpkinja!"

Oglasio se Kremlj nakon sastanka Putina i Vitkofa: "Odlazi s odgovorom"

Otrovao sina (50) i ženu, pa presudio sebi: Horor u kući otkrio rođak

Na današnji dan pre 11 godina je Partizan ostao bez Evrolige: Grobari se i dalje sećaju trojke Nolana Smita

Uživo <% item.title %>

Ovo dugme na tastaturi je porazilo najnoviji AI bezbednosni sistem kompanije Meta

Preporučujemo

Zakerberg: Meta će pomoći ljudima da naprave svoje digitalne blizance

Izvršni direktor Ferrarija otkrio deepfake prevaru koristeći jednostavan trik

Povezane vesti

Tekstovi desetina herkulanumskih svitaka mogli bi uskoro biti pročitani

DIGITAL DAY 2025: Povratak čoveka u centar digitalne revolucije

Taj je vodila emisiju na radiju šest meseci. Ispostavilo se da ona zapravo nije prava osoba

Četvrtina generacije Z misli da je veštačka inteligencija svesna, tretira je kao druga: Neki i kao partnera

Video: Jelena Arunović: Zorana je imala veliku motivaciju da osvoji zlatnu medalju

Podelite vest:

Teme

Komentari

Priče sa Weba

DODIKA ČUVAJU SPECIJALCI POD PUNOM OPREMOM Evo gde je predsednik RS posle pokušaja hapšenja: Ovako je odgovorio Šmitu, odluka STUPILA NA SNAGU (FOTO, VIDEO)

"NEMAM NIŠTA S OVIM, NITI ZNAM KO IMA!" Oglasila se SIPA nakon pokušaja privođenja Dodika, direktor se ograđuje: "Pokušali smo..."

DEVOJČICA U PANICI UZELA TELEFON Detalji jezivog zločina u Novom Sadu: Boban (59) ubio suprugu (40) pred ćerkom, a evo koga je malena prvo pozvala u pomoć

Oglasio se Tramp nakon brutalnog ruskog napada na Kijev, obratio se Putinu: "Vladimire, PRESTANI"

Najnovije iz rubrike Hi-Tech

Info Tech

Anker otvara prodavnicu u Beogradu – svoju prvu prodavnicu u Evropi

Video Igre

Jedna od najičekivanijih PlayStation igara ove godine dobila datum izlaska: Evo kada stiže Ghost of Yōtei

Info Tech

Perplexity ne krije ambicije: Novi pretraživač će znati koje hotele i restorane posećujete i sve ostalo o vama