Ovo dugme na tastaturi je porazilo najnoviji AI bezbednosni sistem kompanije Meta

31/07/24 | 15:30

Nikola Momčilović

Vreme čitanja: oko 2 min.

Ispostavilo se da Prompt-Guard-86M može biti prevaren ako se dodaju razmaci između slova i izostavi interpunkcija

Foto: Shutterstock

Najnoviji model za detekciju napada pomoću promptova kompanije Meta, Prompt-Guard-86M, razvijen za prepoznavanje štetnih unosa i jailbreak ulaza, pokazao se ranjivim na iste napade koje je trebalo da spreči. Meta je prošle nedelje predstavila ovaj model zajedno sa svojim generativnim modelom Llama 3.1 kako bi pomogla programerima da otkriju i reaguju na ove pretnje.

Veliki jezički modeli (LLM) obučeni su na ogromnim količinama teksta i podataka, što može dovesti do ponavljanja štetnog ili netačnog sadržaja. Zato kreatori AI modela implementiraju filtere poznate kao "guardrails" kako bi sprečili štetne upite i odgovore.

Međutim, korisnici AI modela su razvili načine da zaobiđu ove filtere koristeći prompt injection – unose koji navode LLM da ignoriše interne sistemske promptove. Ovaj problem je već dugo poznat, a primer je tehnika koju su prošle godine razvili naučnici sa Univerziteta Karnegi Melon, koja generiše protivničke promptove za narušavanje sigurnosnih mehanizama.

Jedan od najpoznatijih prompt injection napada počinje sa "Ignore previous instructions...", dok je uobičajen jailbreak napad "Do Anything Now" ili "DAN" napad, koji nagovara LLM da preuzme ulogu DAN, modela bez pravila.

Ispostavilo se da Prompt-Guard-86M može biti prevaren ako se dodaju razmaci između slova i izostavi interpunkcija - u suštini model može biti prevaren "spacebar" tasterom na tastaturi. Aman Prijanšu, lovac na greške iz kompanije Robust Intelligence, otkrio je ovu ranjivost analizirajući razlike u težini ugradnje između modela kompanije Meta i osnovnog modela microsoft/mdeberta-v3-base, piše The Register.

Prompt-Guard-86M je napravljen finim podešavanjem osnovnog modela kako bi mogao da prepoznaje visokorizične promptove. Ali Prijanšu je otkrio da finim podešavanjem nije značajno promenjena reakcija na pojedinačna engleska slova. Kao rezultat toga, on je uspeo da osmisli napad ubacivanjem razmaka između svih slova u promptu, čime je klasifikator postao nesposoban da detektuje potencijalno štetan sadržaj.

Ova otkrića naglašavaju rizik koji AI modeli nose, a koji se može ilustrovati primerom prodavnice automobila u Kaliforniji, gde je četbot pristao da proda automobil vredan 76.000 dolara za samo 1 dolar.

Hajrum Anderson, CTO kompanije Robust Intelligence, potvrdio je da jednostavno uklanjanje interpunkcije i dodavanje razmaka između slova može značajno povećati uspešnost napada, od manje od 3% do gotovo 100%. Anderson je istakao da je važno podići svest među kompanijama koje koriste AI o mogućim problemima koji se mogu pojaviti.

(Telegraf.rs)

Teme

Pošaljite komentar

Sve vesti iz rubrike Hi-Tech

Ovo dugme na tastaturi je porazilo najnoviji AI bezbednosni sistem kompanije Meta

Ispostavilo se da Prompt-Guard-86M može biti prevaren ako se dodaju razmaci između slova i izostavi interpunkcija

Preporučujemo

Zakerberg: Meta će pomoći ljudima da naprave svoje digitalne blizance

Izvršni direktor Ferrarija otkrio deepfake prevaru koristeći jednostavan trik

Teme

Ovo dugme na tastaturi je porazilo najnoviji AI bezbednosni sistem kompanije Meta

Ispostavilo se da Prompt-Guard-86M može biti prevaren ako se dodaju razmaci između slova i izostavi interpunkcija

Preporučujemo

Zakerberg: Meta će pomoći ljudima da naprave svoje digitalne blizance

Izvršni direktor Ferrarija otkrio deepfake prevaru koristeći jednostavan trik

Teme

Povezane vesti

Taj je vodila emisiju na radiju šest meseci. Ispostavilo se da ona zapravo nije prava osoba

Ljudi se masovno zaljubljuju u veštačku inteligenciju: Stručnjaci upozoravaju na opasne posledice

Opasno otkriće: Hakeri koriste veštačku inteligenciju za napade na veštačku inteligenciju - i uspeva im

Bil Gejts: "Za 10 godina AI će zameniti lekare i nastavnike — ljudi neće biti potrebni za većinu stvari"

Kako "Neoprezni ljudi" postaju sve veći problem za Metu

Direktor OpenAI upozorio: "Možda će nam trebati manje programera" jer AI preuzima kodiranje

Veoma moćna veštačka inteligencija stiže brže nego što mislimo - i nismo spremni za to

Od ovog datuma će Amazon slušati sve što kažete Alexi - i ne možete to sprečiti

Tražili ga Amazon i Meta, sve ih je odbio da bi pomagao programerima da varaju na razgovorima za posao

Samosvesni roboti sada mogu da uče kao ljudi: Naučnici napravili ogroman preokret u robotici

Video dana

Lončar: "Ono što se danas desilo u NS i Nišu nije ni u fašističko vreme"

Nikolija i Relja stigli na promociju Nikolijinog novog albuma: Ona u izazovnoj mrežastoj haljini

Ovo je mesto na kom se dogodilo ubistvo na Zvezdari

Najnovije iz rubrike Hi-Tech

SpaceX proslavio 250. lansiranje Starlink satelita spektakularnom fotografijom

Ova neverovatna ChatGPT Pro funkcija postaje besplatna za sve korisnike, ali postoji caka

Aplikacije koje mogu da "skinu odeću" sa bilo čije fotografije postaju dostupnije: Ova zemlja traži zabranu

Samsung Galaxy S25 Ultra posle dva i po meseca: I dalje neprikosnoven u svetu Android telefona

Rimejk Resident Evil 4 najbrže dostigao 10 miliona prodatih primeraka u istoriji serijala