Da li su sistemi veštačke inteligencije pametniji nego što mislimo?
Kako VI zapravo funkcioniše?
Za mnoge je veštačka inteligencija velika crna kutija, nešto nepoznato, tajanstveno i verovatno opasno. Programeri koji pišu aplikacije za veštačku inteligenciju, zapravo ne pišu eksplicitna pravila za ove sisteme već umesto toga, oni unose ogromne količine podataka i sistemi sami uče da uočavaju obrasce (pattern recognition). Ipak unutrašnji rad VI modela ostaje nepoznat pri čemu napori da se zaviri u sistem kako bi se proverilo šta se tačno dešava nisu daleko napredovali. Ispod površine, neuronske mreže, najmoćniji tip veštačke inteligencije današnjice, sastoje se od milijardi veštačkih neurona koji su predstavljeni kao brojevi sa decimalnim zarezom. Niko zaista ne razume šta oni znače ili kako rade. Za one koji su zabrinuti zbog rizika od AI, ova činjenica je velika. Ako ne znate tačno kako sistem funkcioniše, kako možete biti sigurni da je bezbedan?
Laboratorija za veštačku inteligenciju, Anthropic, nedavno je objavila da je napravila iskorak u rešavanju pomenutih mehanizama. Istraživači su razvili tehniku za suštinsko skeniranje „mozga“ VI modela, što im omogućava da identifikuju kolekcije neurona, nazvane „karakteristike“, koji odgovaraju različitim konceptima. Po prvi put su uspešno koristili ovu tehniku na graničnom velikom jezičkom modelu, Anthropicov-om Claude Sonnet-u, drugom najmoćnijem sistemu laboratorije.
U jednom primeru, istraživači antropologije otkrili su karakteristiku unutar Kloda koja predstavlja koncept „nebezbednog koda“. Stimulisanjem tih neurona, mogli bi da nateraju Kloda da generiše kod koji sadrži grešku koja bi se mogla iskoristiti za stvaranje bezbednosne ranjivosti. Ali potiskivanjem neurona, otkrili su istraživači, Klod bi generisao bezopasan kod. Nalazi bi mogli imati velike implikacije na bezbednost i sadašnjih i budućih sistema veštačke inteligencije.
Istraživači su pronašli milione karakteristika unutar Kloda, uključujući i neke koje predstavljaju pristrasnost, lažne aktivnosti, toksični govor i manipulativno ponašanje. I otkrili su da bi potiskivanjem svake od ovih kolekcija neurona mogli da promene ponašanje modela. Pored toga što pomaže u rešavanju trenutnih rizika, tehnika bi takođe mogla da pomogne i kod znatno složrnijih ponašanja VI. Godinama je primarni metod dostupan istraživačima koji pokušavaju da razumeju mogućnosti i rizike novih sistema veštačke inteligencije jednostavno ćaskanje sa njima. Ovaj pristup, ponekad poznat kao „crveni tim“ (tim koji vrši napade) , može pomoći da se otkrije da je model toksičan ili opasan, omogućavajući istraživačima da ugrade mere zaštite pre nego što model bude pušten u javnost. Ali to ne pomaže u rešavanju jedne vrste potencijalne opasnosti zbog koje su neki istraživači veštačke inteligencije zabrinuti: rizik da sistem veštačke inteligencije postane dovoljno pametan da prevari svoje kreatore, skrivajući svoje mogućnosti od njih dok ne pobegne njihovoj kontroli i potencijalno izazove pustoš.
Ako bismo zaista mogli da razumemo ove sisteme, a to bi zahtevalo mnogo napretka, mogli bismo da kažemo kada su ovi modeli zaista bezbedni, ili da li samo izgledaju bezbedni. Sisteme veštačke inteligencije smatramo pametnim. Postavlja se pitanje da li su pametniji nego što mislimo. Ova otkrića izazivaju zebnju kod mnogih a kako će rešenja izgledati u praksi, saznaćemo u veoma bliskoj budućnosti.
(Telegraf.rs/Goran Kunjadić)