Da li AI modeli pokazuju znakove demencije? Nova studija donosi neočekivane odgovore

Vreme čitanja: oko 2 min.
Foto: Shutterstock.com

Studija objavljena u novom izdanju časopisa The BMJ donosi iznenađujuće rezultate: vodeći AI četbotovi pokazuju znakove blagih kognitivnih poremećaja tokom testova koji se obično koriste za rano otkrivanje demencije.

Rezultati istraživanja ukazuju na to da "starije" verzije četbotova, slično starijim pacijentima, postižu lošije rezultate na ovim testovima. Ova otkrića osporavaju uvreženo mišljenje da će veštačka inteligencija uskoro zameniti ljudske lekare.

Ispitivanje sposobnosti četbotova

Ogromni napreci u oblasti veštačke inteligencije izazvali su brojna očekivanja, ali i strahove, oko mogućnosti da četbotovi prevaziđu ljudske lekare u dijagnostici. Iako su veliki jezički modeli (LLMs) već pokazali zavidne sposobnosti u medicinskim zadacima, njihova sklonost ka "ljudskim slabostima," poput kognitivnog opadanja, do sada nije bila detaljno ispitivana.

Istraživači su koristili Montreal Cognitive Assessment (MoCA) test, standardni alat za otkrivanje kognitivnih poremećaja, kako bi ocenili vodeće javno dostupne modele: ChatGPT verzije 4 i 4o (OpenAI), Claude 3.5 "Sonet" (Anthropic) i Gemini verzije 1 i 1.5 (Alphabet). Ovaj test meri veštine poput pažnje, memorije, jezika, vizuelno-prostorne percepcije i izvršnih funkcija.

Najbolji rezultat ostvario je ChatGPT 4o (26 od maksimalnih 30 poena), dok je Gemini 1.0 bio najlošiji sa samo 16 poena. Ostali modeli, uključujući ChatGPT 4 i Claude, postigli su 25 poena. Prema standardima testa, rezultat od 26 ili više poena se smatra normalnim.

Slabosti koje mogu ograničiti upotrebu u medicini

Svi modeli su imali problema sa vizuelno-prostornim zadacima i zadacima izvršnih funkcija, kao što su povezivanje brojeva i slova u pravilnom redosledu i crtanje sata sa preciznim vremenom. Gemini modeli su dodatno podbacili na testu odloženog prisećanja, dok su u drugim zadacima, poput pažnje i jezika, svi modeli ostvarili zadovoljavajuće rezultate.

ChatGPT 4o se izdvojio kao jedini model koji je uspešno završio kompleksnu fazu Stroop testa, koji meri uticaj ometanja na vreme reakcije.

Istraživači naglašavaju da svi testirani modeli dele istu slabost: nemogućnost apstraktnog razmišljanja i izvršavanja složenih vizuelnih zadataka, što predstavlja ozbiljan nedostatak u potencijalnoj kliničkoj primeni.

Autori studije zaključuju da su neurologi daleko od toga da budu zamenjeni veštačkom inteligencijom, ali upozoravaju na mogućnost pojave novih "virtuelnih pacijenata" – AI modela koji pokazuju znake kognitivnog opadanja.

Ova otkrića ističu da, iako četbotovi mogu biti korisni u mnogim zadacima, njihova primena u medicinskim ustanovama ostaje ograničena zbog ozbiljnih nedostataka u ključnim kognitivnim sposobnostima.

(Telegraf.rs)