Microsoft je "ispod radara" predstavio novu veštačku inteligenciju koja će izazvati jezu kod mnogih

TTS je visoko konkurentna niša koja uključuje druge teškaše kao što su Google, Amazon i Meta

Foto: Pixabay.com

Microsoft istraživači rade na modelu pretvaranja teksta u govor (TTS – text-to-speech) koji može da oponaša nečiji glas – zajedno sa emocijama i intonacijom – nakon samo tri sekunde obuke.

Tehnologija – nazvana VALL-E i opisana u istraživačkom radu od 15 stranica objavljenom ovog meseca na istraživačkom sajtu arXiv – predstavlja značajan korak napred za Microsoft.

TTS je visoko konkurentna niša koja uključuje druge teškaše kao što su Google, Amazon i Meta.

U radu, istraživači tvrde da, iako je uspon neuronskih mreža i end-to-end modeliranja brzo poboljšao tehnologije oko sinteze govora, i dalje postoje problemi sa sličnošću korišćenih glasova i nedostatkom prirodnih govornih obrazaca u TTS-u. proizvodi.

Oni nisu robotski glasovi od pre deceniju ili dve, ali takođe ne izgledaju kao potpuno ljudski, prenosi PC Press.

Drugi TTS sistemi se obučavaju koristeći desetine sati podataka jednog govornika ili stotine sati sa podacima sa više govornika. VALL-E može da zadrži akustično okruženje glasa.

Dakle, ako je isečak glasa koji se koristi kao akustični odzivnik u modelu snimljen na telefonu, sintetizovani izgovoreni tekst bi takođe zvučao kao da dolazi preko telefona. Hvatanje emocija je slično, tvrde istraživači.

Ako sekunde snimljenog glasa akustičnog odziva izazivaju ljutnju, onda će sintetizovani govor zasnovan na tom glasu takođe prikazati bes.

Rezultat je TTS model koji nadmašuje druge u oblastima kao što su govor prirodnog zvuka i sličnost govornika. Testiranje takođe pokazuje da je "sintetizovani govor nevidljivih govornika prirodan kao i ljudski snimci", tvrde oni.

Patrik Har, izvršni direktor kompanije za borbu protiv fišinga SlashNext, rekao je da bi TTS takođe mogao postati još jedan alat za sajber kriminalce, koji bi ga mogli koristiti za vishing kampanje – napade pomoću lažnih telefonskih poziva ili glasovnih poruka za koje se smatra da potiču od kontakta koji žrtva poznaje.

Takođe bi se mogao koristiti u tradicionalnijim phishing napadima.

Microsoft istraživači su primetili rizik od sintetizovanog govora koji zadržava identitet govornika. Rekli su da bi bilo moguće napraviti model detekcije kako bi se utvrdilo da li je audio snimak stvaran ili sintetizovan pomoću VALL-E.

(Telegraf.rs)