OpenAI koristio preko milion sati YouTube sadržaja za obuku GPT-4 modela

Vreme čitanja: oko 1 min.

Za potrebe obuke GPT-4, OpenAI je razvio specijalizovan model za transkripciju zvuka, Whisper, koji je omogućio efikasno prevođenje audio sadržaja sa YouTube-a u tekstualni format

Foto: Ascannio / Shutterstock.com

OpenAI, vodeća kompanija u oblasti razvoja veštačke inteligencije, uspela je da prevaziđe izazove sa nedostatkom kvalitetnih podataka za obuku, koristeći preko milion sati transkribovanog YouTube sadržaja za obuku svog najnaprednijeg modela do sada, GPT-4. Ova strategija, iako inovativna, izazvala je polemike zbog potencijalnih pravnih implikacija u vezi sa autorskim pravima.

Za potrebe obuke GPT-4, OpenAI je razvio specijalizovan model za transkripciju zvuka, Whisper, koji je omogućio efikasno prevođenje audio sadržaja sa YouTube-a u tekstualni format. Prema izveštaju The New York Timesa, ova metoda je bila ključna u procesu obuke, omogućavajući modelu da stekne dublje razumevanje ljudskog jezika i komunikacije.

Iako je OpenAI preduzeo korake da obezbedi da njihova upotreba YouTube sadržaja bude u okvirima "poštene upotrebe", pravna valjanost ovog pristupa ostaje predmet diskusija. Google, vlasnik YouTube-a, kroz izjave svojih predstavnika naglasio je da njihovi uslovi korišćenja i robots.txt fajlovi zabranjuju neautorizovano preuzimanje sadržaja, signalizirajući potencijalne pravne izazove za OpenAI.

Ovaj slučaj ilustruje rastuću potrebu za inovativnim rešenjima u pronalaženju i korišćenju podataka za obuku modela veštačke inteligencije. Linzi Held, portparol OpenAI, istakla je važnost unikatnih skupova podataka za razvoj AI modela i najavila istraživanje generisanja sintetičkih podataka kao potencijalnog rešenja.

Ovaj događaj postavlja pitanja o budućnosti obuke AI modela, etičkim i pravnim implikacijama korišćenja postojećih digitalnih resursa, te potrebi za jasnim smernicama i regulativama u ovoj brzo rastućoj industriji. Kako se veštačka inteligencija sve više integriše u svakodnevni život, važnost transparentnosti, odgovornog korišćenja podataka i poštovanja autorskih prava postaje sve izraženija.

(Telegraf.rs)