Az OpenAI korábban már nem kendőzte, hogy hatalmas mennyiségű, részben szerzői jogvédelem alatt álló adatot kapart össze az internetről nyilvánosan elérhető tartalmakkal saját nagy generatív modelljének betanításához, ám az adatgyűjtéssel kapcsolatban nem túl transzparens a cég. A gyakorlat nem csak és kizárólag a startuphoz fűződik, hanem egy tágabb iparági trendet mutat: a jelek szerint az Nvidia szintén szerzői joggal védett tartalmakat gyűjtött össze saját technológiája képzéséhez.
A 404 Media birtokába jutott belsős dokumentumok szerint a lassan 2,4 billió dollárt érő AI-óriás arra kérte dolgozóit, hogy töltsenek le videókat a YouTube-ról, a Netflixről és más adatkészletekből a kereskedelmi AI-projektek fejlesztéséhez. Az összekapart videókat többek közt olyan modellek kifejlesztéséhez használták fel, mint az Omniverse 3D-s generátor.
A chipgyártó-óriás közleménye szerint a kutatás teljes mértékben megfelel a szerzői jogi törvényekben előírtaknak. A YouTube szóvivője viszont nem ért ezzel egyet, a videós platform a szabályzat megsértésének tekinti a videók tömeges lekaparását és felhasználását.
Az AI területén zajló fegyverkezési versenynek fontos részei az adatok, valamennyi nagy szereplő, így az Alphabet, a Microsoft, az Amazon és a Meta biztosítani szeretnék, hogy a riválisok ne férhenek hozzá az általuk felhalmozott, versenyelőnyt jelentő adathalmazokhoz. A Reddit is felismerte az ebben rejlő potenciált, és a közelmúltban évi 60 millió dolláros licencszerződést kötött a Google-lel, így a platformon létrehozott tartalmakhoz és tudásbázishoz a keresőcég férhet hozzá a mesterséges intelligencia-eszközeinek betanításához.
Ez utóbbi pedig nem egyedi eset, egyre több médiacég köt hasonló megállapodásokat AI-fejlesztőkkel - további részletek a HWSW-n.
Ha nem vagy még tag, regisztrálj! 2 perc az egész.