A „napjaink legfontosabb kérdéseit” adatvezérelve elemző, azokról beszámoló Proof News megállapította, hogy szilícium-völgyi nagyágyúk, mint az Apple, az Anthropic, az Nvidia és a Salesforce mesterségesintelligencia-technológiák fejlesztéséhez használták fel 48 ezer csatornáról származó, 173536 YouTube videó feliratait; modelljeiket gyakoroltatták rajtuk. Szépséghiba, hogy az anyagok alkotóitól nem kértek engedélyt.
Jön majd a jogi csűrés-csavarás
Az EleutherAI nonprofit MI labor YouTube Feliratok adatkészletében a Wall Street Journal, az NFR, a BBC átiratai mellett olyan ismert youtuberek, mint MrBeast és Marquees Brownlee anyagai szerepelnek.
A nagyvállalatok még nem reagáltak a vizsgálat eredményeire.
A fejlesztők listája napról napra nő, a Big Techből az Apple utolsóként kezdett el foglalkozni generatív MI-vel. Utolsók között állapították is meg róluk, hogy szellemi jogvédelem alatt álló tartalmakat gereblyéztek össze gépi tanuláshoz a közösségi médiából.
Mesterségesen intelligens alma
Az adatkészletben ugyan nincsenek videófájlok, vannak viszont fordítások is, méghozzá több nyelven, például japánul, németül, arabul. Az EleutherAI a Pile nevű nagyobb adatkészletből jutott hozzájuk. Azt is nonprofit szervezet állította össze, a YouTube mellett európai parlamenti és Wikipédia anyagok voltak a források.
A Pile-on a Bloomberg és a Databricks is trenírozott modelleket. A YouTube felhasználói szerződése saját platformjai felhasználását fedi le, a Pile-t viszont nem, így a szerződés megszegésének vádjára az érintett cégek arra hivatkozhatnak, hogy az utóbbit használták.
Most akkor nyílt az internet vagy sem?
A ChatGPT megjelenése óta a nyílt interneten egyre gyakoribb az adatok vitatott kezelése. A Stability AI (Stable Diffusion) és a Midjourney jelenleg is ugyanezért, jogvédett anyagok jogtalan használata miatt pereskednek tartalomkészítőkkel. A YouTube-ot működtető Google ellen tavaly júliusban, majd szeptemberben is pert indítottak. A nagyvállalat szerint ezek a perek nemcsak az ő szolgáltatásaikat, hanem úgy ahogy van, az egész generatív MI-t fenyegetik.
Ugyanezek a fejlesztőcégek nehezen számolnak el gyakorlóadataik eredetével. Amikor a Wall Street Journal márciusban Mira Muratit, az OpenAI műszaki vezérigazgatóját arról faggatta, hogy modellek gyakoroltatásához használnak-e YouTube-, Facebook- és más közösségimédium-anyagokat, a CTO nemes egyszerűséggel a következő választ adta: „nem megyek bele a felhasznált adatokkal kapcsolatos részletekbe.”
Mustafa Suleyman, a Microsoft AI vezérigazgatója szerint az 1990-es évek óta bármilyen webes anyag felhasználható. Bárki átalakíthatja, másolhatja. Közmegegyezés van arról, hogy freeware.
Képek: Flickr