Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
post

Engedély nélkül gyakoroltatta modelljeit YouTube videók feliratán az Apple

MEGOSZTÁS

Lassan mindennapos jelenség, hogy mesterségesintelligencia-fejlesztőkről kiderül, hogy engedély nélkül használtak online talált, jogvédett tartalmakat. Most az Apple és az Nvidia a céltábla, korábban meg az összes többi volt. Ezúttal a YouTube-on gyűjtögettek. Az USA a perek hazája, sok továbbira számíthatunk.

A „napjaink legfontosabb kérdéseit” adatvezérelve elemző, azokról beszámoló Proof News megállapította, hogy szilícium-völgyi nagyágyúk, mint az Apple, az Anthropic, az Nvidia és a Salesforce mesterségesintelligencia-technológiák fejlesztéséhez használták fel 48 ezer csatornáról származó, 173536 YouTube videó feliratait; modelljeiket gyakoroltatták rajtuk. Szépséghiba, hogy az anyagok alkotóitól nem kértek engedélyt.

Jön majd a jogi csűrés-csavarás

Az EleutherAI nonprofit MI labor YouTube Feliratok adatkészletében a Wall Street Journal, az NFR, a BBC átiratai mellett olyan ismert youtuberek, mint MrBeast és Marquees Brownlee anyagai szerepelnek.

A nagyvállalatok még nem reagáltak a vizsgálat eredményeire.

A fejlesztők listája napról napra nő, a Big Techből az Apple utolsóként kezdett el foglalkozni generatív MI-vel. Utolsók között állapították is meg róluk, hogy szellemi jogvédelem alatt álló tartalmakat gereblyéztek össze gépi tanuláshoz a közösségi médiából.

 

 

Mesterségesen intelligens alma

 

Az adatkészletben ugyan nincsenek videófájlok, vannak viszont fordítások is, méghozzá több nyelven, például japánul, németül, arabul. Az EleutherAI a Pile nevű nagyobb adatkészletből jutott hozzájuk. Azt is nonprofit szervezet állította össze, a YouTube mellett európai parlamenti és Wikipédia anyagok voltak a források.

A Pile-on a Bloomberg és a Databricks is trenírozott modelleket. A YouTube felhasználói szerződése saját platformjai felhasználását fedi le, a Pile-t viszont nem, így a szerződés megszegésének vádjára az érintett cégek arra hivatkozhatnak, hogy az utóbbit használták.

Most akkor nyílt az internet vagy sem?

A ChatGPT megjelenése óta a nyílt interneten egyre gyakoribb az adatok vitatott kezelése. A Stability AI (Stable Diffusion) és a Midjourney jelenleg is ugyanezért, jogvédett anyagok jogtalan használata miatt pereskednek tartalomkészítőkkel. A YouTube-ot működtető Google ellen tavaly júliusban, majd szeptemberben is pert indítottak. A nagyvállalat szerint ezek a perek nemcsak az ő szolgáltatásaikat, hanem úgy ahogy van, az egész generatív MI-t fenyegetik.

Ugyanezek a fejlesztőcégek nehezen számolnak el gyakorlóadataik eredetével. Amikor a Wall Street Journal márciusban Mira Muratit, az OpenAI műszaki vezérigazgatóját arról faggatta, hogy modellek gyakoroltatásához használnak-e YouTube-, Facebook- és más közösségimédium-anyagokat, a CTO nemes egyszerűséggel a következő választ adta: „nem megyek bele a felhasznált adatokkal kapcsolatos részletekbe.”

Mustafa Suleyman, a Microsoft AI vezérigazgatója szerint az 1990-es évek óta bármilyen webes anyag felhasználható. Bárki átalakíthatja, másolhatja. Közmegegyezés van arról, hogy freeware.

 

Képek: Flickr

IT EXPERTS-TECH LEADERS 2024 FELHŐ A JAVÁBÓL KONFERENCIA

ICT Global News

VIDEOGALÉRIA
FOTÓGALÉRIA

Legnépszerűbb cikkek

ICT Global News

Iratkozz fel a hírlevelünkre, hogy ne maradj le az IT legfontosabb híreiről!