(Képek: AP, Brian J. Malls, Pexels)
A generatív mesterséges intelligencia (MI) térnyerésével különféle szempontok alapján, egyre gyakrabban kerülnek szóba a gyakorlóadatok. Általában a minőségüket vetik fel, hogy nem gondos a válogatás, és a belőlük tanuló rendszer elfogult, előítéletes lehet, ami nem különösebb baj, ha például a fűnyírónk optimalizálásához használják, viszont annál nagyobb, ha mondjuk, bírósági döntéshozáshoz asszisztál.
Tűk a szénakazalban
De a gyakorlóadatok más okok miatt is támadhatók. Például azért, mert a képeket a rajtuk látható és az azokat készítő személyek, szövegeket a szerzők engedélye nélkül használják, sőt, időnként magukon a generált anyagokon is látható a plágium.
Jogi és szabályozási szempontból annak ellenére nagy a káosz, hogy az elmúlt hónapokban „boldog-boldogtalan” megnyilvánult a regulázás szükségességéről vagy feleslegességéről. Ezekben a törekvésekben persze nem a szerzői és személyiségi jogok semmibevétele az elsőszámú szempont, de szinte mindenki megemlíti azokat.
Az adatsorok gigantikus mérete miatt, nagyon nehezen megoldható, sőt, szinte kezelhetetlen problémáról van szó. Eddig kevés érintett tette szóvá, nyilvánvalóan azért a prózai tény miatt is, mert fogalmuk sincs adataik, képeik ilyen jellegű felhasználásáról. Hacsak valaki nem fektet komoly energiákat adatai folyamatos nyomon követésébe, márpedig többségünk nem foglalkozik ezzel, akkor szinte csak véletlenül szembesülhetünk önmagunkkal, munkánkkal valamilyen MI-termékben.
Árnyék-könyvtárak
Sarah Silverman amerikai stand-up komédiás, színész, író így járt. Rájött, hogy az OpenAI ChatGPT-je és a Meta, a Facebook mögött álló cég LLaMA nyelvmodelljei The Bedwetter című könyvéből tulajdonított el információkat, és mindkét vállalatot beperelte.
Nincs egyedül, mert két másik szerző, Richard Kadrey és Christopher Golden is pereli ugyanezt a két mamutvállalatot. A modelleket engedélyük nélkül trenírozták munkáikon. Az írók szerint az MI-k „árnyékkönyvtár” adatbázisokkal (Library Genesis, Z-Library stb.) is dolgoztak. Az ezeken a honlapokon elérhető könyvek torrentrendszerekkel tömegesen hozzáférhetők. Az illegális árnyék-könyvtárak hosszú ideje felkeltették MI-fejlesztő- és gyakoroltató-közösségek érdeklődését.
A modellek puszta léte is a szerzői jogi törvénybe ütközik?
A bíróságra beadott anyagokban látható, hogy a ChatGPT utasítás (prompt) alapján összefoglalja a szerzők könyveit, és gyakorlatilag bármilyen jogvédett forrásból készít kivonatot.
A beadványok azt sugallják, hogy ezeknek az MI-modelleknek a puszta létezése is a szerzői jogi törvénybe ütközik. Elvárt működésükhöz ugyanis potenciálisan jogvédett anyagokra van szükségük. „Jogsértő származékos munka-e a felperesek szerzői joggal védett könyvein alapuló ChatGPT?” – olvasható az OpenAI elleni anyagban.
A LLaMA modellekkel szemben ugyanez a vád: nem működnének szerzői joggal védett szövegek nem engedélyezett használata nélkül. A nagy nyelvmodellek csak az Egyesült Államokban többezer alkotó jogait veszik semmibe – állítják a felperesek.