Minél több a másolt adat, annál elfogultabb a rajta tanuló rendszer?

Kömlődi Ferenc

2023. okt 24.

MEGOSZTÁS

gépi tanulás elfogultság gyakorlóadatok adatsorok

Minél kisebb egy adatsor, annál jobb minőségűek az adatok, kevesebb bennük az elfogultság. Modellek begyakoroltatásához viszont egyre monumentálisabb adatgyűjtemények kellenek, miközben folyamatosan nő a megkérdőjelezhető adatokon tanult kereskedelmi, nyílt forrású modellek száma.

Képek: Flickr, Wikimedia Commons

A generatív mesterségesintelligencia-modellek diadalmenetével egyre gyakrabban, hangsúlyosabban merül fel a kérdés, hogy hogyan építhetők a gyakorlóadatokból társadalmi elfogultságot, előítéleteket, rasszizmust nem öröklő rendszerek.

Az adatminőséggel rengeteg a probléma. Ne felejtsük el, hogy a gyűjtemények zömét emberek „gereblyézték össze”, beléjük víve véleményüket és persze az előítéleteiket is.

Félreértések

Hagyományosan azt hihetnénk, hogy minél nagyobb a gyakorlásra használt adatsor, annál objektívebb az MI. Kutatási eredmények viszont nem támasztják alá, sőt, inkább cáfolják ezt a gondolatot. Pontosan az ad hoc összeszedett, másolt adatok miatt: minél nagyobb az adatsor, annál több van belőlük.

A Trinity College Dublin, a Michigan Állami Egyetem egy-egy tudósa és két független kutató nyilvánosan hozzáférhető szöveg-kép adatsorokat a gyűlöletkeltő (bőrszín vagy nemi hovatartozás miatt lekicsinylő) tartalom aránya miatt vizsgált, majd a rajtuk gyakoroltatott, auditált modellekben keresték a rasszizmust. Megállapították, hogy nagyobb gyakorlósoroknál a modellek elfogultabbak lehetnek.

Hogyan jöttek létre a nagy szöveg-kép gyűjtemények?

A rendelkezésre álló legnagyobb szöveges-képes adatsorokat válogatás nélkül, minimális vagy nulla utólagos átvizsgálással szedték össze. Megkérdőjelezhető tartalmak eltávolítása ilyen óriási gyűjteményekből nagyon komoly kihívásnak számít, sokáig nem is foglalkoztak vele.

Kutatók gyakran használnak automatikus filtereket, mint például a szövegből-képből a rossz adatot kiszűrő CLIP. Nagyobb adatsorok létrehozásakor viszont enyhítenek a szűrők szigorán, így több a megkérdőjelezhető anyag, mint a kisebbekben, ráadásul a rajtuk történő gyakoroltatással nagyobb az esély elfogultabb teljesítményt nyújtó modellekhez.

Amikor a több tényleg több, és a kevesebb tényleg kevesebb

A kutatók a webről összeszedett, 400 millió kép-szöveg párt tartalmazó LAION 400M-et és a hasonló, viszont kétmilliárd kép-szöveg párból álló adatokat tartalmazó LAION 2B-t hasonlították össze, majd a két adatsoron gyakoroltatott modelleket a rasszizmus szemszögéből elemezték.

A gyűlöletbeszédet érzelemelemzésre használt Python-könyvtárral (pysentimiento) vizsgálták az összes kép-szöveg példa szövegén. Három valószínűséget kerestek: gyűlölködést, célzatosságot (speciális személlyel, csoporttal szembeni gyűlöletet) vagy agresszivitást.

Az adatsorokat a gyűlölet-tartalom ráta (HCR), a küszöbérték feletti, tehát a három kategória valamelyikébe tartozó példák aránya alapján értékelték ki.

A bőrszín szerinti elfogultság összehasonlításához minden egyes adatsoron azonos OpenCLIP architektúrákat gyakoroltattak, és végül beigazolódott: a LAION 400M-ben kevesebb a „gyűlölet” kategória, mint a LAION 2B-ben.