A Web3 sötét oldala

Tölgyes László András

2023. márc 13.

MEGOSZTÁS

A mesterséges intelligencia látványosan változtatta meg életünket és a munkánkat. Mégis rögvest előtérbe került az MI-adatok elfogultságának problémája. Ahogy haladunk a Web3-as jövő felé, természetes, hogy olyan új innovatív termékeket és szolgáltatásokat fogunk látni, melyek a decentralizációt és a mesterséges intelligenciát együttesen használják majd. És bár egyes szakértők azt állítják, hogy a Web3 technológiák jelenthetik a választ az MI által szolgáltatott adatok torzítására, ez nem is állhatna távolabb az igazságtól.

(Kiemelt kép: Unsplash)

A Web3 piac mérete még viszonylag kicsi és nehezen számszerűsíthető, mivel a decentralizált új ökoszisztéma még a fejlődése korai szakaszában van, sőt a Web3 pontos definíciója még csak most formálódik valójában. Míg 2021-ben a piac mérete a becslések szerint megközelítette a 2 milliárd dollárt, addig a különböző elemzők és kutatócégek körülbelül 45%-kos várható éves növekedési ütemről (CAGR) számolnak be, ami a Web3-megoldások és a fogyasztói elfogadás gyors növekedésével együtt a piacot 2030-ra mintegy 80 milliárd dollár értékűvé teheti. Bár gyorsan növekszik, a szektor jelenlegi állapota más technológiai iparági tényezőkkel kombinálva az oka annak, hogy az MI-adatokkal kapcsolatos előítéletek rossz úton járnak.

A Web3 sötét oldala — A piac mérete a becslések szerint megközelítette a 2 milliárd dollárt, a különböző elemzők és kutatócégek körülbelül 45%-kos várható éves növekedési ütemről (CAGR) számolnak be (Fotó: Unsplash)

Az elfogultság, a minőség és a mennyiség közötti kapcsolat

Az MI-rendszerek nagy mennyiségű és „jó minőségű” adatra támaszkodnak az algoritmusok betanításához. Az OpenAI GPT-3, mely a ChatGPT modellt is tartalmazza, hatalmas mennyiségű, kiváló minőségű adaton lett betanítva és idomítva. A képzéshez használt adatok pontos mennyiségét az OpenAI nem hozta nyilvánosságra, de becslések szerint több százmilliárd szavas vagy annál is nagyobb nagyságrendű lehet. Ezeket az adatokat megszűrték és „előemésztették”, hogy biztosítsák, hogy megfelelő minőségűek és relevánsak legyenek a nyelvi generálás feladata szempontjából. Az OpenAI fejlett gépi tanulási (ML) technikákat, „transzformátorokat” használt a modell betanításához ezen a nagy adathalmazon, ami lehetővé tette a szavak és mondatok közötti minták és kapcsolatok megtanulását, valamint a minőségi szövegek generálását. A mesterséges intelligencia képzési adatainak minősége jelentős hatással van egy ML-modell teljesítményére is, és az adathalmaz mérete is kritikus tényező lehet a modell új adatokra és feladatokra való általánosítási képességének meghatározásában. De az is igaz, hogy mind a minőség, mind a mennyiség jelentős hatással van az adatok torzítására is.

Egyedi torzítási kockázatok

A mesterséges intelligenciában az elfogultság fontos kérdés, mivel többek között a foglalkoztatás, a hitelezés, a lakhatás és a büntető és igazságszolgáltatás területén tisztességtelen, diszkriminatív és káros eredményekhez vezethet. 2018-ban az Amazon kénytelen volt már leselejtezni egy MI-toborzási eszközt, mely elfogultságot mutatott a nőkkel szemben. A rekrutációs MI-szoftvert az Amazonhoz 10 év alatt benyújtott önéletrajzokon képezték ki, melyekben túlnyomórészt férfi jelöltek szerepeltek, ami arra késztette a Gépi Elmét, hogy leminősítse az olyan szavakat tartalmazó önéletrajzokat, mint a „lány” vagy a „nő”. 2019-ben pedig a kutatók megállapították, hogy egy kereskedelmi forgalomban kapható, a betegségek potenciális kimenetelének előrejelzésére használt MI-algoritmus elfogult volt a fekete bőrű betegekkel szemben. Az algoritmust túlnyomórészt fehér betegek adatain képezték ki, ami azt eredményezte, hogy a fekete betegek esetében magasabb volt a hamis pozitív arány a prognózisokban.

A Web3 megoldások decentralizált jellege a mesterséges intelligenciával kombinálva egyedülállóan nagy kockázatot jelent az elfogultság szempontjából. Az adatok minősége és elérhetősége ebben a környezetben hatalmas kihívást jelenthet, ami megnehezíti az MI algoritmusok pontos képzését, és nem csak a használatban lévő Web3 megoldások hiánya miatt, hanem az azokat használni képes populáció miatt is. Párhuzamot vonhatunk az olyan cégek által gyűjtött genomikai adatokkal, mint a 23andMe, melyek elfogultak a szegény és marginalizált közösségekkel szemben. A 23andMe-hez hasonló DNS-tesztelési szolgáltatások költsége, elérhetősége és célzott marketingje korlátozza az alacsony jövedelmű közösségekből származó egyének hozzáférését ezekhez a szolgáltatásokhoz, vagy azokét, akik olyan régióban élnek, ahol a szolgáltatás nem működik, ami általában a szegényebb, kevésbé fejlett országokat jelenti. Ennek eredményeképpen az e vállalatok által gyűjtött adatok nem feltétlenül tükrözik pontosan a szélesebb népesség genomikai sokféleségét, ami a genetikai kutatásokban, valamint az egészségügyi és gyógyászati fejlesztésekben potenciális torzításokhoz vezethet. És ez elvezet minket egy másik okhoz, ami miatt a Web3 növelheti a mesterséges intelligencia-adatok torzítását.

Az iparági torzítás és az etika

A Web3 startup iparban a sokszínűség hiánya komoly aggodalomra ad okot. 2022-től a nők a technológiai állások 26,7%-kát töltik be, ezek 56%-ka színes bőrű nő. A technológiai vezetői pozíciókban még alacsonyabb a nők aránya, de a Web3 világában ez az egyenlőtlenség csak még tovább súlyosbodik. Különböző elemzők szerint a startupok kevesebb mint 5%-kának van női alapítója. Ez a sokszínűség hiánya azt jelenti, hogy nagy a valószínűsége annak, hogy a mesterséges intelligencia-adatokkal kapcsolatos előítéleteket a férfi és fehér bőrű alapítók öntudatlanul figyelmen kívül hagyják, mint problémát. E kihívások leküzdése érdekében a Web3 iparágnak prioritásként kellene kezelnie a sokszínűséget és a befogadást mind adatforrásaiban, mind csapataiban. Továbbá az iparágnak meg kell változtatnia azt a paradigmáját is, hogy miért van szüksége a sokszínűségre, az egyenlőségre és a befogadásra. Pénzügyi és skálázhatósági szempontból a különböző perspektívák alapján tervezett termékek és szolgáltatások nagyobb valószínűséggel működnek több milliárd ügyfél számára, mint milliók számára, így a sokszínű csapatokkal rendelkező startupok nagyobb eséllyel rendelkeznek magas megtérüléssel és globális skálázási képességekkel. A Web3 iparágnak az adatminőségre és pontosságra is összpontosítania kellene, biztosítva, hogy a mesterséges intelligencia algoritmusok képzéséhez használt adatok ne legyenek eleve elfogultak.

A Web3 jelentheti a választ az MI-adatok torzítására?

Az egyik megoldás ezekre a kihívásokra a decentralizált adatpiacok fejlesztése, melyek lehetővé teszik az adatok biztonságos és átlátható cseréjét az egyének és szervezetek között. Ez segíthet csökkenteni az „elfogult adatok” kockázatát, mivel lehetővé teszi, hogy az adatok szélesebb körét használják fel az MI-algoritmusok képzéséhez. Emellett a blokklánc-technológia felhasználható az adatok átláthatóságának és pontosságának biztosítására, hogy az algoritmusok ne legyenek előítéletesek. Végső soron azonban még évekig jelentős kihívást jelent majd a széles körű adatforrások megtalálása, amíg a Web3 megoldásokat a szélesebb közönség nem használja. Miközben a Web3 és a blokklánc továbbra is szerepel a napi ICT hírekben, az ilyen termékek és szolgáltatások leginkább a startup és technológiai közösségek tagjait szólítják meg, melyekről tudjuk, hogy nem sokszínűek, de melyek egyben a globális IT tortának is viszonylag kis szeletét teszik ki.

Nehéz megbecsülni, hogy a világ népességének hány százaléka dolgozik ma startupokban. Az elmúlt években az iparág körülbelül hárommillió munkahelyet teremtett az Egyesült Államokban. Ha ezt a teljes amerikai népességhez viszonyítjuk, és nem vesszük figyelembe a megszűnt munkahelyeket, akkor a technológiai iparág távolról sem reprezentatív a munkaképes korú polgárok körében. Amíg a Web3-megoldások nem válnak elterjedtebbé, és nem terjesztik ki vonzerejüket és felhasználásukat azokon túlra, akiknek eleve érdeke a technológia, és nem válnak megfizethetővé és elérhetővé a szélesebb népesség számára, addig a magas minőségű adatokhoz való hozzáférés a mesterséges intelligencia rendszerek képzéséhez elegendő mennyiségben továbbra is jelentős akadály marad. Az ICT iparágnak viszont már ma is lépéseket kellene tennie ennek a fontos kérdésnek a megoldására.