A szintetikus adatok forradalma

Tölgyes László András

2023. júl 28.

MEGOSZTÁS

Az adatok a legtöbb mesterséges intelligencia projektben problémát jelentenek. Több vállalkozás is elbukott már a „jó” adatok hiánya miatt. Erre szolgál egy viszonylag új megközelítés, a szintetikus adatokra való támaszkodás.

(Kiemelt kép: Unsplash)

A nagy technológiai cégek – például a Google, az Apple és az Amazon – számára az adatgyűjtés kevésbé jelent problémát más vállalatokhoz képest. Valóban, termékeik és szolgáltatásaik révén szinte korlátlan mennyiségű, változatos adatfolyam áll rendelkezésükre, ami tökéletes ökoszisztémát teremt az adattudósok számára az algoritmusok „idomításához”. A kisebb vállalatok számára az ilyen adathalmazokhoz való hozzáférés korlátozott, drága vagy nem is létezik. Az MI adatgyűjtési problémájának megoldása mellett a vállalkozásoknak az intenzív versennyel is meg kell küzdeniük közben. A valóság az, hogy az adatgyűjtés költségei magasak, és ez sokakat visszatart attól, hogy egyáltalán belevágjanak ebbe a ma már kötelező műfajba. A szintetikus adatok azonban segíthetnek megváltoztatni ezt a helyzetet. Segíthetnek a vállalatoknak és a kutatóknak a gépi tanulási modellek betanításához, sőt, akár előtanulmányozásához szükséges adattárakat létrehozni.

A szintetikus adatok forradalma — A kisebb vállalatok számára az ilyen adathalmazokhoz való hozzáférés korlátozott, drága vagy nem is létezik. Az MI adatgyűjtési problémájának megoldása mellett a vállalkozásoknak az intenzív versennyel is meg kell küzdeniük közben (Fotó: Unsplash)

Adatforradalom

Egy olyan adatforradalom zajlik ma, amiről senki sem beszél. Ez a szintetikus adatok színterén zajlik. Hacsak nem a mesterséges intelligencia területén dolgozunk, talán még sosem hallottunk róla. Az adatoknak ez a gyorsan növekvő formája olyan kritikus filozófiai, etikai és üzleti kérdéseket vet fel, melyek a jövőnket alakítják. De először is, mi is az a szintetikus adat? Számos típusa létezik, de az alapfeltevés az, hogy a mesterséges intelligencia segítségével olyan adathalmazokat hozunk létre, melyek a valós világ adatait utánozzák. Ezek az adatkészletek aztán felhasználhatók a kielégíthetetlen adatigény kielégítésére, mely a gépi tanulási algoritmusokat jobb előrejelzések készítésére képezi ki. Ahelyett, hogy az algoritmusokat a valós világ rendetlen, drága, adatvédelmi problémákkal és torzításokkal terhelt adatain képeznénk, most a valós világ adatait kiegészíthetjük vagy helyettesíthetjük a mesterséges intelligencia segítségével létrehozott „jobb”, „olcsóbb” vagy „nagyobb” adatkészletekkel. Egyszerűen fogalmazva, a szintetikus adatok mesterséges adatok, melyek a mesterséges intelligenciát táplálják. Hasonlít a mélyhamisításhoz, de kevésbé aljas célokra használják, és nem csak videókra és képekre, hanem bármilyen típusú adatra alkalmazzák, a biztosítási adatoktól kezdve a hadsereg intelligenciáján át az önvezető járművekig vagy akár a betegek egészségügyi adatáig. Ez legalább annyira félelmetes, mint amennyire egyben briliáns ötletnek is tűnik.

A szintetikus adat nem új fogalom, de ami új benne, az az iránta való megugró kereslet és az azt támogató mesterséges intelligencia képességek. A szervezetek világszerte tömegesen fektetnek be új mesterséges intelligencia-rendszerek képzésébe, remélve, hogy megváltoztathatják a tanulás, a gyógyítás, a kereskedelem, a vezetés, a vásárlás, a háborúzás és még sok minden más módját. E rendszerek képzéséhez egyre nagyobb mennyiségű adatra lesz szükségük. A „jó adatokat” azonban nehezebb beszerezni, mint valaha, mivel a magánélet védelmével, az elfogultsággal és a felelős mesterséges intelligencia kérdéseivel kapcsolatos aggodalmak és szabályozások végre korlátozzák az adatgyűjtést. A Gartner előrejelzése szerint 2024-re a mesterséges intelligenciához felhasznált adatok nem kevesebb, mint 60 százaléka szintetikus lesz. A számítógépes látáson dolgozó csapatok 96 százaléka már most is szintetikus adatokra támaszkodik. Egy másik elemzés szerint pedig csak 2019 és 2020 között majdnem megduplázódott a szintetikus adatok szolgáltatására összpontosító vállalatok száma. Nem túlzás azt gondolni ma, hogy a „szintetikus adatmérnök” szerepe egy nap a legkeresettebb szakma lesz majd.

Ez azt jelenti, hogy egy olyan világ küszöbén állunk, ahol a minket körülvevő technológiák közül sok nem a valóságra reagálva épülhet, hanem arra, amit egy gépi elme elképzel a rögvalóságról. Ez felveti a kérdést: Mi történik, ha és amikor szakadékok keletkeznek a mesterséges intelligencia valós világa és a szintetikus világ között, melyben a gépi elméket kiképezték? Hogyan szűkíthetjük ezeket a réseket, és milyen etikai és biztonsági korlátokat kell felállítanunk? Ha az adat az új olaj, ahogy egyesek állítják, mi történik, ha a nagy méretű adathalmazok olcsó árucikké válnak, melyet bárki meg tud építeni a megfelelő mesterséges intelligenciával? Mit jelenthet ez a nagy technológiai vállalatok üzleti modelljeire nézve, melyek a valós adatokhoz való egyedülálló hozzáférésükre összpontosítanak? És mi lesz a társadalomtudományokkal, ha egyre inkább olyan adatokra támaszkodunk, melyeket nem a valós világban gyűjtöttek? Talán a legkritikusabb, hogy egy olyan világban, ahol már most is küzdünk a társadalomban az adatismeret hiányával, a növekvő félretájékoztatással és az „igazsághoz” való vitatott viszonnyal, a szintetikus adatok megkövetelik, hogy átértékeljük, mit értünk olyan fogalmakon, mint az „adat” és a „valóság”, és olyan világnézetet fogadjunk el, melyben az adatok minősége, kontextusa és eredete talán még inkább számít, mint a mennyiség.

Olcsóbb, biztonságosabb, igazságosabb

Először is vegyük figyelembe a szintetikus adatok hatalmas előnyeit, melyek óriási ígéretet hordoznak magukban számos nagyon gyakorlati probléma megoldására, kezdve a hasznos mesterséges intelligencia rendszerek fejlesztésének költségeinek csökkentésétől a jobb (bár nem tökéletes) adatvédelmi védelem biztosításáig, és lehetővé téve a fejlesztők számára, hogy mindenféle terméket a valós élethez közelebb álló adatokkal fejlesszenek (a sok csapat által használt durvább mintaadatokhoz képest). A szintetikus adatok különösen akkor hasznosak, ha az adatkészletek nehezen beszerezhetők. Vegyük például az autógyártókat. A szintetikus adatkészleteken keresztül az autógyártók virtuális autószimulációkban utánozhatják a járművezetők viselkedését, hogy a modelleket a helyzetek széles és gazdagabb halmazán keresztül gyakorolhassák és ismételjék, hogy biztonságosabbá tegyék a vezető nélküli autókat. Mindezt a tényleges adatok megszerzéséhez szükséges idő, költség és nehézség töredéke alatt tehetnék meg. És mivel a szintetikus adatok számítógéppel generáltak még a valós világ utcáin történő adatgyűjtéssel járó adatvédelmi problémák közül is sokat enyhíthet. Hasonlóképpen, a National Institutes of Health szintetikus adatokat használt a több mint 2,7 millió COVID-19 betegrekordot tartalmazó adatbázisuk megismétlésére, létrehozva egy olyan adathalmazt, mely ugyanolyan statisztikai tulajdonságokkal rendelkezik, de nem tartalmaz azonosító adatokat, és melyet a kutatók világszerte gyorsan megoszthatnak és tanulmányozhattak. A cél az volt, hogy az érintettek magánéletének megsértése nélkül segítsenek a jobb kezelések azonosításában.

A szintetikus adatok hatékonysága már most bizonyítja értékét az iparágakban és ágazatokban. A John Deere például szintetikus képeket készített a növényekről, hogy traktorjait úgy képezze ki, hogy úgy gondolkodjanak, mintha emberi gazdák lennének. A JP Morgan szintetikus adatokkal kísérletezik a fizetési csalások és a pénzmosás felderítésére. Az egészségügyi vállalatok pedig olyan orvosi esetek tesztelésére alkalmazzák, melyekről nem áll rendelkezésre elegendő adat. Ha jól csináljuk, a szintetikus adatok segíteni fognak abban, hogy fontos új technológiákat hozzunk létre a kommunikáció, a biztonságosabb közlekedés, a testünk gyógyítása és még sok minden más terén. A szintetikus adatokban rejlik az a lehetőség is, hogy kijavítsanak néhány kirívó következetlenséget és torzítást a jelenlegi adathalmazainkban. A Gartner szerint például a jelenleg használt algoritmusok mintegy 85 százaléka hibás, ami nagyrészt az elfogultságnak tudható be (gyakran a nők, színes bőrűek vagy más kisebbségi csoportok alulreprezentáltságának eredménye az adatmintákban). A szintetikus adatokkal a mérnökök mesterségesen növelhetik az alulreprezentált kisebbségek számát egy-egy adathalmazon belül, egyszerűen azáltal, hogy új szintetikus jellemzőket generálnak, melyek reprezentálják az adott kisebbségi csoportot. Ezért sokan úgy vélik, hogy a szintetikus adatok nagyban hozzájárulhatnak ahhoz, hogy az adatok kevésbé legyenek elfogultak és igazságosabbak, lehetővé téve számunkra, hogy pontosabb mesterséges intelligenciát hozzunk létre, mely tükrözi és megjeleníti az általunk kívánt világot ahelyett, hogy a jelenlegi történelmi előítéleteit és egyenlőtlenségeit állandósítaná.

A valóság szövetében mutatkozó szakadékok

Még az ismert történelmi torzítások minimalizálásának képessége mellett is hiba lenne azt gondolni, hogy a szintetikus adatok torzítás mentesek lennének. Az elfogultság nélküli adat általában illúzió: az emberek döntéseket hoznak arról, hogy milyen adatokat vesznek fel, zárnak ki és hogyan elemzik azokat, és ezek a döntések azon alapulnak, hogy mit tartanak fontosnak vagy relevánsnak, ami általában mindig elfogult lesz. Ez továbbra is így marad, amikor a szintetikus adatkészletekkel kapcsolatos döntések meghozataláról van szó. A mérnökök a folyamat során adatokat hoznak ugyanis létre a „valódi adatok” kisebb mintáján alapuló szintetikus adatokból, melyeken a mesterséges intelligencia számára relevánsnak ítélt szempontok szerepelnek, és egy olyan szabálykészletet, melynek az eredeti adathalmaza nyilvánvaló, de ennek ismert torzításait igyekszik ellensúlyozni. Az előítéletesség lényege azonban az, hogy mindannyian szenvedünk tőle, és gyakran mi magunk sem látjuk azokat. A valóság pedig sokkal összetettebb és árnyaltabb, mint amennyire valaha is képesek leszünk szisztematikusan tükrözni és figyelembe venni ezeket a szintetikus adathalmazokban. Amíg emberek döntenek arról, hogy mely adatkészleteket kell létrehozni, milyen problémákat kell megoldaniuk, és milyen valós adatokat kell alapul venniük, addig soha nem leszünk képesek az elfogultságot teljesen kiküszöbölni. És mint ilyen, a szintetikus adatok reprodukálhatják az adatokból származó mintázatokat és torzításokat, sőt fel is erősíthetik azokat.

Hasonlóképpen, a világ folyamatosan változik, és minden adatminta, mely egy nagyobb adathalmaz alapját képezi óhatatlanul egy időbeli portré lesz csupán. Még a legjobb szintetikus adatok is gyorsan elavulhatnak, ha a valós világ az algoritmusok által várttól eltérő irányba fejlődik, olyan tényezők alapján, melyeket az algoritmusokat tervező emberek nem tudtak figyelembe venni vagy előre látni. Más szóval, a szintetikus adatok segíthetnek abban, hogy azt ábrázoljuk és felerősítsük, amit már ismerünk és előre látunk. De ha csak erre hagyatkozunk, akkor elszalaszthatjuk a lehetőséget, hogy valami újat fedezzünk fel a folyamatosan változó világunkról. A legrosszabb esetben egy olyan „visszhangkamra-hatást” kapunk, melyben a mesterséges intelligencia táplálja önmagát, és a világunk kulcsfontosságú aspektusait fejlesztő és irányító modellek, vagyis az általunk fogyasztott információk, az általunk látogatott digitális világok, az orvosi tanácsok és termékek, melyeket kapunk, vagy a biztosítások és számos más termék ára egyre inkább egy olyan belső logikára reagálnak, mely elválik az általunk „belakott” valóságtól. Az adattudomány és az etikus mesterséges intelligencia közösségében vannak olyanok, akik keményen dolgoznak a lehetséges „valósághiány” kezelésén, technikai téren, olyan új modellek és módszerek kidolgozásával, melyek képesek csökkenteni az előítéleteket és növelni a pontosságot. De ez a feladat nem csak a jobb eszközök kérdése, és nem szabad, hogy csak az adattudományra háruljon. Társadalomként világos etikai korlátokra van szükségünk arra vonatkozóan, hogy mikor, hogyan és mennyi szintetikus adatot lehet és kell felhasználni. Biztosítanunk kell, hogy a szintetikus adatok a lehető legjobb valós adatokból származzanak. És világos és átlátható gyakorlatokra van szükségünk a szintetikus adatmodellek validálására és teljesítményértékelésére.

Veszélyes alapértelmezések

Felelősen és körültekintően használva a MI-mérnökök valószínűleg minimalizálhatják a valóságtól való eltéréseket, és elkerülhetik a szintetikus adatokkal kapcsolatos számos közvetlen buktatót. De nem csak azzal kellene foglalkoznunk, hogy hogyan kellene használni a szintetikus adatokat, de azzal is, hogy hogyan lehetne visszaélni velük. Mi történik akkor, ha a mérnökök, tudósok és üzleti vezetők világszerte a könnyen hozzáférhető és olcsó szintetikus adatokhoz fordulnak, hogy megkíméljék magukat az új, eredeti, valós adatok gyűjtésének fáradságos munkájától? Mi történik, ha és amikor a szintetikus adatok a valós adatok jobb alternatívájaként „hírnevet” szereznek? Nem kell sok ahhoz, hogy elképzelhető legyen, hogy még a legjobb szándékú MI-mérnökök, tudósok és üzleti vezetők is a szintetikus adatok használata felé fordulnak majd, még olyan helyzetekben is, amikor valójában nem kellene. Már ma is azt látjuk, hogy sok vállalat bármilyen rendelkezésre álló adathalmaz alapján hoz döntéseket, és ezt „adatvezérelt döntésnek” merik nevezi, még akkor is, ha az adathalmazok egyértelműen elfogultak, hiányosak vagy elavultak. Jobb, mint a semmi, gondolkodnak, különösen olyan esetekben, amikor az új nyers adatok gyűjtése megfizethetetlenül nehéz vagy drága. Ily módon a szintetikus adatok növekvő elérhetősége elriaszthatja a cégeket vagy szervezeteket az eredeti kutatások és adatgyűjtések elvégzésétől. Ez pedig veszélyes lehet, mert még a legjobb szintetikus adathalmaz sem lesz soha olyan reprezentációja a folyamatosan változó valóságunknak, mely minden kérdésre választ adhat és minden döntéshozatalt megalapozhat. Ha ez az adatkészlet nem a legfrissebb mögöttes emberi jelenségek szigorú megértésén alapul (vagy esetleg abból készül), mint például az emberek mondandója és tettei közötti különbségek, vagy az életünkben lévő érintőleges változók váratlan hatása a cselekedeteinkre, akkor azt kockáztatja, hogy olyan társadalmi világot szimulál, mely olyan módon nem felel meg a rögvalóságnak, ami valódi károkat okozhat a mindennapi életükben isaz embereknek. És mindez még azelőtt van, hogy a szintetikus adatok olyan „aljasabb” felhasználási módjairól beszélnénk, mint a mélyreható hamisítások vagy a tömeges félretájékoztatás.

Az adat és az igazság új definíciója

Mi történik az „adat” fogalmával, ha a szintetikus adatok mindenütt jelen vannak életünkben? Már most is a félretájékoztatás korában élünk, amikor egyre nehezebb megérteni, hogy milyen eredetű és elfogultságú adatokat nézünk. A „valódi” mennyiségi adatok nagy része, melyekre ma a világ értelmezéséhez támaszkodunk (statisztikák arról, hogy mit csinálnak az emberek, vagy felmérési válaszok arról, hogy mit mondtak) már erősen „feldolgozott és dekontextualizált”, mire bárki elolvassa őket. A szintetikus adatok „közelgő lavinája” nem csak a „valódi” és a „mesterséges” közötti határokat „homályosítja” el, hanem azt is ígéri, hogy az átlagos adatfogyasztó számára végtelenül megnehezíti annak kritikus értékelését, hogy honnan származnak az eredeti adatok, hogyan gyűjtötték és manipulálták őket, és következésképpen milyen mértékben bízhatunk meg bennük. Mennyire volt jó a modell, mely ezt a szintetikus adathalmazt létrehozta? Mire lehet vagy nem lehet értelmesen felhasználni ezeket az adatokat? A jövőben ezek lehetnek azok a kérdések, melyeket az adatok (és az adatokon képzett mesterséges intelligencia alapú szolgáltatások) kritikus fogyasztóinak fel kell majd tenniük, és melyekre a szintetikus adatok szolgáltatóinak intuitív, értelmes válaszokat kell találniuk. Más szóval, mint társadalom már most is küzdünk az adatismerettel és az átláthatósággal, és a szintetikus adatok növekedésével ez még sokkal rosszabbá válhat.

A jövőben a szintetikus adatok sokkal nagyobb részét fogják képezni mindennapi életünknek. Lehetősége van arra, hogy mindent átstrukturáljon, a világról szerzett tapasztalatainkat alakító algoritmusoktól kezdve az adatok és a valóság megértésén át a társadalomtudományok társadalomban betöltött szerepéig. A tét túl nagy ahhoz, hogy ezeket a fontos döntéseket csak az adattudósokra bízzuk, így a társadalomtudósoknak (és a politikai döntéshozóknak is) fontos szerepük lesz. Ellenkező esetben ennek az „adatforradalomnak” a hatásai katasztrofálisak lehetnek. Nem azért, mert a szintetikus adatok nem lennének hasznosak vagy rosszabbak, mint egyes ma rendelkezésre álló adatkészletek, hanem inkább azért, mert attól tartunk, hogy valószínűleg „túlságosan” is hasznosak lesznek.