Az adattudomány egy haldokló terület?

Tölgyes László András

2023. júl 19.

MEGOSZTÁS

Az adattudományi állás a legígéretesebb és legkeresettebb karrierlehetőség a XXI. században. Az adatok jelentősége nőtt a digitalizációval, és sok vállalat az adattudomány segítségével oldja meg üzleti problémáit. Az előrejelzések szerint a gépi tanulási mérnökök az adattudósok helyett válnak domináns szereplővé a következő években.

(Kiemelt kép: Unsplash)

Feltehető így a kínos kérdés bátran, hogy van-e előrelátható jövője egy adattudósnak? Ha egy technológiát felforgatnak, akkor mindig volt olyan „helyettesítő” metódus, mely szinte minden olyan munkát kiváltott, melyet az adott tudomány területén addig végeznek. Tanulmányok szerint a vállalati szervezeteknek csak 57%-ka használja az adatokat és az analitikát a stratégia és a változás irányítására. A munkáltatók 95%-ka pedig azt mondja, hogy az adattudományi és analitikai készségeket nehéz ma megtalálni. Sok vállalat úgy gondolja, hogy minden adattudományi állásnak a legmodernebb technológiákon kell alapulnia, ami végső soron lassítja az adattudósok felvételét a következő években.

Az automatizálás fogja megölni az adattudományi állásokat?

Az automatizálás kiegészítő eszközként fog működni, mely fellendíti és hatékonyabbá teszi az adattudományi feladatokat. A robotok az alacsonyabb szintű feladatokat, míg az adattudósok a problémamegoldó feladatokat tudják majd ellátni. Az emberi problémamegoldás és az automatizálás ilyen kombinációja ráadásul inkább megerősíti az adattudósokat, mintsem veszélyezteti a munkájukat. A jövőben további technológiai fejlesztések várhatóak így. Fontos azonban megérteni, hogy az adattudósok egy nagyon fontos készséggel rendelkeznek, amit a mesterséges intelligencia ma még (jelen sorok írása közben) nagyon nehezen tud utánozni.

Az adattudomány egy haldokló terület? — Tanulmányok szerint a vállalati szervezeteknek csak 57%-ka használja az adatokat és az analitikát a stratégia és a változás irányítására. A munkáltatók 95%-ka pedig azt mondja, hogy az adattudományi és analitikai készségeket nehéz ma megtalálni (Fotó: Unsplash)

Az adattudományi útmutatás hiánya

A másik fő oka az ágazat humánerőforrás-hiányának az adattudomány területén az, hogy a legtöbben nem is ismerik megfelelően a munkakövetelményeket. Az adattudomány egy nagy tantárgy, és azok a diákok, akik megpróbálnak mindent megtanulni, a végén mindenhez értő és valójában „egyikhez sem értő” kismesterek lesznek, ami nem az, amit a vállalkozások most sürgősen keresnek a piacon. Sok cégnek van olyan, adatokkal kapcsolatos követelménye, mely megköveteli, hogy a jelöltek alaposan megértsék az adattudomány különböző részeit.

Túltelített az adattudomány?

Sok vállalat alkalmaz adattudósokat, hogy ezeknél a szervezeteknél adatvezérelt problémákat oldjanak meg. Az adattudós szerepe az, hogy adatokkal értéket adjon egy szervezetnek. És a legtöbb vállalatnál ennek csak egy nagyon kis része foglalja magában az ML-algoritmusok építését. Az automatizált eszközök, például az automatikus gépi tanulás és az adatrobot használata az üzleti problémák megoldására merült fel a legtöbb esetben. De ezek az eszközök egy fix algoritmuskészlettel rendelkeznek a probléma megtalálására és megoldására. És az adatrobotok sem képesek az adatok előfeldolgozására vagy a modellépítést megelőző nehéz munkákra. Az adattudósok által a szervezet számára nyújtott értékek abban rejlenek, hogy képesek az adatokat valós felhasználási esetekre alkalmazni. Amíg egy adattudós képes az adatok segítségével problémákat megoldani, és áthidalni a műszaki és üzleti készségek közötti szakadékot, addig ez a szerep továbbra is fennmarad.

Tényleg egy haldokló terület?

Sokan vélekednek úgy a szakértők közül ma, az adattudomány egy olyan terület, ahol a potenciálnak csak 50%-ka valósult meg. Igaz ez az állítás? Tekintettel arra, hogy az adattudományt a LinkedIn a „legígéretesebb” karriernek, a Glassdoor pedig a „legjobb állásnak Amerikában” nevezte, az iparágban sokan nehezen értik, hogy egy olyan jövedelmezőnek hangzó terület, mint az adattudomány, hogyan tekinthető valaha is halottnak. A definíció szerint „az adattudomány az a tudományterület, mely egyesíti a területi szakértelmet, a programozási készségeket, valamint a matematikai és statisztikai ismereteket, hogy az adatokból értelmes meglátásokat nyerjen”. Tehát amíg nem találjuk meg a módját annak, hogy ne használjuk fel magát az adatot, addig az adattudomány mint terület nem fog egyhamar elavulni. Sokan azonban úgy vélik, hogy mivel az adattudós napi feladatai kvantitatív vagy statisztikai jellegűek, automatizálhatók, és a jövőben nem lesz szükség egyáltalán adattudósokra.

Csak a szakértelem számít

Az elképzelés abból a tényből ered, hogy az adattudósok egyes feladatai, például az adattisztítás, az adatvizualizáció és a modellépítés részben automatizálhatók az autoML modellekkel. Azonban, bár az eszközök képesek lehetnek a feladat hatékony elvégzésére, sokan nem fókuszálnak az adattudós definíciójában a „domain szakértelem” részre. A tartományi szakértelem egy adott területen szerzett széles körű tudásra utal, melyet az adattudósok adattudományi készségeikben alkalmaznak. Tehát még akkor is, ha az adatcsatorna és a munkafolyamat nagy része automatizálódik, akkor is szükség van egy adattudósra, aki a megoldandó üzleti problémát a megfelelő formátumra fordítja majd. Ezenkívül nem könnyű meghatározni, hogy az iparág alapján melyik adattudományi modellt kell alkalmazni. Különösen akkor, ha az iparágak nagyon eltérőek; egy egészségügyi iparágra vonatkozó ajánló algoritmus nem lenne hasznos egy streaming-platform számára. Az adattudósok munkájának nagyon kevéssé értékelt része az, hogy megfelelő kontextust alkalmazzanak egy modellhez. A probléma az, hogy az ML-modellek nem képesek felismerni az „ismeretlen ismeretleneket”, és ha még mérni sem tudnak valamit, hogyan tudják így meghatározni, hogy az egyáltalán megszegik-e az adott iparágra vonatkozó szabályokat? A gépi tanulást a munkafolyamatok különböző feladataiban lehet használni, de az adattudósokra még mindig szükség van ahhoz, hogy meghatározzák, mi legyen a következő lépés. Mit jelentenek a modell eredményei? Hogyan állapítható meg, hogy a modell egyáltalán jó munkát végez-e? Mi a mérőszám? Az adattudomány területén mindig szükség lesz emberi segítségre, amit a gépi tanulás önmagában nem tud biztosítani.

Haldoklik ez a szakma vagy sem?

A félelem néhány évvel ezelőtt merült fel a számviteli ágazatban, amikor azt állították, hogy a mesterséges intelligencia kiválthatja a könyvelők és könyvvizsgálók munkáját. Azonban még ha egy MI program nagyjából mindent meg is tud csinálni, amit egy könyvelő, akkor is szükség van a könyvelő szakértelmére az adómentességek, hitelek stb. tekintetében. Hasonló módon egy adattudós is támaszkodhat az autoML modellekre az adatok összegyűjtésében, vizualizálásában és tisztításában, így jobban koncentrálhat az üzleti igényekre. Emellett az adattudósok iránti kereslet a jövőben csak növekedni fog, mivel az adattudomány még mindig gyerekcipőben jár számos hagyományos területen, például a pénzügy, az egészségügy, a védelem és a kormányzás területén. A vicces az, hogy ahhoz, hogy az autoML adatfeltárás egyáltalán megtörténhessen, először adatokra van szükség, melyeket maga az adattudós gyűjt össze.

Adattudomány vs. mesterséges intelligencia

Manapság nagyon gyakran találkozhatunk ezekkel a kifejezésekkel, adattudomány, mesterséges intelligencia, gépi tanulás, mélytanulás, neurális hálózatok és még sok más. De mit is jelentenek valójában ezek a divatszavak? És miért érdemes foglalkoznia egyik vagy másik fogalommal?

Adattudomány

Az adattudomány az adatokról szól, üzleti döntések meghozatalára használjuk. Mindannyian tudjuk, hogy minden egyes technológiai vállalat hatalmas mennyiségű adatot gyűjt. Az adatok pedig bevételt jelentenek. Miért van ez így? Az adattudomány miatt. Minél több adatunk van, annál több üzleti meglátást tudunk generálni. Az adattudomány segítségével olyan mintákat fedezhetünk fel az adatokban, melyek létezéséről nem is tudunk sokszor. Például felfedezhetjük, hogy egy Budapestre nyaralni induló külföldi nagy valószínűséggel a következő három hétben majd egy thaiföldi luxusutazásra is fog költeni. Ha egy olyan cégünk van, mely luxusutakat kínál egzotikus úti célokra, talán érdekli, hogy megkapja ennek az embernek az elérhetőségét. Az adattudományt széles körben használják ilyen forgatókönyvekben. A vállalatok az adattudományt ajánlási motorok létrehozására, a felhasználói viselkedés előrejelzésére és még sok másra használják. Mindez csak akkor lehetséges, ha elegendő mennyiségű adat áll rendelkezésre, hogy az adatokon különböző algoritmusokat lehessen alkalmazni, melyek a pontosabb eredményeket és előrejelzéseket adják. Az adattudományban létezik az úgynevezett preskriptív analitika is, mely nagyjából ugyanazokat az előrejelzéseket teszi, mint amiről a fenti gazdag turisztikai példában beszéltünk. De további előnyként a preskriptív analitika azt is megmondja, hogy egy adott személyt milyen thaiföldi luxustúrák érdekelhetnek. Például lehet, hogy valaki első osztályon szeretne repülni, de egy háromcsillagos szállással is beérné, míg egy másik személy hajlandó lenne turistaosztályon utazni, de mindenképpen a legdrágább szállásra és kulturális élményre van szüksége. Tehát annak ellenére, hogy mindkét személy a cégünk gazdag ügyfele lesz, mindkettőjüknek más-más igényei vannak. Tehát erre is használhatjuk a preskriptív analitikát. Talán elgondolkodunk, hogy ez nagyon úgy hangzik, mint ha már mesterséges intelligencia lenne. És valójában nem is tévedünk teljesen. Mert ezeknek a gépi tanulási algoritmusoknak a futtatása hatalmas adathalmazokon ismét az adattudomány része. A gépi tanulást az adattudományban arra használják, hogy előrejelzéseket készítsenek, és hogy mintákat fedezzenek fel az adatokban. Ez megint úgy hangzik, mintha intelligenciát adnánk a rendszerünkhöz. Ez bizonyára mesterséges intelligencia. Ugye? Lássuk csak.

Mesterséges intelligencia

A mesterséges intelligencia, vagy röviden MI, az 1950-es évek közepe óta létezik. Nem feltétlenül új. De a közelmúltban vált népszerűvé a feldolgozási képességek fejlődése miatt. Az 1900-as években egyszerűen nem volt meg a szükséges számítási teljesítmény a mesterséges intelligencia megvalósításához. Ma már a világ leggyorsabb számítógépeivel rendelkezhetünk és a felhőben ki is tudjuk használni őket. Az algoritmusok megvalósítása pedig olyannyira sokat fejlődött, hogy már alaphardvereken is futtathatjuk őket, akár a mi laptopunkon vagy okostelefonunkon is, amin éppen ezt a cikket olvassa. A mesterséges intelligenciában rejlő végtelennek tűnő lehetőségek miatt mindenki szeretne belőle részesedni. De mi is pontosan a mesterséges intelligencia? Az MI az a számítógépekbe ültethető képesség, mely lehetővé teszi, hogy ezek a gépek megértsék az adatokat, tanuljanak az adatokból, és az adatokban rejtőző minták alapján hozzanak döntéseket, vagy olyan következtetéseket, melyeket az embereknek egyébként nagyon nehéz (vagy szinte lehetetlen) lenne manuálisan meghozni. A mesterséges intelligencia azt is lehetővé teszi a gépek számára, hogy „tudásukat” olyan új inputok alapján is kiigazítsák, melyek nem voltak részei a gépek kiképzéséhez használt adatoknak.

A mesterséges intelligencia egy másik meghatározása szerint olyan matematikai algoritmusok gyűjteménye, melyek segítségével a számítógépek megértik a különböző típusú adatok közötti kapcsolatokat, így a kapcsolatokra vonatkozó ismeretek felhasználhatók olyan következtetések levonására vagy döntések meghozatalára, melyek igen nagy fokú pontossággal hozhatók. Egy dologban azonban biztosnak kell lennünk, mégpedig abban, hogy elegendő adat áll rendelkezésre ahhoz, hogy az MI tanulhasson belőle. Ha nagyon kis adathalmazzal rendelkezünk, melyet az MI-modell betanításához használunk, akkor a jóslat vagy a döntés pontossága alacsony lehet. Tehát minél több az adat, annál jobb az MI-modell képzése, és annál pontosabb lesz az eredmény is. A képzési adatok méretétől függően különböző algoritmusokat választhatunk a modellünkhöz. Itt kezdődik a gépi tanulás és a mélytanulás. A mesterséges intelligencia kezdeti időszakában a neurális hálózatok voltak a divatosak. Világszerte több embercsoport dolgozott a neurális hálózatok tökéletesítésén. De ahogy azt már korábban említettük, a számítástechnikai hardver korlátai akadályozták a mesterséges intelligencia fejlődését. De az 1980-as évek végétől egészen a 2010-es évekig a gépi tanulás volt az, amit erőltettek az ICT-világban. Minden nagyobb technológiai vállalat nagymértékben befektetett a gépi tanulásba. Az olyan cégek, mint a Google, az Amazon, az IBM, a Facebook stb. gyakorlatilag egyenesen az egyetemekről „vonszolták ki” az MI és ML doktoranduszokat. Manapság azonban még a gépi tanulás is háttérbe szorult. Most minden a mélytanulásról szól. A mesterséges intelligencia egyértelműen fejlődött az elmúlt évtizedekben, és évről évre egyre jobb lesz.

Gépi tanulás

Beszéljünk most a gépi tanulásról. A gépi tanulás (ML) a mesterséges intelligencia egyik alcsoportjának tekinthető. Azt is mondhatjuk, hogy az ML a mesterséges intelligencia egyik megvalósítása. Tehát amikor a mesterséges intelligenciára gondolunk, akkor az ML alkalmazására is gondolhatunk. Ahogy a neve is világossá teszi, az ML-t olyan helyzetekben használjuk, amikor azt szeretnénk, hogy a gép tanuljon az általunk megadott hatalmas mennyiségű adatból, majd ezt a tudást alkalmazza a rendszerbe áramló új adatokra is. De hogyan tanul egy gép, kérdezhetjük. A gépet különböző módon lehet tanulásra késztetni. A gépi tanulás különböző módszerei a felügyelt tanulás, a nem felügyelt tanulás, a félig felügyelt tanulás és a megerősített gépi tanulás. E módszerek némelyikében a felhasználó megmondja a gépnek, hogy melyek a jellemzők vagy független változók (bemenet), és melyik a függő változó (kimenet). A gép tehát megtanulja a gép számára megadott adatokban jelen lévő független és függő változók közötti kapcsolatot. Ezt a rendelkezésre bocsátott adatot nevezzük gyakorlóhalmaznak. Ha a tanulási fázis vagy a képzés befejeződött, a gépet vagy az ML-modellt olyan adatokon tesztelik, melyekkel a modell még nem találkozott. Ezt az új adathalmazt nevezzük tesztadathalmaznak. A meglévő adathalmazt különböző módon oszthatja fel a képzési és a tesztadathalmaz között. Amint a modell elég érett ahhoz, hogy megbízható és nagy pontosságú eredményeket adjon, a modellt egy termelési beállításba telepíthetjük, ahol teljesen új adatkészletekkel szemben használjuk olyan problémákra, mint például előrejelzések vagy osztályozás.

Az ML-ben különböző algoritmusok léteznek, melyek előrejelzési, osztályozási, regressziós és egyéb problémákra használhatók. Talán hallottunk már olyan algoritmusokról, mint az egyszerű lineáris regresszió, a polinomiális regresszió, a támogató vektor regresszió, a döntési fa regresszió, a véletlen erdő regresszió, a K-közeli szomszédok és hasonlók. Ezek az ML-ben használt néhány gyakori regressziós és klaszterező algoritmus jellemzői. Sok más is létezik. És rengeteg adat-előkészítési vagy előfeldolgozási lépésről kell gondoskodnunk még a modell képzése előtt. Az olyan ML-könyvtárak, mint a SciKit Learn azonban olyan sokat fejlődtek, hogy még egy matematikai vagy statisztikai háttérrel, sőt formális MI-képzéssel sem rendelkező alkalmazásfejlesztő is elkezdheti használni ezeket a könyvtárakat ML-modellek építéséhez, képzéséhez, teszteléséhez, telepítéséhez és valós használatához. De mindig hasznos tudni, hogyan működnek ezek az algoritmusok, hogy megalapozott döntéseket hozhassunk, amikor egy algoritmust kell kiválasztanunk a probléma felvetésünkhöz. Az ML-ről szerzett ezen ismeretek birtokában beszéljünk most egy kicsit a mélytanulásról.

Mélytanulás

A mélytanulás (Deep Learning, DL) az ML továbbfejlesztése. Bár az ML a legtöbb alkalmazásban szupererős, vannak olyan helyzetek, ahol az ML sok kívánnivalót hagy maga után. Itt lép be a mélytanulás. Általánosan elfogadott nézet, hogy ha a képzési adathalmaz viszonylag kicsi, akkor az ML-t választja. Ha azonban hatalmas mennyiségű adat áll rendelkezésre, melyre modellt lehet képezni, és ha az adatok túl sok jellemzőt tartalmaznak, és ha a pontosság szuper fontos (és ez mindig fontos), akkor a mélytanulás útját választjuk. Azt is fontos megjegyezni, hogy a mélytanulás sokkal nagyobb teljesítményű hardvert igényel a futtatáshoz (többnyire GPU-kat használnak), a modellek betanítása lényegesen több időt vesz igénybe, és általában nehezebb megvalósítani az ML-hez képest. De ezek azok a kompromisszumok, melyekkel együtt kell élni, ha a megoldandó probléma ennyivel összetettebb.

Talán hallottunk már a TensorFlow-ról, mely egy neurális hálózat, melyet a Google széles körben használ és ajánlja is a fejlesztőknek. Nos, ez mélytanulást használ, mivel a neurális hálózat egyfajta mélytanulási modell. Az önvezető autók, melyeket az elmúlt néhány évben kezdtünk látni, a mélytanulásnak köszönhetően lettek önvezetőek. A mélytanulásnak számos ilyen alkalmazása van a modern világban, melyek egyfajta kulisszák mögött vannak. Például az olyan szórakoztató szolgáltatások, mint a Netflix, széles körben használják a mélytanulást, hogy javítsák az ajánlásaikat, és hogy a felhasználók elkötelezettsége alapján eldöntsék, mely műsorokat érdemes folytatni, és melyeket kell törölni, mert csak időt és pénzt pazarolnak. A legtöbb ma ismert virtuális asszisztens, mint például az Alexa és a Google Assistant, mélytanulást használ arra, hogy megértse az általunk megfogalmazott kéréseket (Natural Language Processing – NLP), a hangszínt, az az érzelmeket, és bizonyos esetekben a hangunk hitelesítésére is alkalmas. Az álhírek ma már nagy dolognak számítanak. A vállalatokat jobbra-balra beperelik, mert nem tudják ellenőrizni az álhírek terjedését a közösségi platformjaikon. Ezért sok ilyen vállalat elkezdte használni a mélytanulást a platformjaikon terjedő álhírek felismerésére, majd a szükséges intézkedések megtételére. Tehát igen, a mélytanulás ma már szinte kötelező egy valamit is magára adó vállalat számára.