Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
post

Miért váltanak sokan adatmérnökre az adatszakértőből

MEGOSZTÁS

Az adatmodellezésben minden az adatokkal kezdődik. Az egész munka 50-60%-a az adatigény megértését és az ETL-t (Extract, Transform, Load) foglalja magában, ami megköveteli az adatok megszerzését, tisztává és modellbe való bevitelre előkészítését. Az ML-modell csak annyira lehet jó, amennyire a beletáplált adatok.

(Kiemelt kép: Unsplash)

Az egyetemen a tipikus adattudományi feladatok során olyan jól ismert adatkészletekkel kell dolgozni, mint az Iris vagy a Titanic. A feladatok az osztályozási algoritmusok elvégzése és a hiperparaméterek finomhangolása körül forognak a modellek teljesítményének növelése érdekében. Az adattudósok valós életbeli forgatókönyve azonban merőben más. A gyakorlati üzleti alkalmazásokban az adattudósok konkrét követelményeket kapnak, gyakran az üzleti érdekelt felektől, és elvárják, hogy a rendelkezésre álló adatokat felhasználva olyan modelleket építsenek, melyek kiszolgálják ezeket az igényeket. Rendelkezniük kell azokkal a készségekkel, melyekkel önállóan lekérdezhetik a vonatkozó adatforrásokat, átfogó ismereteket szerezve magukról az adatokról.

Miért váltanak sokan adatmérnökre az adatszakértőből
Az adattudósok valós életbeli forgatókönyve azonban merőben más. A gyakorlati üzleti alkalmazásokban az adattudósok konkrét követelményeket kapnak, gyakran az üzleti érdekelt felektől, és elvárják, hogy a rendelkezésre álló adatokat felhasználva olyan modelleket építsenek, melyek kiszolgálják ezeket az igényeket (Fotó: Unsplash+)

Azokban az esetekben, amikor több adatforrás is érintett, a csővezetékek építésének képessége kulcsfontosságúvá válik az egész folyamat racionalizálásában. Az adattudósok elemzéseikhez és modellezésükhöz nagymértékben támaszkodnak a kiváló minőségű, jól strukturált adatokra. Itt jönnek a képbe az adatmérnöki készségek. E készségek elsajátításával az adattudósok aktívan részt vehetnek az adatgyűjtési és előkészítési szakaszokban. Nagyobb vállalatoknál az adatmérnöki ismeretek megértése lehetővé teszi az adattudósok számára, hogy hatékonyan együttműködjenek az adatmérnökökkel. Együtt tudnak dolgozni a különböző adatforrások megértésén, a robusztus adatvezetékek megtervezésén, valamint az elemzéshez használt adatok integritásának és megbízhatóságának biztosításán. Másrészt a kisebb vállalatoknál vagy induló vállalkozásoknál, melyeknél nincs dedikált adatmérnöki csapat, az alapvető mérnöki fogalmak ismerete még értékesebbé válik az adattudósok számára. Ez képessé teszi őket arra, hogy automatizálják és ésszerűsítsék a teljes adatgyűjtési és elemzési folyamatot. Ezekkel a készségekkel az adatok megszerzésétől kezdve a szükséges elemzések elvégzéséig végponttól végpontig tartó feladatokat tudnak vállalni anélkül, hogy erősen külső erőforrásokra támaszkodnának. Ezzel el is érkeztünk a következő ponthoz.

Miért váltanak sokan adatmérnökre az adatszakértőből
Nagyobb vállalatoknál az adatmérnöki ismeretek megértése lehetővé teszi az adattudósok számára, hogy hatékonyan együttműködjenek az adatmérnökökkel. Együtt tudnak dolgozni a különböző adatforrások megértésén, a robusztus adatvezetékek megtervezésén, valamint az elemzéshez használt adatok integritásának és megbízhatóságának biztosításán (Fotó: Unsplash+)

Bármely adattudományi projekt végponttól végpontig tartó tulajdonlása

Azok az adattudósok, akik rendelkeznek MLOps készségekkel, az adatmérnökségnek az ML termelési ciklusra összpontosító részhalmazával, képessé válnak arra, hogy modelljeiket zökkenőmentesen telepítsék termelési környezetbe. Olyan robusztus csővezetékeket tudnak felépíteni, melyek megkönnyítik a modellek telepítését, integrálását és felügyeletét, biztosítva a folyamatos értékelést és frissítéseket, amint új adatok válnak elérhetővé. Ez a végponttól végpontig tartó megközelítés teljes ellenőrzést biztosít az adattudósok számára a teljes modelléletciklus felett, beleértve a fejlesztést és a karbantartást is. A végponttól végpontig tartó tulajdonlás átvételével az adattudósok gyorsabban tudnak iterálni és kísérletezni. Rugalmassággal rendelkeznek ahhoz, hogy szükség szerint módosítsák az adatgyűjtési, előfeldolgozási és modellfejlesztési folyamatokat, kiküszöbölve a külső függőségektől való függőséget. Ez az agilitás gyorsabb meglátásokat, gyorsabb visszacsatolási hurkokat tesz lehetővé, és végső soron hatékonyabb döntéshozatalt tesz lehetővé a rendelkezésre álló adatok alapján.

Alacsonyabb belépési szint tisztességesen magas kezdő fizetéssel

Az adatmérnökök iránti kereslet egyre nő, a legtöbb vállalat legalább alapdiplomával rendelkező jelölteket követel meg.  Úgy tűnik, hogy az adatmérnökök és az adattudósok képzettségének összehasonlításakor az adatmérnököknek nagyobb esélyük van arra, hogy már alapdiplomával is interjút és állást kapjanak. Míg az adattudósoknak esetleg mester- vagy PhD-fokozatra van szükségük ahhoz, hogy figyelembe vegyék őket. Az adattudós állások többsége a természetes nyelvfeldolgozás, a számítógépes látás, az ajánlási rendszer területére specializálódik. Ezért van értelme, hogy valaki magasabb diplomával rendelkezzen ezeken a területeken ahhoz, hogy figyelembe is vegyék a munkaerőpiacon manapság.

Miért váltanak sokan adatmérnökre az adatszakértőből
A végponttól végpontig tartó tulajdonlás átvételével az adattudósok gyorsabban tudnak iterálni és kísérletezni. Rugalmassággal rendelkeznek ahhoz, hogy szükség szerint módosítsák az adatgyűjtési, előfeldolgozási és modellfejlesztési folyamatokat, kiküszöbölve a külső függőségektől való függőséget (Fotó: Unsplash+)

Sokoldalúság és alkalmazkodóképesség

A mai dinamikus adattérben a sokoldalúság és az alkalmazkodóképesség kulcsfontosságú tulajdonságok az adattudósok számára. Az adatmérnöki ismeretek elsajátítása szélesebb körű készségekkel ruházza fel az adattudósokat, így sokoldalúbbá és alkalmazkodóképesebbé válnak a különböző projektkövetelményekhez. Különböző adatforrásokat tudnak kezelni, különböző adattárolási és adatfeldolgozási technológiákkal tudnak dolgozni. Az adatmérnöki készségekkel rendelkező adattudósok nagyon keresettek ma már a munkaerőpiacon. A vállalatok felismerik azon szakemberek értékét, akik képesek áthidalni az adatmérnöki és az adattudomány közötti szakadékot. Ez a pont egyesek számára ellentmondásos lehet. De hacsak nem egy nagyvállalatnál dolgozik, ahol különböző funkciókhoz különböző adatcsapatok tartoznak, a legtöbbször jobban jár, ha ismeri az adatmérnöki készségeket is. Ezen készségek elsajátítása javítja az adattudós önéletrajzát, és a karrierlehetőségek szélesebb körét nyitja meg. Olyan jól képzett szakemberekként pozicionálja őket, akik mind az adatmérnöki, mind az adattudományi projektekben hozzá tudnak járulni, bővítve ezzel karrier- és növekedési lehetőségeiket. Ahogy valaki feljebb kapaszkodik a vállalati ranglétrán, elvárható, hogy mindenhez értő szakember legyen, hogy a teljes adatcsapatot irányítani tudja a végponttól végpontig skálázható termékek építésében. Ezért az adatmérnöki ismeretek elsajátítása mindenképpen elengedhetetlen az adattudósok számára már.

A nagy nyelvi modellek (LLM) megjelenésével és a mesterséges intelligencia gyors növekedésével egy ML-modell képzése elérhetőbbé és könnyebbé vált, mint valaha. A szoftvermérnökök és az adatmérnökök most már gyorsan képezhetnek és telepíthetnek egy ML-modellt, feltéve, hogy rendelkeznek némi ismerettel a témában. Ezért annak érdekében, hogy versenyképes és releváns maradjak, és ami a legfontosabb, részt vehessek a végponttól végpontig skálázható ML-termékfejlesztésben, rákényszerülnek arra, hogy felvegyék az adatmérnöki szakmát. Ez határozottan nem könnyű. De ha egyszer megszokják, rájönnek, hogy a munkafolyamatok automatizálása és racionalizálása könnyebbé válik. Ráadásul, még ha leépítésre is kerül sor, így akkor biztosan keresett lesz az adattudományi és mérnöki képességei kapcsán.

Miért váltanak sokan adatmérnökre az adatszakértőből
Az adatmérnöki ismeretek elsajátítása szélesebb körű készségekkel ruházza fel az adattudósokat, így sokoldalúbbá és alkalmazkodóképesebbé válnak a különböző projektkövetelményekhez. Különböző adatforrásokat tudnak kezelni, különböző adattárolási és adatfeldolgozási technológiákkal tudnak dolgozni (Fotó: Unsplash+)

Mi a különbség az adattudós és az adatmérnök között?

Mivel egyre több vállalkozás, szervezet és vállalat ébred rá annak fontosságára, hogy fontos meglátásokat nyerjenek ki a rájuk nehezedő adathalmazból, jelentősen megnőtt a kereslet az adattudósok, adatmérnökök és más, a területhez kapcsolódó szakértők iránt. Az adattudomány területe már jó néhány éve a viták középpontjában áll, és nincs jele annak, hogy ez lelassulna. Mivel egyre több vállalkozás, szervezet és vállalat ébred rá annak fontosságára, hogy fontos meglátásokat nyerjenek ki a rájuk nehezedő adathalmazból, az adattudósok, adatmérnökök és a terület egyéb szakértői iránti kereslet jelentősen megnőtt. Nem csoda, hogy miközben egyre nagyobb hangsúlyt kap az ilyen adattudományos tehetségek bevonása, az adattudományi címek és szerepek egész sora is létrejött a piac igényeinek kielégítésére. Az utóbbi időben sokat beszéltek és írtak az adattudomány területén a különböző szerepek közötti különbségekről. Többek között azok kerültek reflektorfénybe, melyek az adattudósok és az adatmérnökök közötti különbségeket tárgyalják és vitatják.

Ha azon tűnődik, mi váltja ki ezt a hatalmas érdeklődést ezek iránt a szerepek iránt, akkor az évek során érzékelhető szemléletváltás lehet a háttérben rejlő hajtóerő. Ha néhány évvel ezelőtt visszalépünk, akkor azt találjuk, hogy az uralkodó hangsúly az adatokból való értékes meglátások kinyerésén volt. Ahogy a vállalatok és szervezetek elkezdtek adatalapú és adatvezérelt döntéseket hozni, melyek számos előnnyel jártak számukra, az adatkezelés jelentősége (lassan, de biztosan) kezdett elsüllyedni az iparágban. Ez ráébresztette az érdekelt feleket arra is, hogy az adatok minősége fontos a hasznos meglátások kinyeréséhez, hiszen a „Garbage In, Garbage Out” elve az adattudomány területén is működik. Még ha képes is a legjobb modelleket létrehozni, az eredményei valószínűleg gyengék és hatástalanok lesznek, ha az adatok nem minőségiek. És ez volt az, ami reflektorfénybe hozta az adatmérnök szerepét.

Miért váltanak sokan adatmérnökre az adatszakértőből
Ha néhány évvel ezelőtt visszalépünk, akkor azt találjuk, hogy az uralkodó hangsúly az adatokból való értékes meglátások kinyerésén volt. Ahogy a vállalatok és szervezetek elkezdtek adatalapú és adatvezérelt döntéseket hozni, melyek számos előnnyel jártak számukra, az adatkezelés jelentősége (lassan, de biztosan) kezdett elsüllyedni az iparágban (Fotó: Unsplash+)

A Gartner szerint a Big Data projekteknek mindössze 15%-a jut el valaha is a termelésig. A szakterületi szakértők szerint az ilyen kudarcok egyik fő oka az, hogy nem képesek kiépíteni egy termelési csővezetéket, ami az adatmérnök egyik fő feladata lenne. Az analitika modern korában az adattudósok kapják a legtöbb reflektorfényt és figyelmet. Az adatmérnökök szerepe azonban ugyanolyan fontos, bár gyakran figyelmen kívül hagyják őket. Fontos felismerni, hogy az adattudomány (és még az adatelemzés is) nem tudna virágozni, ha nem létezne adatmérnöki munkapad. Ha nem hiszi, gondoljon arra, amit a Glassdoor adatai mondanak.

A Glassdoor szerint 2018-ban az adatmérnököknek szánt álláslehetőségek száma majdnem ötször annyi volt, mint az adattudósoké. Máshol is előfordulhat, hogy az adattudós állások száma meghaladja az adatmérnöki állások számát, bár egyesek szerint ez azért lehet, mert számos szervezet nem mindig (vagy nem képes) különválasztani az adattudóst és az adatmérnököt. Így végül az előbbiek számára írnak ki állásokat, holott valójában inkább adatmérnököket kellett volna keresniük. A szervezetek ilyen cselekedeteit talán az váltja ki, hogy nem ismerik az adattudósok és az adatmérnökök közötti jelentős különbségeket. Számos jelentésből kiderült, hogy a szervezetek többsége több adatmérnököt igényel a csapatában, mint adattudóst. Adódik tehát a kérdés, mi is pontosan az adatmérnökség, és miben különbözik az adatmérnök szerepe az adattudósokétól. Ássunk egy kicsit mélyebbre a kérdések megválaszolásához, és ismerjük meg az adattudósok és az adatmérnökök közötti különbségeket.

Miért váltanak sokan adatmérnökre az adatszakértőből
A Gartner szerint a Big Data projekteknek mindössze 15%-a jut el valaha is a termelésig. A szakterületi szakértők szerint az ilyen kudarcok egyik fő oka az, hogy nem képesek kiépíteni egy termelési csővezetéket, ami az adatmérnök egyik fő feladata lenne (Fotó: Unsplash+)

Ki is az az adatmérnök?

Olyan szakember, aki a Big Data körüli szoftvermegoldások létrehozására specializálódott készségekkel rendelkezik. Az adatmérnököt másképpen úgy is meghatározhatjuk, hogy ő egy kíváncsi, képzett problémamegoldó, aki egyaránt szereti az adatokat és a mások számára hasznos dolgok létrehozását. Így az adattudósokkal és az üzleti elemzőkkel együtt az adatmérnökök szerves részét képezik annak a csapatmunkának, mely a nyers adatokat olyan módon alakítja át, mely hasznos meglátásokat kínál a szervezeteknek, és biztosítja számukra az annyira szükséges versenyelőnyt. Annak megértéséhez, hogy mi az adatmérnök szerepe, elmondható, hogy ez a szakember olyan személy, aki olyan architektúrákat épít, fejleszt, értékel és karbantart, mint az adatbázisok és a nagyméretű feldolgozó rendszerek. Ezzel szemben az adattudós az, aki tisztítja, rendszerezi és cselekszik a (nagy) adatokkal.

Az adatmérnökök feladata, hogy javaslatokat tegyenek, sőt időnként meg is valósítsák az adatminőség, a hatékonyság és a megbízhatóság javításának módjait. Az ilyen feladatok elvégzéséhez számos eszközt és nyelvet kell felhasználniuk a rendszerek összevonásához, vagy meg kell próbálniuk felkutatni a más rendszerekből származó új adatok megszerzésének lehetőségeit, amelyek segítségével például a rendszerspecifikus kódok alapinformációként szolgálhatnak az adattudósok által végzett fejlett feldolgozásban. Az adatmérnöknek arról is meg kell győződnie, hogy az alkalmazott architektúra képes támogatni az adattudósok, valamint az üzlet és szervezet, valamint az érdekelt felek igényeit. Annak érdekében, hogy a szükséges adatokat az adattudományi csapat számára szállítsák, az adatmérnökök felelőssége lesz az adathalmazok folyamatainak kidolgozása az adatbányászat, a modellezés és a termelés számára.

Miért váltanak sokan adatmérnökre az adatszakértőből
Az adatmérnökök feladata, hogy javaslatokat tegyenek, sőt időnként meg is valósítsák az adatminőség, a hatékonyság és a megbízhatóság javításának módjait. Az ilyen feladatok elvégzéséhez számos eszközt és nyelvet kell felhasználniuk a rendszerek összevonásához, vagy meg kell próbálniuk felkutatni a más rendszerekből származó új adatok megszerzésének lehetőségeit (Fotó: Unsplash+)

Az adattudósok és az adatmérnökök közötti legfontosabb különbségek

A készségek és felelősségi körök tekintetében jelentős átfedéseket talál az adattudósok és az adatmérnökök között. Az egyik legfontosabb különbség az adattudósok és az adatmérnökök között a fókuszterület. Az adatmérnökök esetében a hangsúly az adatgeneráláshoz szükséges architektúra és infrastruktúra létrehozásán alapul. Ezzel szemben az adattudósok fókusza a generált adatokon végzett fejlett statisztikai és matematikai elemzéseken van. Bár az adattudósok szerepe megköveteli az adatmérnökök által létrehozott és karbantartott adatinfrastruktúrával való folyamatos interakciót, az előbbiek nem felelősek az infrastruktúra létrehozásáért és karbantartásáért. Inkább belső ügyfeleknek nevezhetjük őket, akiknek az a feladatuk, hogy magas szintű üzleti és piaci műveleti kutatásokat végezzenek a trendek és összefüggések felismerése érdekében, amihez viszont kifinomult módszerek és gépek egész sorát kell használniuk az adatokkal való interakcióhoz és az azok alapján történő cselekvéshez. Az adatmérnökök feladata, hogy biztosítsák az adatelemzők és adattudósok támogatásához szükséges eszközöket és infrastruktúrát, hogy ezek a szakemberek végponttól végpontig tartó megoldásokat tudjanak nyújtani az üzleti problémákra. A nagy teljesítményű, skálázható infrastruktúra létrehozása, mely segít a nyers adatforrásokból egyértelmű üzleti meglátásokat nyújtani, emellett olyan összetett elemzési projektek megvalósítása, ahol a hangsúly az adatok gyűjtésén, értékelésén, kezelésén és vizualizálásán van, valamint a valós idejű és kötegelt analitikai megoldások fejlesztésén.

Talán most már értik, hogy az adattudósok és az adatmérnökök közötti néhány kulcsfontosságú különbség ellenére az adatformálók az utóbbiakra támaszkodnak. Míg az adattudósok olyan fejlett elemzési eszközökkel foglalkoznak, mint a Hadoop, az R, a fejlett statisztikai modellezés és az SPSS, addig az adatmérnökök továbbra is az ilyen eszközöket támogató termékekre összpontosítanak. Így egy adatmérnök foglalkozhat a NoSQL, MySQL, SQL, Cassandra stb. rendszerekkel. Bizonyos értelemben azt mondhatjuk, hogy az adatérték-előállítási láncban az adatmérnökök szerepe a vízvezeték-szerelőkhöz hasonlít, mivel megkönnyítik az adattudósok, adatelemzők és más, az adattudomány táplálta szakemberek munkáját. Mint minden infrastruktúra esetében, a vízvezeték-szerelők sem kerülnek reflektorfénybe, mégis pótolhatatlanok, hiszen nélkülük senki sem tud munkát végezni. Ugyanez vonatkozik az adatmérnökökre is.

Miért váltanak sokan adatmérnökre az adatszakértőből
Az adatmérnökök feladata, hogy biztosítsák az adatelemzők és adattudósok támogatásához szükséges eszközöket és infrastruktúrát, hogy ezek a szakemberek végponttól végpontig tartó megoldásokat tudjanak nyújtani az üzleti problémákra (Fotó: Unsplash+)

Az adatmérnökök által használt nyelv, eszközök és szoftverek

A készségeik közötti különbség miatt az adattudósok és az adatmérnökök közötti különbségek az eltérő eszközök, nyelvek és szoftverhasználat használatában is megmutatkoznak. Az adattudósok esetében a modellek felépítéséhez gyakran használt nyelvek a Python, az R, az SPSS, a Stata, a SAS és a Julia. A Python és az R azonban kétségkívül a legnépszerűbb eszközök. Amikor ezek az adattudományi szakemberek Pythonnal és R-rel dolgoznak, gyakran folyamodnak olyan csomagokhoz, mint a ggplot2, hogy figyelemre méltó adatvizualizációkat készítsenek R-ben, vagy a Pandas (Python adatmanipulációs könyvtár) mellett döntenek. Számos más csomag is jöhet számukra, amelyek közé tartozik a NumPy, a Scikit-Learn, a Statsmodels, a Matplotlib stb. Az adattudós eszköztárában valószínűleg más eszközök is vannak, mint például a Matlab, a Rapidminer, a Gephi, az Excel. Az adatmérnökök gyakran dolgoznak olyan eszközökkel, mint az Oracle, SAP, Redis, Cassandra, MongoDB, MySQL, PostgreSQL, Riak, neo4j, Sqoop és Hive. A nyelvek, eszközök és szoftverek, amelyek mindkét fél számára közösek, a Java, a Scala és a C#. Az adattudósok és az adatmérnökök közötti egyik legfontosabb különbség az adatvizualizációra és a történetmesélésre helyezett hangsúlyból adódik, ami tükröződik az eszközökben, amelyeket ezek a szakemberek használnak, és amelyek közül néhányat fentebb említettünk.

Miért váltanak sokan adatmérnökre az adatszakértőből
A készségeik közötti különbség miatt az adattudósok és az adatmérnökök közötti különbségek az eltérő eszközök, nyelvek és szoftverhasználat használatában is megmutatkoznak (Fotó: Unsplash+)

Amikor a szervezetek rosszul osztják ki a szerepeket

Már említettük, számos szervezet nem különbözteti meg az adattudósok és az adatmérnökök közötti kulcsfontosságú különbségeket, és gyakran az előbbieket bízzák meg azzal a feladattal, amire az utóbbiak specializálódtak. Ha például az adattudósokat arra kérik, hogy hozzanak létre egy adatcsővezetéket, ami egy adatmérnök feladata, az azt jelentené, hogy az előbbiek a tényleges hatékonyságuknak csupán 20-30%-ával működnek. Fontos tehát, hogy ismerjük az adattudósok és az adatmérnökök közötti különbségeket, és mindkettőt kifejezetten a képességeiknek megfelelő feladatokra vegyük fel.

Miért váltanak sokan adatmérnökre az adatszakértőből

PODCAST

ICT Global News

VIDEOGALÉRIA
FOTÓGALÉRIA

Legnépszerűbb cikkek