Hogyan változtatja meg a DataOps az adatok világát?

Tölgyes László András

2023. ápr 19.

MEGOSZTÁS

A DataOps-szal kapcsolatos egyik gyakori tévhit az, hogy ez nem más, mint az adatelemzésre alkalmazott DevOps. Bár szemantikailag kissé félrevezető, a „DataOps” elnevezésnek van egy pozitív tulajdonsága. Azt kommunikálja ugyanis, hogy az adatelemzéssel el lehet érni azt, amit a szoftverfejlesztés a DevOps-szal már sikeresen megvalósított. Vagyis a DataOps nagyságrendekkel javíthatja a minőséget és a ciklusidőt, amikor az adatcsapatok új eszközöket és módszereket használnak.

(Kiemelt kép: Unsplash+)

A DevOps a szoftverfejlesztés olyan megközelítése, mely automatizálással gyorsítja fel a build életciklust (korábbi nevén release engineering). A DevOps a szoftverek folyamatos integrációjára és folyamatos szállítására összpontosít az igény szerinti informatikai erőforrások (infrastruktúra mint kód) kihasználásával, valamint a kód integrációjának, tesztelésének és telepítésének automatizálásával. A szoftverfejlesztés és az IT-üzemeltetés („DEVelopment” és „OPerationS”) ilyen összeolvasztása csökkenti a telepítési időt, csökkenti a piacra jutási időt, minimalizálja a hibákat, és lerövidíti a problémák megoldásához szükséges időtartamot is. A DevOps alkalmazásával a vezető vállalatok hónapokról (szó szerint) másodpercekre tudták csökkenteni a szoftverkiadási ciklusuk idejét. Ez lehetővé tette számukra, hogy növekedjenek és vezető szerepet töltsenek be a gyors ütemű, feltörekvő piacokon. Az olyan vállalatok, mint a Google, az Amazon és sokan mások ma már naponta többször is kiadnak szoftvereket. A kódkiadások minőségének és ciklusidejének javításával a DevOps nagy érdemeket érdemel e vállalatok sikeréért. A kódkészítés és szállítás optimalizálása csak egy darabja az adatelemzés nagyobb „kirakós játékának”. A DataOps az adatelemzés végponttól végpontig tartó ciklusidejének csökkentésére törekszik, az ötletek eredetétől az értéket teremtő diagramok, grafikonok és modellek szó szerinti létrehozásáig. Az adatok életciklusa az eszközök mellett az emberekre is támaszkodik. Ahhoz, hogy a DataOps hatékony legyen, az együttműködést és az innovációt kell irányítania. E célból a DataOps bevezeti az agilis fejlesztést az adatelemzésbe, hogy az adatcsapatok és a felhasználók hatékonyabban és eredményesebben dolgozzanak együtt.

Hogyan változtatja meg a DataOps az adatok világát? — A DataOps az adatelemzés végponttól végpontig tartó ciklusidejének csökkentésére törekszik, az ötletek eredetétől az értéket teremtő diagramok, grafikonok és modellek szó szerinti létrehozásáig (Fotó: Unsplash+)

Agilis fejlesztés

Az agilis fejlesztés során az adatcsapat rövid, „sprinteknek” nevezett lépésekben tesz közzé új vagy frissített elemzési adatokat. Mivel az innováció gyors időközönként történik, a csapat folyamatosan át tudja értékelni prioritásait, és könnyebben alkalmazkodhat a változó követelményekhez. Ez a fajta reagálóképesség lehetetlen a „vízeséses” projektmenedzsment-módszertan használatával, mely a csapatot hosszú fejlesztési ciklusba zárja, melynek végén egyetlen „Big Bang” eredményt kap. Tanulmányok azt mutatják, hogy az agilis szoftverfejlesztési projektek gyorsabban és kevesebb hibával fejeződnek be, amikor az agilis fejlesztés felváltja a hagyományos vízeséses, vagyis a „szekvenciális” módszertant. Az agilis módszertan különösen hatékony olyan környezetben, ahol a követelmények gyorsan változnak, ez a helyzet jól ismert az adatelemzéssel foglalkozó szakemberek körében. DataOps környezetben az agilis módszerek lehetővé teszik a szervezetek számára, hogy gyorsan reagáljanak az ügyfelek igényeire, és felgyorsítsák az értékteremtési időt. Az agilis fejlesztés és a DevOps jelentős értéket ad az adatelemzéshez, de a DataOpsnak van még egy fontos összetevője. Míg az Agile és a DevOps az analitikai fejlesztéssel és telepítéssel kapcsolatos, az adatelemzés az „adatcsővezetéket” is kezeli és összehangolja. Az adatok folyamatosan belépnek a csővezeték egyik oldalán, lépések sorozatán haladnak keresztül, és jelentések, modellek és nézetek formájában lépnek ki. Az adatvezeték az adatelemzés „műveleti” oldala. Hasznos, ha az adatvezetéket egy gyártósornak fogjuk fel, ahol a minőséget, a hatékonyságot, a korlátozásokat és az üzemidőt kell kezelni. Hogy teljes mértékben átvegyük ezt a gyártási gondolkodásmódot, ezt a csővezetéket „adatgyárnak” is nevezhetjük.

A DataOps-ban az adatok működésen keresztüli áramlása fontos terület. A DataOps „hangszereli”, felügyeli és kezeli az adatgyárat. Az egyik különösen hatékony lean-gyártási eszköz a statisztikai folyamatszabályozás (SPC). Az SPC méri és felügyeli az adatvezeték adatait és működési jellemzőit, biztosítva, hogy a statisztikák az elfogadható tartományokon belül maradjanak. Ha az SPC-t az adatelemzésre alkalmazzák, az figyelemre méltó javulást eredményez a hatékonyság, a minőség és az átláthatóság terén. Az SPC alkalmazásával az operatív rendszeren keresztül áramló adatok működőképességét ellenőrzik. Ha rendellenesség lép fel, az adatelemző csapat lesz az első, aki egy automatikus riasztás révén értesül róla. Bár a „DataOps” elnevezés azt sugallja, hogy leginkább a DevOps-tól kölcsönöz, mindhárom módszertan – az agilis, a DevOps és a statisztikai folyamatszabályozás – alkotja a DataOps igazi szellemi örökségét. Az agilis irányítja az analitikai fejlesztést, a DevOps optimalizálja a kódellenőrzést, az új analitikák építését és szállítását, az SPC pedig az adatgyárat hangszereli és felügyeli.

Az emberi tényező

Ahogy fentebb említettük, a DataOps legalább annyira szól az emberek irányításáról, mint az eszközökről. A DataOps és a DevOps közötti egyik finom különbség az érdekelt felek igényeihez és preferenciáihoz kapcsolódik. A DevOps a szoftverfejlesztők igényeinek kiszolgálására jött létre. A fejlesztőmérnökök szeretnek kódolni és elfogadják a technológiát. Egy új nyelv megtanulásának vagy egy új eszköz telepítésének követelménye lehetőséget jelent, nem pedig gondot. Szakmai érdeklődést tanúsítanak a kód létrehozásának, integrálásának és telepítésének minden apró részlete iránt. A DevOps elfogadja ezt a komplexitást. A DataOps-felhasználók gyakran ennek az ellentétei. Ők adattudósok vagy elemzők, akik a modellek és vizualizációk építésére és telepítésére összpontosítanak. A tudósok és az elemzők jellemzően nem olyan technikailag képzettek, mint a mérnökök. Ők a szakterületi szakértelemre összpontosítanak. Az érdekli őket, hogy a modellek előrejelzőbbek legyenek, vagy hogy eldöntsék, hogyan lehet a legjobban vizuálisan megjeleníteni az adatokat. A modellek és vizualizációk létrehozásához használt technológia csak eszköz a cél eléréséhez. Az adatszakemberek egy vagy két eszközt használnak a legszívesebben – minden, ami ezen túlmutat, nemkívánatos komplexitást jelent. Szélsőséges esetekben a komplexitás meghaladja a kezelési képességüket. A DataOps elfogadja, hogy az adatszakemberek egy több eszközből álló, heterogén világban élnek, és arra törekszik, hogy ezt a világot kezelhetőbbé tegye számukra.

Folyamatbeli különbségek

Az adatszakemberek előtt álló egyedi összetettséget az adatelemzési fejlesztési és életciklus-folyamatok vizsgálatával kezdhetjük megérteni. Az adatelemzési szakemberek a szoftverfejlesztőkhöz képest hasonló és egyedi kihívásokkal szembesülnek. A DevOps életciklusát általában egy végtelen szimbólum alakú ábrával szokás szemléltetni. A DataOps életciklusa osztozik ezeken az iteratív tulajdonságokon, de fontos különbség, hogy a DataOps két aktív és egymást keresztező csővezetékből áll. A fent leírt adatgyár az egyik csővezeték. A másik csővezeték szabályozza az adatgyár frissítésének módját – az új elemzések létrehozását és telepítését az adatcsővezetékbe. Az adatgyár nyers adatforrásokat vesz fel bemenetként, és egy sor összehangolt lépésen keresztül olyan analitikai felismeréseket hoz létre, melyek „értéket” teremtenek a szervezet számára. Ezt nevezzük „értékcsatornának”. A DataOps automatizálja a szervezést, és az SPC segítségével felügyeli az értékcsatornán keresztül áramló adatok minőségét. Az „innovációs csővezeték” az a folyamat, melynek során az új elemzési ötletek bekerülnek az értékvezetékbe. Az innovációs csővezeték koncepcionálisan hasonlít a DevOps fejlesztési folyamatra, de közelebbről megvizsgálva számos tényező a DataOps fejlesztési folyamatot nagyobb kihívássá teszi, mint a DevOps-ot.

Ha érdeklik a gyakorlati tapasztalatok és a DevOps legfőbb pillérei, akkor feltétlen jöjjön el szakmai reggelinkre, amely április 25-én rendezünk meg, DevOps-magoldások a nagyvállalati IT-ben címmel.