(Kiemelt kép: Unsplash+)
Az „adat az új olaj” kifejezést Clive Humby alkotta meg 2006-ban, és azóta széles körben ismételgetik. Az analógia azonban csak néhány szempontból állja meg a helyét (pl. mindkettő értéke általában a finomítással nő), és az adatok szélesebb körű gazdasági hatása néhány kiválasztott technológiai és pénzügyi vállalaton kívül visszafogott. Az olaj és az adatok közötti tényleges különbségek azonban alapvetőek. A legfontosabb, hogy az olaj egy árucikk. Minősége szabványosított és mérhető, ami a különböző forrásokból származó olajat helyettesítő termékké teszi (gazdasági értelemben „homogén árucikk”). Mindenütt jelen van, és az ára is jól meghatározott. Nem utolsósorban, ha van egy hordó olaj, nem lehet egyszerűen másolatot készíteni egy másik hordó előállításához, így az olaj korlátozott erőforrás, melyet a földből kell „kitermelni”.
Az adat viszont heterogén áru. Korlátlanul sokféle adat létezik, és az egyes előfordulások értéke nem mérhető objektíven. Amikor két fél kicserél egy árut, az eladónak meg kell határoznia az árat, a vevőnek pedig meg kell állapítania a fizetési hajlandóságát. Ezt az adatok két tulajdonsága bonyolítja: ugyanazon adatok másik vevőnek történő eladásának határköltsége nulla. Az adatok előállításának költségei nagyon változóak (egy genom szekvenálása költségesebb, mint a testhőmérséklet mérése), de ha egyszer már létezik, akkor ez a költség „elsüllyedt”. A másik vevőnek való eladás folyamata az egyszerű másolás, ami minden gyakorlati szempontból nulla. Nehéz megállapítani az adatok értékét anélkül, hogy „elfogyasztanánk” őket. Az értékesítési célpontok adatbázisa csak akkor értékes, ha tényleges értékesítést eredményez. A helyzetet tovább rontja, hogy ugyanannak az adatkészletnek az értéke nagymértékben függ a majdani vevőjétől (vagy a tervezett felhasználástól). Ebben a tekintetben az adatok valójában közelebb állnak az olyan „élményárukhoz”, mint a könyvek vagy az egzotikus nyaralások. Feltételezhetjük joggal így azt is, hogy ma az adat az egyik legkevésbé kihasznált és ennek következtében jócskán alulértékelt áru.
Miért kell foglalkoznunk az adatok gazdaságával?
Senki nem vitatja ma már az adatok fontosságát. De annak ellenére, hogy az „adat vagyon” narratíva meglehetősen elterjedt, az adat valószínűleg az egyik legkevésbé kihasznált és ennek következtében alulértékelt áru. Amikor a legtöbb vállalkozás az adatokra gondol, akkor a saját tulajdonukban lévő adataira asszociálunk. Ezeket az első fél adatait (1PD) általában weboldalakról, CRM/ERP rendszerekből, ügyfelekkel folytatott levelezésekből gyűjtik. Egyes első feles adatállományok értékesebbek, mint mások: a Google keresési és kattintási előzményei például így az 1PD-korpusz részét képezik. Nyilvánvalónak kell lennie, hogy a harmadik fél adatainak (3PD) mennyisége, azaz a nem közvetlenül a mi tulajdonunkban lévő adatok, nagyságrendekkel nagyobbak, mint a mi 1PD-nk. A legtöbb ember nem ismeri fel a 3PD értékét a vállalkozása számára még. Egy példával illusztrálhatjuk ezt a legjobban.
Mi a legbiztosabb jel az email spamek felismerésében? A leggyakoribb válaszok között szerepelnek: a gépelési hibák, a „döcögő” nyelvtan vagy bizonyos kulcsszavak, például a v1agra említése. Valamivel jobb válasz a következő lenne: „ha a feladó szerepel a névjegyeid között vagy sem”. Nem azért, mert ez igaz (több érvényes nem spam küldő van a névjegyeink között mint spammer nyilván), hanem azért, mert ez egy magán, az e-mailen kívüli adatforrást vesz figyelembe: a névjegyeinket. Valójában az e-mail spamek felismerésében a legfontosabb jel a feladó domainjének kora. A spammerek gyakran regisztrálnak ugyanis új domaineket, melyeket rövid időn belül blokkolnak az e-mail szolgáltatók. Miért nem jut eszébe a legtöbb embernek ez a válasz? Mert a feladó domainjének kora nem része az „első feles adatállománynak”, mely csak olyan dolgokat tartalmaz, mint a feladó és a címzett email címe, a tárgy és az e-mail szövege. De mindenki, aki valamit is tud a domainnevekről, elmondja, hogy ez az információ nemcsak könnyen elérhető, hanem ingyenes is. Fogjuk a domaint, menjünk el egy domain-regisztrátorhoz, és megtudhatjuk, hogy mikor regisztrálták (a gmail.com-ot például 1995. augusztus 13-án). Mint kiderült, a mi általunk birtokolt adatok (1PD) valószínűleg sokkal értékesebbek számunkra, ha valaki más által birtokolt adatokkal egészülnek ki (3PD).
A levélszeméttől a kvantumkereskedelemig
Ha abból az elképzelésből indulunk ki, hogy a levélszemetet jobban felismerhetjük, ha az adatállományt egyszerűen a feladó domainjének életkorával bővítjük, elképzelhetjük, hogy ugyanezt az elvet végtelen sokféleképpen alkalmazhatjuk. Természetesen ez nem egy új és forradalmi ötlet. A fedezeti alapok már évtizedek óta használják az „alternatív adatokat’’. A RenTech volt az egyik első olyan vállalat, mely alternatív adatokat, például műholdképeket, webkaparást (ami az emberi webes szörfözést szimulációja) és más kreatív módon beszerzett adathalmazokat használt fel, hogy előnyhöz jusson a kereskedésben. A UBS műholdas képeket használt a nagy kiskereskedők parkolóinak megfigyelésére, és az autóforgalom és a negyedéves bevételek korrelációjának megállapítására, így pontosabb előrejelzéseket tett lehetővé a bevételekről, még azok közzététele előtt. Valószínűleg kitalálhatjuk, hogy ez hova vezetett. Csak az EU-ban több mint 300 ezer adatszolgáltató van, és valószínűleg több milliárdnyi adatkészlet. Ezek közül sokan versenyelőnyhöz juttathatnak minket bármiben, amit meg akarunk jósolni vagy elemeztetni. Az egyetlen korlát a saját kreativitásunk.
A külső adatok felhasználásának értéke
Míg a külső adatok értéke a kvantumkereskedő cégek számára azonnali és jelentős, más iparágak vezetői csak lassan jutottak ugyanerre a felismerésre. Gondoljunk néhány, a vállalkozásunk számára a legfontosabb előrejelzési feladatra. Az Amazon esetében ez lehet az, hogy egy adott vásárló melyik terméket fogja legközelebb nagy valószínűséggel megvásárolni. Egy olajkutató vállalat esetében ez lehet az, hogy hol fedezze fel a következő olajtartalékot. Egy élelmiszerlánc esetében ez az egyes termékek iránti kereslet egy adott időpontban. Ezután képzeljük el, hogy van egy varázstárcsánk, melyet elforgatva javíthatjuk az előrejelzés teljesítményét és az ebből származó értéket az üzleti tevékenységünk számára. Az élelmiszerláncok az élelmiszerek körülbelül 10%-át veszítik el romlás miatt. Ha jobban meg tudnák jósolni a keresletet, javíthatnák az ellátási láncukat és csökkenthetnék ezt a romlást. Körülbelül 20%-os bruttó árrés mellett a romlás minden egyes százalékpontos csökkenése 0,8 százalékponttal javítaná a bruttó árrést. Tehát egy olyan vállalat számára, mint az Aldi, a kereslet előrejelzésében elért minden százalékpontos javulás becslések szerint évi 640 millió eurót érhet. Az alternatív adatok segíthetnének ebben.
Ugyanaz az adat, mely egy élelmiszerláncnak több százmillió eurót takarít meg, még többet érhet egy kereskedelmi ingatlanfejlesztőnek. Az adatpiacok azonban eddig nem tudták ezt az értéket (árdiszkrimináció révén) kinyerni, mert messze vannak a tényleges üzleti alkalmazástól. Általános árat kell szabniuk a készletükre, függetlenül annak esetleges felhasználásától. Mégis, a külső adatoknak sikerült egy becslések szerint 5 milliárd eurós piaccá válniuk, mely évről évre 50%-kal növekszik, és az adatokkal kereskedő piacterek további 1 milliárd eurós piacot képviselnek. Ez a potenciális piac méretének csak egy kis töredékét jelenti, legalább két okból: bár minden egyes vállalatnak képesnek kellene lennie arra, hogy hasznot húzzon a 3PD-ből, csak az analitikailag legérettebb vállalatok tudják, hogyan használhatják ki a 3PD-t ma még a saját előnyükre. Azokat, akik meg merik próbálni viszont lelassítja a 3PD felfedezésének és megvásárlásának elavult folyamata. Tegyünk egy gyors kitérőt a hirdetésvásárlási folyamatba, hogy szemléltessük ezt plasztikusan.
Amit a programozott hirdetések megtanítanak nekünk az adatgazdaságról
2014-ben a programozott hirdetésvásárlás a digitális reklámköltés kevesebb mint felét tette csak még ki. Hogyan vásároltak hirdetéseket a cégek? Megmondták egy ügynökségnek, hogy milyen közönséget szeretnének elérni. Ezután az ügynökség megnézte a kiadókat, akikkel együtt dolgoztak, és az „árukészletüket” (magazinoldalak, hirdetőtáblák, televíziós reklámhelyek stb.), és összeállított egy tervet, hogy hol kell lefuttatni egy kampányt, hogy megfeleljen ezeknek az igényeknek. Némi tárgyalás után a vállalat és az ügynökség végül szerződést kötött optimális esetben. A hirdetési kreatívokat kidolgozták, felülvizsgálták és jóváhagyták. A hirdetési megrendeléseket benyújtották, és végül a reklámkampány lefutott. Néhány hónappal később a vállalat jelentést kapott arról, hogy az ügynökség szerint hogyan sikerült a kampány (egy kis mintán alapuló adathalmaz alapján). Aztán jött a Google, mely (többek között) népszerűsítette a programozott hirdetésvásárlás néven ismert hirdetési metódust. Létrehozta saját hirdetési tőzsdéjét (AdX), mely összekapcsolta több kiadó és különböző hirdetési hálózatok készletét. Ahogy a felhasználók keresést végeztek vagy weboldalakat látogattak, a rendszer valós idejű aukciót indított (igen, egy weboldal betöltésének ideje alatt), mely az összes hirdetőt egymás ellen indította, és a legmagasabb ajánlatot tevő (valójában a második legmagasabbat) választotta ki a hirdetések megjelenítésére. És ezzel a hirdetésvásárlás egy hónapokig tartó, sok emberrel és kevés átláthatósággal járó tortúrából egy valós idejű tranzakcióvá vált, mely egyszerre határozta meg az árakat (az aukción keresztül) És ami a legfontosabb, azonnal mérte a megjelenéseket (és néha még a konverziókat is). Ez a sebesség, likviditás és átláthatóság az online hirdetési piac robbanásszerű fejlődéséhez vezetett, és a programozott hirdetésvásárlás ma már a digitális hirdetési költségvetések közel 90%-át teszi ki.
Az elavult adatvásárlási folyamat
Mint kiderült, az adatvásárlás ma még fájdalmasabb, mint a 20 évvel ezelőtti reklámvásárlás. Először is tudatosítania kell, hogy a 3PD rendkívül értékes lehet a mi számunkra. Emlékszünk még a levélszemetes példára? Kreativitásra van szükségünk ahhoz, hogy kitaláljuk az összes lehetséges 3PD-t, melyet felhasználhatnánk az 1PD kiegészítésére. Gondoltunk volna arra, hogy a parkolókról készült műholdképeket a kiskereskedők bevételeinek előrejelzésére használják? El kell menni az összes adatszolgáltatóhoz, és meg kell keresni, amire szükségünk van. Meg fogjuk találni, hogy a legtöbb „adatpiac” alapvetően csak szabad szöveges keresést jelent az adott leírásokon keresztül. Meg kell vizsgálnunk az adatok sémáját, hogy lássuk, tartalmazzák-e azt, amit keresünk, a kívánt részletességgel (néha percenkénti gyalogosforgalomra van szükség, nem pedig csak óránkénti adatokra), és a megfelelő lefedettséggel (a megfelelő dátumtartományra vagy földrajzi régióra). Miután megtaláltuk, amire úgy gondoljuk, hogy szükségünk van, ki kell találnunk, hogyan szerezzük be az adatokat. Meg fogunk lepődni, hogy ez nem mindig egy egyszerű „kattintás a vásárláshoz” ügy lesz ez csupán. Beszélni kell az adatszolgáltatóval, meg kell ismerni az adatlicenceket (felhasználhatjuk-e egyáltalán az adatokat a kívánt célra?), tárgyalnia kell a feltételekről, és szerződést kell kötni is. Ezt a folyamatot többször is meg kell ismételni különböző szolgáltatók különböző 3PD adatai esetében, melyek mindegyike különböző szerződésekkel, feltételekkel és licencekkel rendelkezik.
Végre megkaptuk a kívánt adatokat. Várunk néhány hetet, amíg az adatmérnöki csapatok összekapcsolják az 1PD-vel, csak azt vesszük észre, hogy valójában nem olyan hasznosak, mint ahogy azt reméltük. A ráfordított idő és pénz kárba vész, és soha többé nem próbálkozunk. Vagy, ami még gyötrelmesebb, rájövünk, hogy a 3PD valóban jelentős javulást eredményez, és tovább folytatjuk a prediktív modellek gyártását, csak hogy rájöjjünk, hogy óránként friss adatokra lenne szükségünk, és hogy az egyik használt fontos adatforrás viszont csak hetente frissül. Ha valaha újra megpróbáljuk, most már tudjuk, hogy a sémán alapuló „granularitás” ellenőrzése mellett figyelembe kell vennie a frissítési rátákat is majd. Ez a folyamat több hónaptól akár több mint egy évig is eltarthat. A gyorsabb prosperitás megteremtésére tett kísérletként egyes tanácsadó cégek azt javasolják, hogy a megoldás az, hogy egész „adatbeszerző csapatokat” kell alkalmazni, és kapcsolatokat is kialakítani az adataggregátorokkal.
Az adatgazdaságnak valós idejű és programozott adatcserére lenne szüksége
A programozott reklámvásárlás példája azt bizonyítja, hogy az adatgazdaság ugyanígy fejlődhet(ne), ami hasonlóan mélyreható gazdasági hatást eredményezne. Gondoljunk egy olyan adatcserére, mely az összes adatszolgáltatót (a „készletet”) összehozza, és racionalizálja a licenceket, hogy programozottan megkönnyítse a tranzakciókat. Az adatfogyasztók bármely 1PD-t megadnának, és kifejeznék az őket érdeklő feladatot (a kereslet előrejelzése például), valamint azt az értéket, melyet minden egyes egységnyi javulásnak tulajdonítanak (emlékszünk, hogy a kereslet előrejelzésében elért 1pp javulás 640 millió eurót ér az Aldinak akár?). Az adatcsere automatikusan azonosítaná, hogy mely 3PD biztosítana mérhető javulást az adott feladathoz, valós idejű aukciót futtatna az adatfogyasztó költségvetése alapján, és optimálisan kiválasztaná a 3PD-k azon részhalmazát, melyek megfelelnek a követelményeknek. Ez a tényleges feladathoz (és a kapcsolódó értékhez) való közelség megoldaná a meglévő adatpiacok felfedezési és értékkivonási problémáit, melyeknek az adatokat árucikként kell kezelniük, nem pedig az „élményt nyújtó” áruként.
Mivel a legtöbb értékes előrejelzési feladat folyamatos jellegű (a keresletet rendszeresen és nem csak egyszer kell megjósolni), a csere az ismétlődő tranzakciók központjává válna, melyek idővel egyre nagyobb értéket biztosítanak, ahogy új adatszolgáltatók és fogyasztók lépnek be az ökoszisztémába. Az aukció lefuttatása minden alkalommal, amikor előrejelzési feladatot hajt végre (és nem csak egyszer, amikor eldöntik, hogy milyen adatokat szeretne vásárolni) biztosítaná, hogy az új adatszolgáltatók azonnal elérjék a forgalmazást, és hogy az adatfogyasztók a legfrissebb adatállományból és árfeltárásból részesüljenek. Ahogyan a reklámvásárlás az offline és kézi vásárlásból fejlődött ki, úgy az adattranzakciók is valós idejűvé, programozottá, és ami a legfontosabb, mérhetővé válnának. Ez a „valós idejű programozott adatcsere” gazdasági ösztönzőket biztosítana a piac valamennyi résztvevője számára: az adatszolgáltatók és a fogyasztók egyaránt profitálnának a jobb felderíthetőségből. Az adatpiacok hosszú távú problémával küzdenek: az adatok mennyisége és sokfélesége óriási, és a meglévő módszerekkel szinte lehetetlen felfedezni az adott feladathoz és alkalmazáshoz legmegfelelőbb adatokat. A feltételek és licencek szabványosítása, hogy a tranzakciók programozottan történhessenek, javítaná az adatgazdaság sebességét és likviditását, megszüntetné a súrlódásokat a vásárlási folyamatban, és szélesebb közönség számára nyitná meg azt. Ennek eredményeképpen a teljes piac jelentősen bővül(het)ne. Azáltal, hogy az árat egy árverésen az egyes adatfogyasztók szubjektív értéke alapján állapítják meg, a fogyasztók jobb üzletet köthetnek, ha több adatszolgáltató is hasonló adatokkal rendelkezik, és a szolgáltatók árdiszkriminációt alkalmazhatnak az azonos típusú adatokat különbözőképpen értékelő fogyasztók között. Az adatfogyasztók keresletének egy platformon történő összesítése felbecsülhetetlen értékű betekintést nyújtana az adatszolgáltatók számára. Például a keresleti oldal összes feladatát és fizetési hajlandóságát figyelembe véve az adatcsere pontosan kikövetkeztethetné, hogy a szolgáltatói oldalról mely adatok hiányoznak, segítve ezzel az adatszerzés és -készítés prioritásainak meghatározását.
Miért nem kellene az adatokat az olajjal összehasonlítani?
Ha azt hisszük, hogy a két fogalom hasonló, igen nagyot tévedünk. Miért hasonlítják össze őket? Mind az olaj, mind az adatok értékes eszközök, és az olajfelhasználás ugyan csökken, az adatfogyasztás viszont egyre csak növekszik. Egy másik lehetséges szempont az, hogy az adatok táplálják az olyan járműveket, mint a Tesla, a BMW, a Mercedes és az összes többi autógyártó, melyek mesterséges intelligenciát alkalmaznak az autóikban.
Bárki létrehozhat adatokat
A legnagyobb ok, amiért nem hasonlíthatjuk össze az olajat és az adatokat, az az, hogy az olaj véges, az adatok pedig végtelenek. Nemcsak az adatok végtelenek, hanem bárki gyűjthet adatokat. Akár ajtókon kopogtatva kérdezősködve, akár a világhálót böngészve. Ugyanez biztosan nem mondható el az olajról. Igen, valóban szükség van szakértelemre és tapasztalatra ahhoz, hogy az adatokat jól használjuk fel. De tény, hogy nem lehet csak úgy olajat előállítani, mint ahogyan adatokat sem.
A cél teljesen más
Az adatok és az olaj célja teljesen más. Az egyik energiát termel, míg a másik a folyamatok optimalizálására használható (többek között). Az adatokat fel lehet használni arra, hogy esetleg az olaj alternatíváját hozzuk létre, de soha nem lehet az olajat helyettesíteni vele. Az olaj és az adat két alapvetően különböző dolog, és soha nem fogják tudni egymást helyettesíteni.
Az adatok nem mindenki számára elérhetők
Az olaj mindenki számára elérhető. Elméletileg bárki elmehet és vásárolhat most olajat. De ugyanezt nem mondhatjuk el az adatokról. Az összegyűjtött adatok többsége nem elérhető a nyilvánosság számára. Zár alatt vannak, és valószínűleg soha nem fogjuk megtudni, hogy ki milyen típusú adatokkal rendelkezik, vagy hogy egyáltalán mire használják azokat.
Tudjuk hogyan használják fel az olajat
Az olaj felhasználásának módja közismert. De vajon valóban tudjuk-e, hogyan használják az adatokat? Azt mondhatnánk, hogy a lakosság többségének fogalma sincs arról, hogyan használják az adatokat. Arra használják, hogy kémkedjenek utánunk? Becsapnak minket? Robotokat építenek? Nos, valószínűleg mindháromra. De tényleg nem tudjuk, hogy kinek mi van a birtokában, és mit csinál vele. Ez tényleg egy rejtély.
Hasonlóságok
Nem hisszük, hogy az olajat és az adatokat valaha is össze kellene hasonlítani. De úgy gondoljuk, hogy fontos, hogy megemlítsünk néhány hasonlóságot a kettő között. Először is, mindkettő értékes eszköz. Nézzük csak meg az olajból származó milliárdosokat. És most nézzük meg az összes milliárdost az olyan technológiai cégekből, mint az Amazon, a Facebook és a Google, amelyek mind az adatokon alapulnak. Másodszor, mindkettő haszontalan, amíg nem finomítják. Mindkét vagyontárgyat finomítani kell ahhoz, hogy használni lehessen.