(Kiemelt kép: Unsplash+)
A filozófia középpontjában az episztemológia, a tudás és annak megszerzésének tanulmányozása áll. Olyan kérdéseket boncolgat, mint „Honnan tudjuk, hogy mit tudunk?” és „Mi számít bizonyítéknak?”. Az empirikus bizonyítékokra és a statisztikai elemzésre helyezett hangsúlyt adó adattudomány új perspektívát kínál ezekre az időtlen filozófiai kérdésekre. Gondoljunk csak Sir Francis Bacon, a XVII. századi filozófus anekdotájára, aki egy úttörő tudományos kísérlet közben érte korai halála. Megpróbálta a húst úgy tartósítani, hogy egy csirkét hóval töltött meg. Bár Bacon kísérlete kudarcot vallott, az igazság bátor keresése megalapozta a tudományos módszert, melyet az adattudósok ma is alkalmaznak. A tudományos módszer megfigyelésre, kísérletezésre és adatelemzésre támaszkodó módszere szorosan illeszkedik az adattudomány elveihez.
Etika az algoritmusok korában
A digitális korszakban az adatvezérelt algoritmusok hatalmas hatalommal bírnak. Ezek alakítják online élményeinket, befolyásolják döntéseinket, és még a jogi eljárások kimenetelét is meghatározzák. Adattudósként óvatosan kell járnunk ezen az etikai aknamezőn. Ez az a pont, ahol a filozófia bölcsessége felbecsülhetetlen értékűvé válik. Gondoljunk csak az ősi kínai filozófiára, a konfucianizmusra, mely az etikus magatartás és a társadalmi harmónia fontosságát hangsúlyozza. Konfucius egyszer azt mondta: „Válassz olyan munkát, amit szeretsz, és soha életedben nem kell majd egy napot sem dolgoznod”. Az adattudomány kontextusában ez a bölcsesség arra ösztönöz bennünket, hogy ne feledjük, hogy munkánknak nemcsak technikailag jártasnak, hanem erkölcsileg is megalapozottnak kell lennie. Olyan algoritmusok kifejlesztésére kell törekednünk, melyek igazságosak, átláthatóak és elszámoltathatók, így biztosítva, hogy technológiai fejlesztéseink a közjóhoz igazodjanak.
Az adatvizualizáció esztétikája
Az adattudomány területén a „nyers” számok újfajta szépséget nyernek, amikor vizuális ábrázolásokká alakulnak át. A művészet és a tudomány e konvergenciája filozófiai kérdéseket vet fel az esztétika természetéről és az érzékelés szerepéről az információ megértésében. Immanuel Kant, a neves filozófus egyszer azt állította, hogy az esztétikai ítéletek szubjektívek, mégis általánosan vonzóak. Az adatvizualizáció világában ez a gondolat igaznak tűnik. Az a képesség, hogy olyan magával ragadó vizualizációkat hozzunk létre, melyek könnyedén közvetítik az összetett mintákat és felismeréseket, önmagában is művészeti forma. A tervezés és a kognitív pszichológia elveinek alkalmazásával az adattudósok olyan vizuális narratívákat alkothatnak, melyek az érzékeinkre hatnak, és mély megértést idéznek elő.
Az adattudomány és a filozófia metszéspontjának feltárása során mélységes összefüggéseket fedezünk fel. Az igazság keresése, az etikai dilemmákban való eligazodás és az esztétikai ábrázolások létrehozása mind összefutnak ezen a szellemi tájon. Az adattudomány és a filozófia kiegészítik és tájékoztatják egymást, kiemelve a különböző perspektívák és a multidiszciplináris megközelítések elfogadásának fontosságát. Arisztotelész szavaival élve: „Minél többet tudsz, annál inkább rájössz, hogy nem tudsz semmit”. Miközben folytatjuk az adattudomány és a filozófia rejtélyeinek megfejtését, fogadjuk el ennek a végtelen utazásnak a csodáját, mert a számok és az ötletek összeolvadásán keresztül az emberiség egy fényesebb és felvilágosultabb jövőt kovácsolhat.
Mi is az a determinizmus?
Az adattudomány egy nagyon technikai, a „digitális gyomok között” végzett munka. Gyakran nagyon konkrét problémákra fókuszálunk: ami jó. A legtöbb értéket azzal adjuk hozzá, hogy fókuszált figyelmünket és képességeinket kombináljuk a problémák megoldásához. De szerintünk jó gyakorlat, ha időnként hátralépünk, és megpróbáljuk átlátni a nagyobb képet. A filozófia tanulmányozása egy olyan eszköz, melyet igen hatékonynak találtunk abban, hogy segítsen mélyebben elgondolkodni az adattudományról. Megfigyelhetjük, hogy a filozófiai gondolkodás egyes területei szépen összefonódnak az adattudománnyal. Különösen a metafizika, a kauzalitás és az episztemológia számos olyan elméletét találhatjuk úgy, melyek nagyon jól alkalmazhatók benne. A determinizmus lenyűgöző metafizikai elméletével érdemes elkezdeni.
A determinizmus egy filozófiai elmélet a világegyetemünk természetéről. A determinizmusnak több különböző árnyalatú változata létezik, de az átfogó elképzelés az, hogy a világegyetemünkben nincs véletlenszerűség. Minden eseménynek van egy sor oka, melyek teljes mértékben megmagyarázzák az eseményt, és ezek az okok maguk is rendelkeznek egy sor okkal. Az okok láncolata a világegyetem kezdetétől fogva töretlen (vagy talán nincs is világegyetemnek kezdete?). Laplace szerint a fizikai világ determinisztikus szemlélete így foglalható össze: „A világegyetem jelenlegi állapotát tekinthetjük a múltjának hatásának és a jövőjének okának. Egy olyan értelem, mely egy bizonyos pillanatban ismerné a természetet mozgásba hozó összes erőt és a természetet alkotó összes elem minden helyzetét, ha ez az értelem elég hatalmas lenne ahhoz is, hogy ezeket az adatokat elemzésnek vesse alá, egyetlen képletbe foglal(hat)ná a világegyetem legnagyobb testeinek és a legapróbb atomjainak a mozgását; egy ilyen értelem számára semmi sem lenne bizonytalan, és a jövő éppúgy, mint a múlt, jelen lenne a szeme előtt”. Úgy tapasztalhatjuk, hogy a determinizmus a következő adattudományi témákban bukkan fel: valószínűségelmélet, a redukálhatatlan hiba fogalma, az elméleti „isten” modell, a kauzalitás és a kísérlettervezés, valamint a véletlenszámok.
Valószínűségelmélet
A valószínűségtan nagyrészt a véletlen változók viselkedésének megértéséről szól. A véletlen változó egy olyan folyamat kimenetelét jelenti, melyben véletlenszerűség van. Például egy kockadobás. Sokat tudhatunk arról, hogy bizonyos kimenetek mennyire valószínűek, de egyetlen dobás kimenetelét sem tudjuk biztosan megjósolni: feltehetően a véletlenszerűség miatt. A determinizmus elmélete elutasítja, hogy a világegyetemben bármilyen véletlenszerűség létezne. Miért van akkor a valószínűségszámítás területe, ahol a véletlen változókat tanulmányozzuk? Természetesen egy indeterminista azt mondaná, hogy van véletlenszerűség a világegyetemben. De egy determinista valószínűleg azt mondaná, hogy a valószínűségszámítás egész területe az emberiség „ismeretelméleti korlátai” miatt jött létre. Az episztemikus korlátok áthidalják a szakadékot a világegyetemben észlelt véletlenszerűség és a determinizmus elmélete között. Ezeket a határokat úgy határozhatjuk meg, mint a megismerhető vagy megérthető dolgok határait. Ha a világegyetem valóban determinisztikus, akkor hipotetikusan minden kockadobás eredményét ismerhetnénk (gondoljunk csak Laplace fenti idézetére). Ha képesek lennénk összegyűjteni és megérteni az ok-okozati összefüggéseket az egyes dobásokat befolyásoló összes változó között, akkor 100%-os biztonsággal kiszámíthatnánk a dobás kimenetelét (ha az univerzum determinisztikus lenne). Képzeljük el azonban, hogy mennyi mindent kellene tudnunk egy ilyen számításhoz! A kocka tökéletlenségeit, pontos elhelyezkedését a kezünkben, pontosan hogyan rázzuk a kezünket, az aznapi barometrikus nyomást, a leszállófelület keménységét stb. Az episztemikus korlátok áthidalják a szakadékot a világegyetemben érzékelt véletlenszerűség és a determinizmus elmélete között. Egy determinista nem bánja, ha a dolgok véletlenszerűnek tűnnek, mert úgy érzi, hogy a dolgok azért tűnnek véletlenszerűnek, mert az episztemikus korlátaink miatt vannak. E korlátok miatt a valószínűségszámítás még mindig nagyon hasznos tudományterület, függetlenül attól, hogy a determinizmus helyesen írja-e le a világegyetemünk természetét vagy sem.
A redukálhatatlan hiba
A gépi tanulási modellek egy adathalmaz alapján próbálnak előrejelzéseket készíteni. Ezek a modellek általában csak becslések vagy közelítések egy rendszer működéséről. Más szóval a modellek gyakran tévednek valamilyen mértékben: ezt nevezzük hibának. A determinizmusnak elméleti következményei vannak a modellhibára! Egy modell hibája három különböző forrás kombinációjából származhat: a modell megközelítése, a nem rendelkezésre álló adatok, vagy a véletlenszerű zaj miatt.
A modell megközelítése
Amikor előrejelző modellt hozunk létre, a célpontunk és a prediktoraink közötti valódi kapcsolatokat becsüljük meg. Reméljük, hogy egy közeli megközelítést kapunk. Ezért hallhatjuk, hogy a „modell becslése” és a „modell képzése” kifejezéseket felváltva használják. Amikor például lineáris regressziós modellt becslünk, feltételezzük, hogy minden prediktorunk lineáris kapcsolatban áll a célváltozóval. Ennek a feltételezésnek a megsértése (még ha csak kis mértékben is) legalább bizonyos mértékű hibát eredményez.
Nem rendelkezésre álló adatok
Ez a fajta hiba a rendszer leírásához szükséges hiányzó adatokból ered. Hiányozhatnak azért, mert nem megfigyelhetőek vagy lehetetlen pontosan számszerűsíteni (pl. a járművezető hangulata a gyorshajtás előrejelzéséhez), vagy mert egyszerűen nem állnak rendelkezésre (a weboldal nem volt beállítva arra, hogy rögzítse, mennyi időt töltött egy potenciális vásárló a pénztároldalon a vásárlás befejezésének valószínűségének előrejelzéséhez).
Véletlenszerű zaj
A véletlenszerűség (feltételezve, hogy létezik) a modellhiba harmadik oka. A véletlenszerűség definíció szerint nem jósolható meg, még az összes szükséges jellemző és a tökéletes gépi tanulási megközelítés mellett sem.
Az irreducibilis hiba
Most, hogy megértettük a modell hibaforrásait, beszéljünk a hiba természetéről. Általánosságban elmondható, hogy a hiba (függetlenül a forrástól) redukálható vagy irreducibilis kategóriába sorolható. A redukálható hiba csökkenthető annak javításával, hogy a modell hogyan tanul a képzési adatokból. A redukálhatatlan hiba az a hiba, melyet nem lehet kiküszöbölni, függetlenül attól, hogy a modellünk milyen jól illeszkedik a képzési adatokhoz. Úgy gondoljuk, hogy a redukálhatatlan hiba tovább osztható „helyi redukálhatatlan hibákra” és „univerzális redukálhatatlan hibákra”.
A helyi irreducibilis hibát olyan hibaként definiáljuk, melyet nem lehet csökkenteni az adattudományi eszközök korlátai miatt, vagy hogy milyen adatok állnak helyben vagy könnyen rendelkezésre. Például olyan hiba, mely az összes rendelkezésre álló gépi tanulási algoritmus alapos tesztelése után is fennáll. Vagy olyan hiba, mely azért marad fenn, mert nem férünk hozzá az összes olyan adatponthoz, mely magyarázza a célváltozót. A helyi redukálhatatlan hiba azért létezik, mert nem egy tökéletes világban élünk, felismeri, hogy a rendelkezésünkre álló eszközökkel és adatokkal csak korlátozottan tudunk mit kezdeni.
Az univerzális redukálhatatlan hiba az a hiba, mely akkor is fennmarad, ha a helyi korlátokat feloldjuk. Egy hipotetikus világba kell merülnünk, hogy eljussunk idáig. Ez az a hiba, melyet akkor figyelhetnénk meg, ha rendelkeznénk a tökéletes gépi tanulási algoritmussal és az összes olyan adattal, melyre szükségünk van a célváltozónk teljes magyarázatához.
Az isten-modell
Az előző részben egy olyan hipotetikus modellt tárgyaltunk, mely tökéletes megfogalmazással rendelkezik, és a prediktív tényezők teljes, átfogó listájával rendelkezik. Ezt nevezzük „isten” modellnek, ami azt jelenti, hogy egy ilyen modell létrehozásához deista tudásszintre lenne szükség. A determinizmus alatt az „istenmodellek” elméleti lehetőségként léteznek. Mivel a véletlenszerűség nem létezik, egy tökéletes modell tökéletes előrejelzéseket fog adni. Visszatérve az episztemikus korlátokhoz, az egyetlen ok, amiért nem tudunk »isten« modelleket létrehozni, az a mi korlátaink, nem pedig a világegyetem természete.
Kauzalitás és kísérletek tervezése
A determinizmus megköveteli, hogy minden szigorúan kauzális legyen. Egyes filozófusok úgy vélik, hogy a kauzalitás emberi konstrukció. A determinizmus elfogadásához el kell fogadni, hogy a kauzalitás valós jelenség. (Megjegyzendő, hogy ez az állítás nem kommutatív: nem kell elfogadni a determinizmust ahhoz, hogy elfogadjuk a kauzalitást). Ez hatással van arra, hogyan gondolkodunk a kísérletek tervezéséről és végrehajtásáról. Azt várnánk, hogy egy tökéletesen ellenőrzött kísérletben nulla hiba legyen? Más szóval, ha teljesen el tudnánk különíteni az egyes okokat, és ugyanazt a kísérletet milliószor lefuttatnánk, akkor pontosan ugyanazokat az eredményeket várnánk, mindenféle eltérés nélkül? Ha igen, akkor jó úton haladunk afelé, hogy deterministává váljunk!
Egy tökéletes hipotetikus világba merészkedni hasznos eszköz, de a valóság megköveteli, hogy alkalmazkodjunk a tökéletlenségéhez. Természetesen nem tudjuk tökéletesen ellenőrizni a kísérleteket: ezért a kísérlettervezés területén vannak rendelkezések a látszólagos véletlenszerűségek és hibák kezelésére. A világegyetemről alkotott véleményünktől függően azonban tekinthetjük ezeket az alkalmazkodási lehetőségeket szükségesnek csak az ismeretelméleti korlátaink miatt (a determinizmus értelmében), vagy szükségesnek, mert a véletlenszerűség a világegyetem velejárója.
Véletlenszerű számok
Vannak véletlenszám-generátorok, melyek véletlen folyamatokat (pl. légköri zajt) használnak arra, hogy olyan számokat hozzanak létre, melyek nem reprodukálhatók. Ezeknek a véletlen számoknak a rögzítéséhez hardverre van szükség. A legtöbb adatszakembernek (akiket nem zavar, sőt nem is akarják, hogy a véletlen számaik megismétlődjenek: gondoljunk csak a vetőmag beállítására) csak álvéletlen számokat kell használnia. Az álvéletlen számok véletlenszerűnek tűnnek, de determinisztikus algoritmusok hozzák létre őket, és létrehozásukhoz nincs szükség másra, mint egy számítógépes programra. Ha a determinizmus igaz, akkor minden „véletlen szám” valójában pszeudorandom szám: ne feledjük, a véletlen nem létezik! Persze, megint visszatérve (nagyon sajnáljuk) az episztemikus korlátokhoz, a véletlen számok és az álvéletlen számok közötti különbségtételnek azért van értelme, mert az álvéletlen számokat könnyen meg tudjuk ismételni, míg a véletlen számok megismétléséhez istenhez hasonló szintű tudás kellene. Csak egy kisebb „nagy ívű gondolkodással” a determinisztikus ötletek és implikációk sokszor felbukkannak az adattudományban. Ez a gondolatmenet nem biztos, hogy segít megoldani egy konkrét, technikai problémát a munkahelyünkön. De úgy véljük, hogy ha mély gondolatokkal rendelkezünk arról, hogy az adatok és az univerzum hogyan kapcsolódnak egymáshoz, akkor sokkal kerekebb, éles látóbb adattudóssá válhatunk.
Az (adat)tudomány filozófiája
A tudomány a hit pontosságának iteratív javítására szolgáló módszer. Az empirizmust (megfigyelést) a racionalitással (logikával) ötvözi, hogy a hitrendszereket folyamatosan csiszolja a bizonyítékokhoz képest. A filozófia (az itt használt, azaz analitikus filozófia) a fogalmi rendszerek megkérdőjelezésének és finomításának módszere: a szavak jelentésében rejlő rejtett ellentmondások kiszorítása, hogy pontosabban tudjuk megfogalmazni a hitrendszerünket alkotó fogalmakat. A tudományfilozófia a filozófia alkalmazása a tudományos módszerre, azaz magát a tudományt a filozófiai vizsgálat tárgyaként kezeli. Ez magában foglalja a normatív kérdések feltevését arról, hogy bizonyos tudományos gyakorlatok miért „jobbak” vagy „rosszabbak”, valamint arról, hogy a tudomány mit tud és mit nem tud elérni. Az adattudomány lényegében egy aldiszciplína (konkrét módszerek gyűjteménye) a tudomány égisze alatt. Jellemzően az alkalmazott statisztika és az informatika metszéspontjaként definiálják, és kifinomult kvantitatív technikák alkalmazását jelenti (gyakran nagy mennyiségű) adatra, hogy olyan felismeréseket tárjon fel, melyek egyébként nem lennének nyilvánvalóak.
Van-e értelmes filozófiája az adattudománynak?
Ezen a ponton természetesnek tűnik a kérdés: van-e értelmes filozófiája az adattudománynak? Ha igen, milyen kérdésekkel foglalkozik? És milyen (ha van egyáltalán) értéke van az adattudomány művelői számára?
Adattudomány = tudomány?
Ami az első kérdést illeti, amennyiben az adattudomány a tudomány egyik aldiszciplínája, az adattudomány filozófiájának kialakításában rejlő potenciális érték attól függ, hogy az adattudomány felvet-e olyan egyedi fogalmakat vagy módszereket, melyek még nem jól ismertek a tudományos módszer részeként. A tudomány filozófiája nem éppen új keletű, legalábbis az ókori Görögországig nyúlik vissza, ezért merész lenne azt feltételezni, hogy az adattudomány saját filozófiát érdemel pusztán azért, mert ez a tudomány „művelésének” legújabb módja. Ennek ellenére máris azonosítottunk egy jó kérdést, mellyel elkezdhetjük a vizsgálódást: Függ-e az adattudomány attól, hogy minőségileg újszerű fogalmakat vagy módszereket fogalmazzon meg? Az adattudomány meghatározása természetesen számtalan diskurzus tárgya, de jelen kérdés nem annyira a tudományág átfogó definíciójának megadására irányul, mint inkább annak pontos meghatározására, hogy mi az (ha van egyáltalán valami), ami az adattudományban egyedülállóan más, mint az eddigi tudományos módszer.
A bölcs adattudomány nyomában
A fenti második kérdésre (hogy az adattudomány filozófiájának lehet-e bármilyen értéke a gyakorlati szakemberek számára) szerintünk könnyebb válaszolni: Igen. Valószínűleg nem ez az a hely, ahol el akarjuk kezdeni a szakterületet, de mint minden dologban, minél több időt töltünk gyakorlással, annál filozofikusabbá (reflektívabbá, absztrakciósabbá stb.) válunk azzal kapcsolatban, amit csinálunk. Azoknak az adattudósoknak, akik már legalább néhány éve gyakorolnak, a tudomány és az adattudomány közötti delta, az adattudományi módszerekkel elérhető és nem elérhető ismeretek fajtái, valamint az, hogy miért és mikor alkalmasak bizonyos módszerek többé vagy kevésbé a célnak, mind elősegítik a mesterség elsajátítását. A filozófiai vizsgálódás révén sok bölcsességre lehet szert tenni, még akkor is, ha ez elsőre túlságosan szemantikusnak tűnik, és a bölcs adattudósok mindig a éles látóbbak. Még ha úgy is döntünk, hogy az adattudomány egyszerűen a tudomány egy speciális esete, akkor is jelentős értéket képvisel a meglévő tudományfilozófia meglátásainak az adattudományra való alkalmazása: Legalábbis ez segíteni fogja a szakembereket abban, hogy jobb (jobban megfogalmazott, átgondoltabb) adattudósokká váljanak, és valószínű, hogy találunk majd olyan peremeseteket, ahol az adattudomány tudománya érdekes módon kiterjeszti a meglévő tantételeket. Bárkit arra bátorítanánk bármely tudományos területen, hogy jobban megismerkedjen a tudomány filozófiájával, és remélem, hogy ezek a bejegyzések különösen az adattudósok számára szolgálhatnak belépési pontként.