A Cloudfare felhőszolgáltató ingyenes új eszközt vezetett be a piacra, megakadályozandó, hogy botok a platformján lévő honlapokról kaparjanak össze adatokat mesterségesintelligencia-modellek betaníttatásához.
Egyes MI-értékesítő cégek, köztük a Google, az OpenAI és az Apple is, megengedik a honlap-tulajdonosoknak az adatokat összegereblyéző és modellek gyakoroltatásához eltulajdonító botok blokkolását. Webhelyük robots.txt fájljának módosításával érik el – ez a fájl mondja meg a robotoknak, hogy milyen oldalakhoz férhetnek hozzá egy webhelyen.
Nem veszik figyelembe a játékszabályokat
Nem mindegyik bot tartja be ezt – fűzte hozzá a Cloudfare. Pedig ügyfeleik nagyon nem akarják, hogy a botok meglátogassák a honlapjukat. A tisztességtelenül viselkedő botokat meg pláne nem akarják látni.
A felhőszolgáltató attól tart, hogy a tartalomhoz való hozzáférés szabályait megkerülni szándékozó MI-vállalatok folyamatosan alkalmazkodni fognak a változásokhoz. Így pedig elkerülik botjaik észlelését.
Ilyennek képzeljük el a jövő botjait, pedig…
A probléma megoldása végett, a Cloudfare elemezte az MI botok és keresőrobotok (crawler) által generált forgalmat. A megfigyeltek alapján finomhangolják automatikus botdetektáló modelljeiket. Azt is figyelembe veszik, hogy a botok webböngészőt használó személyeket utánozva próbálnak észrevétlenek maradni.
Balszerencséjük, hogy digitális ujjlenyomatot hagynak maguk mögött, amikor nagyléptékben próbálnak feltérképezni webhelyeket. Az általuk használt eszközök és keretrendszerek buktatják le őket, rajtuk hagynak nyomokat, amelyek alapján a Cloudfare modelljei képesek pontosan felcímkézni a zavarosban halászó MI-botok forgalmát.
Védekezés
A szolgáltató űrlapot csinált, hogy a webhely-tulajdonosok bejelenthessék a gyanús bot- és keresőrobot-tevékenységeket, egyben továbbra is manuálisan teszik feketelistára a renitens MI-ket. A Cloudfare tevékenysége azért is megnyugtató, mert a generatív mesterséges intelligencia térnyerésével drasztikusan megnőtt a modellek gyakorlásához szükséges nem kismennyiségű adat iránti igény.
Több webhely attól tart, hogy az MI-értékesítők engedélyük és kompenzáció nélkül treníroznak modelleket a tartalmaikon. Még csak nem is tudnak róla. Ezért döntöttek a botok és a keresőrobotok távoltartása mellett.
Friss tanulmány alapján a legnépszerűbb ezer webhely mintegy huszonhat százaléka blokkolja az OpenAI botját. Egy másik tanulmány szerint több mint hatszáz kiadó tesz ugyanígy.
Teljesen mégse nyugodjunk meg, mert a blokkolás nem biztos védelem, mint ahogy a dezinformáció sem fog már sohasem eltűnni az on- és offline közterekből. Egyes gyártók, a versenyelőny megszerzéséért, figyelmen kívül hagyják a botokat kizáró szabályokat. A Perplexity MI-keresőmotort meg is vádolták, hogy jogszerű látogatónak tetteti magát, és adatokat próbált összekaparni. Az OpenAI és az Anthropic pedig gyakran nem veszi figyelembe a robots.txt fájlt. Nincsenek egyedül.
Képek: Wikimedia Commons