Az MIT (Massachusetts Institute of Technology) kutatói széles körben gyakorló adatkészletekként használt tartalmakat létrehozó oldalakat tekintettek át alaposan. A 2023 és 2024 áprilisa között eltelt évbe több ilyen weblap változtatott felhasználói szerződésén: kitiltottak webes keresőrobotokat, vagy korlátozták az oldal általuk elérhető részét, vagy egyszerre alkalmazták mindkét opciót.
A kutatás tárgya
Az elemzés összesen tizennégyezer weblapra terjedt ki. A tartalmak három nagy adatkészletben (C4, Refined Web, Dolma) találhatók, mindegyik 16 és 45 millió közötti honlap adatait tartalmazza.
Mindhármat fejre és farokra bontották. A fej az adott adatkészlethez legtöbb tokennel hozzájáruló kétezer weblapra, a farok a többire vonatkozik. A három fejet összesítve mintegy négyezer honlapról derült ki, hogy nagyon sok adattal járultak hozzá a készletekhez, ráadásul egyesek egynél többen is feltűntek. A farok megjelenítéséhez véletlenszerűen vettek mintát legalább egy adatkészletben megtalálható honlapokról.
A robot.txt fájlok korlátozása
A felhasználói szabályzatot és a webes keresőbotokra vonatkozó, az általuk felkereshető oldalakat jelző, egyébként becsület-alapú – semmilyen mechanizmus nem erősíti a működését, tehát könnyen kijátszható – robots.txt-t vizsgálták.
Egy év alatt leírhatatlanul keserűbb lett a webes keresőbotok élete
A kutatók megállapították, hogy az összes token legalább felét „szolgáltató” weboldalak az elmúlt évben szigorítottak felhasználói szabályukon. A robots.txt fájlok tanulmányozásából ugyanezt a következtetést vonták le.
2023 áprilisában ezek a fájlok a tokenek kevesebb mint három százalékát korlátozták a „fejen”, összességében pedig alig egy százalékot. Egy évvel később huszonnyolc és öt százalékra ugrott a két mutató.
Egyre több a korlátozás
Egyes honlap-típusok jobban szigorítanak, mint mások. 2023 áprilisában a híroldalak három, idén áprilisban viszont már negyvenöt százalékos token-korlátozást alkalmaztak a „fejre.” A számok magukért beszélnek (és a pereskedések száma is).
Weblapok nagyobb mértékben korlátoznak egyes webes keresőbotokat, mint másokat. A tokenek több mint negyedét adók (köztük a C4 „feje”) például szigorította az OpenAI keresőbotja által elérhető anyagokat, a Meta és a Cohere botját viszont csak öt százalékuk tartja nem kívánatosnak. A Google-ét még annyian sem: csupán egy százalékról van szó. (Nyilván azért, mert lényegében egyeduralja a keresőmotor-piacot.)
Képek: Rawpixel, MIT