Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
post

Egyre kevesebb a gyakorlóadat

MEGOSZTÁS

Szinte napról napra nehezebb hozzáférni nem is olyan régen még szabadon és a büntetés kockázata nélkül elérhető adatokhoz. Nő a kiadók és a mesterségesintelligencia-fejlesztők közötti perek száma. Az internet elvileg nyílt, ám mind gyakrabban zárulnak be weblapok kapui a nem kívánatos webes keresőbotok előtt. Célkeresztben az OpenAI.

Az MIT (Massachusetts Institute of Technology) kutatói széles körben gyakorló adatkészletekként használt tartalmakat létrehozó oldalakat tekintettek át alaposan. A 2023 és 2024 áprilisa között eltelt évbe több ilyen weblap változtatott felhasználói szerződésén: kitiltottak webes keresőrobotokat, vagy korlátozták az oldal általuk elérhető részét, vagy egyszerre alkalmazták mindkét opciót.

 

A kutatás tárgya

Az elemzés összesen tizennégyezer weblapra terjedt ki. A tartalmak három nagy adatkészletben (C4, Refined Web, Dolma) találhatók, mindegyik 16 és 45 millió közötti honlap adatait tartalmazza.

Mindhármat fejre és farokra bontották. A fej az adott adatkészlethez legtöbb tokennel hozzájáruló kétezer weblapra, a farok a többire vonatkozik. A három fejet összesítve mintegy négyezer honlapról derült ki, hogy nagyon sok adattal járultak hozzá a készletekhez, ráadásul egyesek egynél többen is feltűntek. A farok megjelenítéséhez véletlenszerűen vettek mintát legalább egy adatkészletben megtalálható honlapokról.

 

A robot.txt fájlok korlátozása

A felhasználói szabályzatot és a webes keresőbotokra vonatkozó, az általuk felkereshető oldalakat jelző, egyébként becsület-alapú – semmilyen mechanizmus nem erősíti a működését, tehát könnyen kijátszható – robots.txt-t vizsgálták.

Egy év alatt leírhatatlanul keserűbb lett a webes keresőbotok élete

A kutatók megállapították, hogy az összes token legalább felét „szolgáltató” weboldalak az elmúlt évben szigorítottak felhasználói szabályukon. A robots.txt fájlok tanulmányozásából ugyanezt a következtetést vonták le.

2023 áprilisában ezek a fájlok a tokenek kevesebb mint három százalékát korlátozták a „fejen”, összességében pedig alig egy százalékot. Egy évvel később huszonnyolc és öt százalékra ugrott a két mutató.

 

Egyre több a korlátozás

 

Egyes honlap-típusok jobban szigorítanak, mint mások. 2023 áprilisában a híroldalak három, idén áprilisban viszont már negyvenöt százalékos token-korlátozást alkalmaztak a „fejre.” A számok magukért beszélnek (és a pereskedések száma is).

Weblapok nagyobb mértékben korlátoznak egyes webes keresőbotokat, mint másokat. A tokenek több mint negyedét adók (köztük a C4 „feje”) például szigorította az OpenAI keresőbotja által elérhető anyagokat, a Meta és a Cohere botját viszont csak öt százalékuk tartja nem kívánatosnak. A Google-ét még annyian sem: csupán egy százalékról van szó. (Nyilván azért, mert lényegében egyeduralja a keresőmotor-piacot.)

 

Képek: Rawpixel, MIT

IT EXPERTS-TECH LEADERS 2024 FELHŐ A JAVÁBÓL KONFERENCIA

ICT Global News

VIDEOGALÉRIA
FOTÓGALÉRIA

Legnépszerűbb cikkek

ICT Global News

Iratkozz fel a hírlevelünkre, hogy ne maradj le az IT legfontosabb híreiről!