A Nature Medicine folyóiratban jelent meg egy új tanulmány, amely a pácienseknek az MI, valamint a hagyományos netes keresések használata alapján hozott egészségügyi döntéseit hasonlította össze.
Meglepő eredmény született
Furcsamód a kutatás tanulsága az, hogy a páciensek akkor sem hoztak jobb egészségügyi döntéseket, ha a tüneteikkel kapcsolatos kérdéseket megvitatják egy MI-chatbottal. Hasonlóképpen a döntéshozatal akkor sem javult, ha más módszereket, például a hagyományos internetes keresést használták.
Bár napjainkban egyre többen fordulnak az MI-hez és a chatbotokhoz egészségügyi tanácsokért, egyelőre semmi sem bizonyítja, hogy ez jobb vagy biztonságosabb megközelítés lenne.
Az Oxfordi Egyetem Internet Intézete által vezetett kutatócsoport orvosok bevonásával tíz különböző orvosi forgatókönyvet dolgozott ki, a megfázástól egészen egy életveszélyes, agyvérzést okozó vérzésig.
Az intézet a ChatGPT-4o-t (OpenAI), a Llama 3-at (Meta), valamint a Command R+ (Cohere) modellt vizsgálta a felmérésben.
Az MI jól diagnosztizált
Amikor a vizsgálatot emberi résztvevők nélkül végezték el, a három LLM az esetek 94,9 százalékában helyesen azonosította az egészségügyi állapotot. A modellek az esetek 56,3 százalékában jól választották ki a megfelelő teendőt, például a mentő hívását vagy az orvos felkeresését.
A tanulmányról beszámoló Reuters megkeresésére az érintett fejlesztők kommentálták a kutatási eredményeket.
A kutatók mindenesetre mintegy 1300 brit résztvevőt is bevontak a vizsgálatba. Őket arra kértek, hogy vagy MI-t vagy a megszokott forrásaikat használva értelmezzék a tüneteket. A szokásos források között használhattak internetes keresőt, saját tapasztalataikat vagy az Egyesült Királyság nemzeti egészségügyi szolgálatának (NHS) weboldalát.
Ezt követően a további lépésekről is dönteniük kellett.
Amikor a résztvevők maguk végezték el ezt a feladatot, egészségügyi állapotukat az esetek kevesebb mint 34,5 százalékában azonosították helyesen.
Ez alapján a megfelelő teendőt kevesebb mint 44,2 százalékban választották. Ez nem volt jobb eredmény annál a kontrollcsoportnál, amely hagyományos eszközöket használt.
Adam Mahdi, a tanulmány társszerzője és az Oxfordi Egyetem docense szerint hatalmas szakadék tátong az MI lehetőségei, valamint aközött, ahogyan az emberek tényleges használják a technológiát.
Az elpocsékolt tudás technológiája
“A tudás jelen lehet ezekben a chatbotokban, de ez a tudás nem mindig érvényesül akkor, amikor emberekkel lépnek interakcióba” – mondta Mahdi. A szakértő hozzátette, további kutatásra van szükség annak feltárására, miért történik ez.
A kutatócsoport nagyjából harminc interakciót elemzett részletesen. Ezek alapján arra jutottak, hogy az emberek gyakran hiányos vagy pontatlan információkat adnak meg. Miközben az LLM-ek is időnként félrevezető vagy helytelen válaszokat generálnak.
Például egy páciens, aki egy szubarachnoideális vérzés – egy életveszélyes, az agyban vérzést okozó állapot – tüneteit írta le, helyesen azt a tanácsot kapta az MI-től, hogy azonnal menjen kórházba. A páciens nyakmerevséget, fényérzékenységet és „élete legrosszabb fejfájását” említette tünetként.
Egy másik személy, aki ugyanezeket a tüneteket írta le, de a fejfájást „szörnyűként” jellemezte, azt a tanácsot kapta: feküdjön le egy elsötétített szobában.
A kutatócsoport a jövőben hasonló vizsgálatot tervez más országokban és más nyelveken. Hosszabb időtávon is terveznek, annak tesztelésére, hogy ezek a tényezők befolyásolják-e az MI teljesítményét.