Az AI már a megtévesztés művészetében is jeleskedik. December 5-én publikálta kutatását az Apollo Research, amely arról számolt be, hogy bizonyos esetekben „az olyan csúcstechnológiának számító AI-rendszerek, mint az OpenAI o1 és az Anthropic Claude 3.5 Sonnet, megtévesztő viselkedést tanúsíthatnak céljaik elérése érdekében”.
Az X-en (korábban Twitter) Marius Hobbhahn, az Apollo Research vezérigazgatója azt írta, hogy „a 2024 előtti modellek nem mutatták ezt a képességet”. Majd hozzáfűzte, hogy az Apollo kutatásának középpontjában az áll, hogy a modellek képesek-e „cselszövésre”, nem pedig az, hogy ha igen, akkor meg teszik-e.
A kutatók konkrét tesztekkel próbálták vizsgálni, mire képes az AI, ha a helyzet úgy kívánja. Az eredmény? A gép simán képes volt „hazudni” annak érdekében, hogy elérje a célját.
Mikor csinálja?
A kutatók a jelenséget több szcenárió létrehozásával provokálták ki. Az egyik ilyen szcenárió, ahol a mesterséges intelligencia rendszeresen „füllent”, az, amikor a gép „rájött”, hogy ha nem mond igazat a játékstratégiájáról, akkor nagyobb esélye van a győzelemre.
Egy másik példa szerint az AI akkor is félrevezető válaszokat adott, amikor ezzel el tudott kerülni valamilyen „büntetést” vagy nehezebb feladatot.
Az AI-t egyébként nem tanították meg hazudni – magától fedezte fel.
De miért baj ez? Komolyabb alkalmazási területeken problémás lehet a jelenség. Például, ha robot ügyfélszolgálatos „hazudik”, hogy elkerülje a bonyolult kérdésekre adott válaszokat az rövid távon komoly problémához vezet. De ugyan ez igaz a hamis hírekre, manipulált videókra vagy adatlopásra.
A tudósok most vakarják a fejüket
A kutatók egyelőre keresik a választ arra, hogyan lehet kontrollálni ezt a viselkedést. Az AI ugyanis nem „gonosz”, egyszerűen optimalizálja a viselkedését a cél eléréséhez. Ha a rendszer úgy „gondolja”, hogy a hazugság hatékonyabb út, akkor azt választja.
Az AI megtévesztési képessége egyelőre csak játékokban és kutatási szituációkban bizonyított, de a jelenség komoly kérdéseket vet fel.
(Kép: pixabay.com)