Az Anthropic közös kísérletet indított a Hume-mal. A két cég MI-jét az új Empathic Voice Interface (EVI) 2 névre keresztelt audió interfésszel kötött össze. A kísérlet lényege, hogy az Anthropic MI-je, Claude ne csupán felismerje az emberi beszédből az érzelmeket, hanem azoknak megfelelően válaszoljon is.
Bár elsőre kissé banálisnak tűnhet, mégis jóval többről van szó, mint arról, hogy egy beszélgetés során az MI igazodjon egy személy hangulatához.
Gördülékeny, intelligens, egészen emberi
A kísérlet végső célja, hogy zökkenőmentes kapcsolatot biztosítson a kezelő személy valamint a számítógépet közvetlenül irányító Claude között.
Az EVI 2 a hangot szöveggé alakítja és elküldi Claude-nak. Claude ezután mindezeket értelmezve képes irányítani a számítógépet, mozgatni az egeret, gépelni, kattintani, vagy éppen képernyőfotót készíteni – számolt be a kísérletről a TechRadar.
Claude a kommunikáció során egyszerű nyelven magyarázza el a folyamat elemeit, a műveleteket. Az EVI 2 pedig természetes hangzású, az emberihez rendkívül hasonló beszéddé alakítja ezt. A számítógép vezérlése és irányítása így voltaképpen egy beszélgetés formájában zajlik. A számítógépen elvégzett feladatokhoz sem egérre, sem billentyűzetre nincs szükség.
A Hume célja, hogy az MI használata természetesebb és intuitívabb legyen. Ahelyett pedig, hogy a parancsokat vagy éppen a promptokat gépelgetne a felhasználó, esetleg bonyolult menükben navigálna, gördülékeny, érzelmileg intelligens beszélgetéseket folytathat az eszközeivel.
“A Claude és az EVI integrálásával valami igazán különlegeset hoztunk létre. A Claude természetes nyelvi képességei és “személyisége” kiegészíti az EVI kifejezésmegértését és empátiáját. Így az EVI képes “beolvasni” Claude válaszait, és olyan gördülékeny, kontextustudatos beszélgetéseket generálni, amelyek elképesztően emberi érzést keltenek” – írta blogbejegyzésében Alan Cowen, a Hume alapítója.
Egyre gyakoribb, hogy a generatív MI asszisztenseket “hangos” felületekkel egészítik ki. Erre már van példa a ChatGPT esetében – Advanced Voice Mode -, de a Microsoft Copilotnál is (Voice).
A legújabb MI modellek lehetővé teszik az adaptív asszisztensek használatát, amelyek képesek reagálni, ha megszakítjuk őket, és témaváltáskor sem jönnek zavarba. Használatuk sokkal gördülékenyebb, mint az Amazon vagy a Google korábbi hangalapú asszisztensei.
Ha ezt kombináljuk a számítógép kezelésével, teljesen új távlatok nyílnak meg. A technológiai akadálymentesítés egy kiemelkedő előnye ennek a megoldásnak.
Persze, az MI még nem százszázalékosan megbízható, és egyelőre rendkívül kockázatos lenne a kezébe adni az irányítást fájljaink vagy akár üzenetőküldő szolgáltatásaink, vagy közösségimédiás profiljaink felett.
(Kép: unsplash.com/Jacek Dylag)