Több amerikai felsőoktatási intézmény kutatói amitrófiás laterálszklerózisban (ALS) szenvedő férfi agyából érkező beszédjeleket dekódoló rendszert fejlesztettek. Az illető a betegség következményeként vesztette el beszédkészségét, most viszont lehetővé vált számára, hogy régi hangja szintetikus változatán beszéljen. Kezdetben csak a gondozója értette, mit akar mondani, most viszont már rendszeresen beszélget családjával és barátaival.
Az adatgyűjtés nehézségei
A kutatók sebészeti műtét során ültettek az agyának beszédképzésért felelős részébe elektródasort. A rendszer megtanulta megfejteni az agyból érkező jelzéseket, eldönti, melyik a legvalószínűbb fonéma, amelyet ki akar ejteni, meghatározza, milyen szavakat fejeznek ki a fonémák, majd személyre szabott beszédszintetizátort használva, lejátssza a szöveget.
Így működik a rendszer
Az implantációs műtét után felépülve, a kutatók elkezdték a rendszer kiértékeléséhez szükséges gyakorlóadatok gyűjtését. Nyolcvannégy alkalommal vették fel az illető agyi jelzéseit, amikor beszélni szándékozott. A felvételek harminckét hét alatt készültek el, egy-egy összejövetel öt-harminc percig tartott. Mindegyiket két feladatra osztották: a páciens „elmondott” mondatait képernyőn megjelenítő másolásra, valamint beszélgetésre, amikor arról beszélt, amiről csak akart. Eleinte a másolásra összpontosítottak, majd miután az agyi jelzéseket össze tudták társítani értelmes mondatokkal, a beszélgetésre helyezték a hangsúlyt.
Folyamatosan tanul a rendszer
Különleges eszköz tanulta meg a jelek fonémasorozatokká alakítását. A modell minden egyes összejövetel után az ott rögzített összes anyagon gyakorolt. Az agytevékenység napi változásaihoz alkalmazkodva, a későbbi alkalmakra finomhangolták. Újabb mondatok felvételét követően úgy finomítottak rajta, hogy az aktuális és a korábbi összejövetelek felvételei hatvan a negyvenhez arányban viszonyultak egymáshoz.
A fonémákat más gépitanulás-technikákkal és nyelvmodellekkel sikerült mondatokká fordítaniuk. Egy adott mondatnál a rendszer a száz legvalószínűbbet hozta létre. A valószínűeket a kutatók több előre trenírozott nyelvmodell segítségével rangsorolták, majd jött a szöveg beszéddé alakítása. Ezúttal is csak a legvalószínűbbekkel foglalkoztak.
Két óra felvételen történő gyakorlással a másolásban 90,2 százalék pontosságot ért el a rendszer. Aztán az utolsónál már 97,5-öt, és lehetővé vált, hogy a páciens 125 ezer szóból álló szótárt használva percenkénti átlagban 31,6 szót mondjon.
Korábbi kísérletekkel soha nem érték el ezt a szintet: vagy kevésbé voltak pontosak, vagy a szótár lett sokkal kisebb. Az eddigi legjobb eredmény – szintén 125 ezres szótár mellett – 76,2 százalék volt.
Képek: Wikimedia Commons, DeepLearning.AI