Képek: Wikimedia Commons
A transzformer mesterségesintelligencia-modellek remek eredményeket érnek el, a gépi tanulás több területén kiválóan teljesítenek. Mindezek fényében meglepő, hogy belső működésüket eddig viszonylag kevesen kutatták, próbálták megfejteni.
Pedig érdekes, ha tudjuk, mit is lát egy MI.
A Maryland Egyetem kutatói pont ebből a célból vizualizálták egy képalapú transzformer által megtanult reprezentációkat, majd eredményeiket konvolúciós neurális hálók (CNN) korábbi vizualizációival hasonlították össze.
Mire jók a neuronok?
A CNN-ek belső működésének megjelenítésére használt módszer transzformerfekre is alkalmazható – feltételezték a kutatók.
Egyedi neuronok kimenetét maximalizáló hálózati képek betáplálásával kiszámítható, hogy az adott neuron mit ad hozzá a hálózati outputhoz. Előbbi rétegek neuronjai bizonyos textúrájú képre válaszolva, míg a későbbi rétegekben lévők adott objektum képeire reagálva, generálhatnak magasabb szintű kimeneteket.
Az eredmények azt sugallják, hogy a korábbi szintek textúrákat azonosítanak, a későbbiek pedig e textúrákat kombinálva jelenítenek meg objektumokat.
Hogyan működik a rendszer?
A kutatók a VIT-B16 vizuális transzformerrel dolgoztak, és kiválasztottak egy neuront. Kimenetét veszteségfüggvénnyel maximalizálták, majd a hálózaton keresztül visszacsatolták, hogy megváltoztassa a képet.
Tőle függetlenül az ImageNet gépitanulás adatbázis összes képét a transzformerbe táplálták, hogy megtaláljanak egyet, amelyik ugyanannak a neuronnak a kimenetét maximalizálja. A talált és a generált képet összehasonlították, hogy azonosítsák közös jegyeiket.
A folyamatot megismételték a hálózat változatos részein található neuronokkal, aztán ugyanezeket a lépéseket megint megismételték, hogy szövegre és képekre egyaránt begyakoroltatott transzformerben is felmérjék a neuronok viselkedését.
Legtöbbet a VIT-B16 teljesen összekapcsolt rétegeiből tanultak. Az ottani neuronok felismerhető tulajdonságokat tartalmazó képeket, míg a figyelemrétegekben lévők a zajhoz hasonlókat eredményeztek. A CNN-ekkel ellentétben a vizuális transzformerek többet használnak fel képek hátteréből.
A munkából kiderült, hogy ezek a transzformerek CNN-ekherz hasonlóan hierarchikus reprezentációkra alapozzák az outputjaikat, viszont a képek elő- és háttere közötti erősebb asszociációkat tanulnak meg.
Black box
A kutatás azért lehet hasznos, mert sokan a mesterségesintelligencia-modellek feketedoboz-jellegét támadják, hogy gyakran maguk a fejlesztők sem értik, mi történik „ott bent”, hogyan lesz az inputból output. Egyesek eleve megtiltanák az „érthetetlenül működő” MI használatát. Most viszont egy tanulmány pontosan ennek a „titokzatos világnak” a megértéséhez kínál fogódzót.