(Képek: Wikimedia Commons, DeepMind)
Megerősítéses tanulással pallérozódott algoritmusok először olyan játékokban értek el remek eredményeket, amelyek állapotáról, akárcsak a résztvevőékéről, teljes információ áll a rendelkezésükre. Például a go és a sakk is ilyen.
Aztán a hiányos információjú pókerben, ahol nem ismerünk minden lapot, szintén egyre jobbakká váltak. A go világranglista negyedik helyezettjét 2016-ban legyőző, közben a Google által felvásárolt londoni DeepMind által fejlesztett AlphaGo fejlesztői most egy szintén hiányos információjú, viszont a pókerrel ellentétben hosszútávú stratégiát igénylő játékhoz, a strategóhoz fejlesztenek mesterséges intelligenciát.
A DeepNash nevű rendszer kidolgozásában a korábbi világbajnok, Vincent de Boer is részt vesz. A megerősítéses tanulással gyakorló MI rövid idő alatt komoly szakértővé fejlődött.
Mi az a stratego?
A strategót ketten játsszák, negyven-negyven bábuval, ők alkotják a sereget. Az ellenfél zászlóbábujának elfogása a cél. Bevetési fázissal kezdődik, a figurákat, valamint egy zászlót és egy bombát helyezünk a táblára. Mindegyik bábunak katonai rangja van. Egyik fél sem ismeri a másik kezdő alakzatát. A játékosok felváltva mozgatják bábuikat, és az ellenfél által elfoglalt térbe lépve, megtámadják egymást. Az elfoglalt mező felfedi az ellenfél bábujának rangját, és ha a támadóé magasabb, akkor a támadás sikeres, az ellenfél bábuját leveszik a tábláról. Ha alacsonyabb rangú, akkor a támadás sikertelen, a bábunak vége. Mindez így folytatódik, amíg valamelyik fél nem győzedelmeskedik.
Egy megerősítéses tanulásos modell, mint az AlphaGo magával, a másolataival játszva sajátítja el a stratégiát. Mindegyik másolat előrejelzi minden egyes lépés lehetséges kimenetét, és a legnagyobb valószínűséggel előnyt jelentőt választja ki.
DeepNash felkészült a megmérettetésre
A megközelítés akkor sülhet el balul, ha az egyik másolat az emberre nem, a modellre viszont jellemző sebezhetőséget kihasználva tanul meg nyerni. Itt jön be a szabályozás, a jutalmazás: a túlilleszkedést megakadályozandó, a modell általánosabb stratégiát tanul meg. Kiderült, hogy a jutalmazás segít ebben, és az ugyanazokat a kimeneteket előrejelző korábbi változatok időnkénti frissítésével a modell folyamatosan fejlődik.
A hasonlóan működő DeepNash az egyik meghatározó stratego-platform, a Gravon legerősebb botjait verte meg, nyolcszáz játszma 97,1 százalékában diadalmaskodott, majd tavaly áprilisban a játszmák 84 százalékában a platform humán szakértőjét is legyőzte.
Játékról játékra fejlődik, megtévesztés-stratégiát kidolgozva, csekélyebb értékű bábukat erősebbnek, erősebbeket gyengébbeknek tettetve, folyamatosan igyekszik átverni ellenfelét. Kihasználva a játék alaptermészetéből eredő hiányos információkat, blöfföl, és nyer.
Újabb táblás játékban diadalmaskodik az MI az ember felett?