Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
post

Stratego: újabb stratégiai játékban remekel az MI

MEGOSZTÁS

Ellentétben a sakkal, több játékban, például a pókerben nem áll rendelkezésünkre minden információ, és ha kell, a megtévesztés művészetével diadalmaskodunk. Ilyen játék a Stratego is, amelyben a DeepMind MI-je legyőzött már humán ellenfelet.

(Képek: Wikimedia Commons, DeepMind)

 

Megerősítéses tanulással pallérozódott algoritmusok először olyan játékokban értek el remek eredményeket, amelyek állapotáról, akárcsak a résztvevőékéről, teljes információ áll a rendelkezésükre. Például a go és a sakk is ilyen.

Aztán a hiányos információjú pókerben, ahol nem ismerünk minden lapot, szintén egyre jobbakká váltak. A go világranglista negyedik helyezettjét 2016-ban legyőző, közben a Google által felvásárolt londoni DeepMind által fejlesztett AlphaGo fejlesztői most egy szintén hiányos információjú, viszont a pókerrel ellentétben hosszútávú stratégiát igénylő játékhoz, a strategóhoz fejlesztenek mesterséges intelligenciát.

A DeepNash nevű rendszer kidolgozásában a korábbi világbajnok, Vincent de Boer is részt vesz. A megerősítéses tanulással gyakorló MI rövid idő alatt komoly szakértővé fejlődött.

Mi az a stratego?

A strategót ketten játsszák, negyven-negyven bábuval, ők alkotják a sereget. Az ellenfél zászlóbábujának elfogása a cél. Bevetési fázissal kezdődik, a figurákat, valamint egy zászlót és egy bombát helyezünk a táblára. Mindegyik bábunak katonai rangja van. Egyik fél sem ismeri a másik kezdő alakzatát. A játékosok felváltva mozgatják bábuikat, és az ellenfél által elfoglalt térbe lépve, megtámadják egymást. Az elfoglalt mező felfedi az ellenfél bábujának rangját, és ha a támadóé magasabb, akkor a támadás sikeres, az ellenfél bábuját leveszik a tábláról. Ha alacsonyabb rangú, akkor a támadás sikertelen, a bábunak vége. Mindez így folytatódik, amíg valamelyik fél nem győzedelmeskedik.

 

 

Egy megerősítéses tanulásos modell, mint az AlphaGo magával, a másolataival játszva sajátítja el a stratégiát. Mindegyik másolat előrejelzi minden egyes lépés lehetséges kimenetét, és a legnagyobb valószínűséggel előnyt jelentőt választja ki.

DeepNash felkészült a megmérettetésre

A megközelítés akkor sülhet el balul, ha az egyik másolat az emberre nem, a modellre viszont jellemző sebezhetőséget kihasználva tanul meg nyerni. Itt jön be a szabályozás, a jutalmazás: a túlilleszkedést megakadályozandó, a modell általánosabb stratégiát tanul meg. Kiderült, hogy a jutalmazás segít ebben, és az ugyanazokat a kimeneteket előrejelző korábbi változatok időnkénti frissítésével a modell folyamatosan fejlődik.

A hasonlóan működő DeepNash az egyik meghatározó stratego-platform, a Gravon legerősebb botjait verte meg, nyolcszáz játszma 97,1 százalékában diadalmaskodott, majd tavaly áprilisban a játszmák 84 százalékában a platform humán szakértőjét is legyőzte.

Játékról játékra fejlődik, megtévesztés-stratégiát kidolgozva, csekélyebb értékű bábukat erősebbnek, erősebbeket gyengébbeknek tettetve, folyamatosan igyekszik átverni ellenfelét. Kihasználva a játék alaptermészetéből eredő hiányos információkat, blöfföl, és nyer.

Újabb táblás játékban diadalmaskodik az MI az ember felett?

IT EXPERTS-TECH LEADERS 2024 FELHŐ A JAVÁBÓL KONFERENCIA

ICT Global News

VIDEOGALÉRIA
FOTÓGALÉRIA

Legnépszerűbb cikkek

ICT Global News

Iratkozz fel a hírlevelünkre, hogy ne maradj le az IT legfontosabb híreiről!