Computación e Informática

Recepción: 23 Octubre 2021
Aprobación: 03 Noviembre 2022
Resumen: El presente artículo tiene como objetivo mostrar la evolución del desarrollo de agentes inteligentes capaces de jugar juegos de tablero. Se muestra una breve revisión histórica de los agentes que se han desarrollado para diversos juegos y se describe el agente AlphaZero, creado por DeepMind, el cual hoy en día es el agente más avanzado en esta área es capaz de vencer a campeones humanos en el juego de Go, el cual se considera el juego de tablero más complejo que existe, incluso más que el ajedrez. De igual manera, se da una discusión sobre el paso natural que seguirán los agentes jugadores debido al éxito de AlphaZero y al surgimiento del paradigma de General Game Playing, el cual busca la creación de agentes capaces de jugar cualquier juego de tablero sin ninguna intervención humana.
Palabras clave: AlphaZero, Inteligencia Artificial, Juegos de Tablero.
Abstract: This paper has a goal to show the evolution of intelligent agents capable of play board games. Also, this paper gives a short historical review above agents that have been developed for various board games, and describes AlphaZero, developed by DeepMind, which today is the most advanced agent in this area, and it is capable of defeat human champions in the game Go which is considered the most complex game that exists even more than Chess. In the same way, a discussion is given about the next natural step that player agents will follow due to the success of AlphaZero and the rise of General Game Playing, which seeks create agents capable of play any board game without any human intervention.
Keywords: AlphaZero, Artificial Intelligence, Board Games.
1. Introducción
Desde sus inicios, la Inteligencia Artificial (IA) tiene como uno de sus retos desarrollar agentes inteligentes que sean capaces de jugar juegos de tablero al mismo nivel (o superior) que el ser humano (Björnsson & Schiffel, 2013).
El ánimo de desarrollar agentes jugadores se debe a que requieren características propias de la inteligencia humana como: deducción, razonamiento, resolución de problemas, búsqueda inteligente, representación del conocimiento, planificación, aprendizaje, creatividad, percepción y procesamiento de lenguaje natural, entre otras (Świechowski & Mańdziuk, 2015).
Hoy en día se han desarrollado agentes capaces de jugar a nivel de campeones humanos en ciertos juegos, por ejemplo: Chinook (Schaeffer, Lake, Lu, & Bryant, 1996) para Damas, Deep Blue (Campbell, Hoane, & Hsu, 2002) para el ajedrez, Dark Knight (Hsueh, Wu, Tseng, Yen, & Chen, 2015) para Banqi o ajedrez medio chino, y recientemente AlphaZero (Silver, y otros, 2016; Silver, y otros, 2017) para el juego de Go. De estos resalta AlphaZero, el cual al estar basado en técnicas de aprendizaje automático ha roto el paradigma del desarrollo de agentes y es capaz de desarrollar por sí mismo estrategias de juego con las cuales puede ganar a campeones humanos (Silver, y otros, 2016; Silver, y otros, 2017).
En este artículo se presenta una breve revisión histórica sobre el desarrollo de agentes capases jugar juegos de tablero antes y después de la IA. Igualmente se da una discusión del futuro de los agentes partiendo del éxito de AlphaZero, además de valorar el cómo pueden ser de utilidad para el desarrollo de agentes multidominio.
2. Revisión histórica sobre los agentes jugadores
Una inquietud del ser humano ha sido, el crear una máquina capaz de replicar su conducta, personalidad o acciones. Uno de los esfuerzos por lograr este objetivo se observa en las máquinas capaces de jugar juegos de tablero.
Uno de los primeros intentos de máquinas capaces de jugar juegos de tablero fue el autómata conocido como El Turco del año 1770 (Russell, 2010), el cual era un mecanismo que podía jugar Ajedrez de manera autónoma que, de acuerdo con los relatos, venció a Napoleón I en 1809 en la batalla de Wagram.
Sin embargo, años después de su creación se descubrió que el Turco, era un fraude, ya que realmente quien jugaba era un ser humano escondido dentro del autómata (ver la Figura 1).

En 1911, Leonardo Torres y Quevedo creó El Ajedrecista (Randell, 1982), considerada como la primera máquina electromecánica capaz de jugar ajedrez de manera autónoma. Aunque no era capaz de jugar por completo una partida, si podía jugar un final entre una Torre y un Rey blancas contra el Rey negro. El Ajedrecista jugaba blancas y siempre ganaba, aunque no necesariamente cumpliendo con la regla de los 50 movimientos.
En 1948, Alan Turing y David Champernowne desarrollaron el que se considera el primer programa capaz de jugar ajedrez: TuroChamp, el cual era capaz de vencer a aficionados del ajedrez (Dawson Jr, 2007). Sin embargo, derivado a la baja potencia de las computadoras de aquella época y la alta complejidad de los cálculos de TuroChamp, este no pudo ser programado en alguna computadora a excepción de un intento por parte Turing en la computadora Ferranti Mark I de la Universidad de Manchester. TuroChamp estableció métodos que aun hoy en día se usan para desarrollar agentes jugadores: el método MiniMax y la Búsqueda en Profundidad (Brange, 2021).
Como celebración por los 100 años del natalicio de Turing, se realizó una partida de exhibición entre TuroChamp y el campeón Garry Kasparov la cual puede verse en (Turochamp (Computer) vs Garry Kasparov (2012), s.f.).
Para el año de 1949, Claude Shannon publica su artículo Programming a Computer for Playing Chess (Claude, 1950), donde muestra cómo se puede utilizar el método MiniMax en combinación con una función que evalúa las posiciones del tablero para poder construir un agente capaz de jugar ajedrez. Otra de las aportaciones de Shannon en el mismo artículo es la estimación de la Complejidad del Árbol (CA) de juego del ajedrez, dando una cota inferior de 10120 posiciones posibles desde la posición inicial que, a palabras propias de Shannon, una máquina que pruebe una posición por micromicrosegundo tardaría 1090 años en determinar su primer movimiento.
En 1997, IBM enfrentó su máquina de ajedrez Deep Blue (Campbell, Hoane, & Hsu, 2002) contra el campeón mundial Garry Kasparov. De seis partidas, Deep Blue ganó tres, empató dos y perdió solo una (puede ver el registro de las partidas en (Deep Blue (Computer) vs Garry Kasparov, s.f.)). Hasta ese momento ninguna computadora se consideraba capaz de vencer a campeones mundiales en juegos tan complejos como el ajedrez. Sin embargo, el impacto de la victoria de Deep Blue fue tal que jugadores profesionales creen que muchos de los movimientos realizados por Deep Blue fueron muy humanos.
Inspirado por el enfrentamiento Deep Blue y Kasparov, Omar Syed desarrolló el juego Arimaa (Syed & Syed, 2003) el cual se puede jugar haciendo uso del tablero y piezas del ajedrez. Syed se dio cuenta que muchas de las computadoras de aquella época hacían uso de algoritmos de fuerza bruta y de búsqueda en árbol, por ello y con la finalidad de dificultar a las computadoras el poder ganar a un ser humano, Syed creó a Arimaa con un Factor de Ramificación (FR) del árbol de juego de 17,281, siendo bastante alto en comparación al del ajedrez de solo 35. Este FR provoca que las computadoras no puedan analizar el árbol de juego más allá de unos pocos niveles y por ende sus movimientos no sean buenos. Syed en el 2009 ofreció un premio de $10,000 dólares a quien pudiera desarrollar un agente que, ejecutado en una computadora comercial, sea capaz de vencer a tres jugadores humanos en al menos tres enfrentamientos. Este reto permaneció vigente hasta abril del 2015, cuando el agente Sharp, que hace uso del método de poda Alpha-Beta, ganó siete partidas y perdió únicamente dos (Wu, 2015).
Si bien, el ajedrez es el juego que ha tomado los reflectores en cuanto al desarrollo de agentes, los esfuerzos no se han limitado a este. En Damas se tiene a Chinook (Schaeffer, Lake, Lu, & Bryant, 1996) agente que en los noventa venció al campeón mundial Marion Tinsley y al Gran Maestro Don Lafferty. En 2007, Schaeffer et al. (Schaeffer, y otros, 2007) mostraron que, en Damas, sí ambos jugadores juegan de manera perfecta, siempre se llegará a empate.
Othello es un juego de tablero en que se supera al ser humano, debido a su baja complejidad (ver Tabla 1), ya que en una partida se pueden realizar a lo máximo 60 movimientos. El primer programa en vencer a un campeón mundial fue The Moor que en 1980 venció al campeón Hiroshi Inouie (Buro, The evolution of strong othello programs, 2003). En 1997 Logistello venció al campeón mundial Takeshi Murakami reafirmando la superioridad de los agentes en Othello (Buro, The Othello match of the year: Takeshi Murakami vs. Logistello, 1997).

Con el ánimo de incentivar el desarrollo de agentes en juegos diferentes al ajedrez, en 1989 se creó la Computer Olympiad (Schaeffer, The Computer Olympiads 1989--2021, 2021). Al día de hoy se han realizado 25 torneos, el último fue efectuado en julio del 2022. En este último torneo las competencias se realizaron en los siguientes juegos: Ajedrez Chino, Ajedrez Medio Chino, Ataxx, Breakthrough, Bridge, Conecta 6, Damas, Damas Brasileñas, Damas Canadienses, EinStein Würfelt Nicht!, Gomoku, Lines of Action, Mahjong, Nonogram, Othello 16x16, Othello 8x8, Santorini y Surakarta. Pueden verse los agentes participantes y los resultados de las competencias del 2022 en (Schaeffer, Computer Olympiad results, 2022). Los resultados de torneos de años anteriores pueden consultarse en (Computer Olympiad, 2022; Computer Olympiad (ICGA Tournaments), s.f.).
3. AlphaZero
Uno de los juegos que presenta más dificultades para los agentes es el juego de Go (ver la Figura 2). Este juego se considera sumamente complejo (Allis, 1994), desde el estado inicial Go tiene un numero de posiciones legales de 3361 ≈10172, un FR de 250 y una CA de juego de 10360 (ver Tabla 1). Por lo anterior, hasta hace algunos años se creía que las computadoras no podían superar a los seres humanos en este juego.

En 2016, DeepMind propiedad de Google enfrentó su programa AlphaGo (Silver, y otros, 2016) contra el jugador profesional y campeón mundial Lee Sedol, quien confiado pronosticaba una victoria aplastante. Sin embargo, y para sorpresa de muchos, AlphaGo resultó ganador en cuatro de cinco partidas.
AlphaGo combina Redes Neuronales Profundas y Monte Carlo Tree Search (MCTS) de la siguiente forma (Silver, y otros, 2016):
• Red Neuronal de Valor: Tiene como objetivo reducir la profundidad de la búsqueda de árbol. Evalúa las posiciones del tablero y sustituye el paso de simulación en MCTS.
• Red Neuronal de Política: Tiene como objetivo reducir la amplitud de la búsqueda de árbol. Elige los movimientos a explorar en el paso de expansión de MCTS.
Las redes neuronales se entrenaron con millones de partidas de tomadas de Kiseido Go Server (KGS Go Server, s.f.), tanto de jugadores profesionales como de amateurs. Posteriormente AlphaGo se enfrentó a sí mismo para mejorar continuamente hasta obtener el nivel suficiente para vencer a campeones mundiales.
Una versión mejorada conocida como AlphaGo Zero (Silver, y otros, 2017) superó completamente a AlphaGo al derrotarlo en 100 partidas. El secreto de AlphaGo Zero radica en que, no hace uso de conocimiento humano, sino de aprendizaje automático además de combinar las dos redes neuronales en una sola. En un inicio AlphaGo Zero no tiene información alguna sobre cómo jugar, únicamente realiza movimientos al azar y conforme juega contra sí mismo, AlphaGo Zero se va mejorando. Con solo tres días de autoaprendizaje AlphaGo Zero fue capaz de vencer a AlphaGo. El hecho de no usar conocimiento humano permitió a AlphaGo Zero descubrir nuevas estrategias que no se habían contemplado en toda la historia de Go, por lo que jugadores profesionales se han inspirado en las jugadas de AlphaGo Zero para diseñar sus propias estrategias, lo que muestra que la IA lejos de ser una amenaza puede verse como una herramienta para potenciar la inteligencia humana.
Para 2017, DeepMind libera AlphaZero (Silver, y otros, 2017) una generalización de AlphaGo Zero, que elimina por completo el conocimiento especifico de los juegos que generalmente se usa para el desarrollo de los agentes y lo remplaza por una Red Neuronal Profunda en combinación con MCTS, con lo cual solo requirió de 24 horas de autoaprendizaje para vencer a campeones no humanos en tres juegos: ajedrez, ajedrez japones y Go. Por lo anterior AlphaZero ha definido un antes y un después en el desarrollo de agentes jugadores, pues puede considerarse el logro más importante en esta área.
4. Conclusiones: El futuro de los agentes jugadores
En este artículo se mostró cómo han evolucionado los agentes jugadores, desde ser simples mecanismos capaces de realizar jugadas simples hasta llegar a ser sistemas inteligentes capaces de sobrepasar por completo a los seres humanos.
Sin embargo, una crítica bastante recurrente sobre los agentes jugadores es determinar si estos son inteligentes o no, ya que las estrategias que estos usan son diseñadas por los investigadores o desarrolladores que los programan, dejando a los agentes como simples autómatas carentes de inteligencia cuya única tarea es ejecutar las ordenes que se les han dado, por ello surge la pregunta: ¿los agentes jugadores pueden ser llamados inteligentes si es una persona quien les da toda la lógica para jugar?.
Otra critica radica en la sobre especialización que estos agentes llegan a tener tomando, por ejemplo, a Deep Blue el cual es bastante competente a jugar ajedrez, este agente requeriría de grandes cambios o modificaciones para que sea capaz de jugar otro juego, aunque este sea más simple. Por ello surgen las siguientes preguntas: ¿los agentes podrán jugar igual de bien cualquier otro juego para el que no fueron diseñados? y ¿reflejan inteligencia si solo pueden jugar un único juego?
Hace algunos años se planteó el paradigma de General Game Playing (GGP) (Genesereth & Björnsson, The international general game playing competition, 2013; Genesereth, Love, & Pell, General game playing: Overview of the AAAI competition, 2005) en este se busca abordar las problemáticas antes mencionadas al desarrollar agentes capaces de jugar cualquier juego de tablero sin conocimiento previo y sin intervención humana.
En un inicio los agentes GGP (Genesereth, Love, & Pell, General game playing: Overview of the AAAI competition, 2005) usaban algoritmos como MiniMax, Alfa-Beta y Búsqueda en Profundidad. Sin embargo, los agentes basados en estos algoritmos resultaban bastante ineficientes. No fue hasta la llegada del método MCTS (Browne, y otros, 2012), y su característica de ser independiente de dominio, que permitió a los agentes aumentar en su rendimiento, definiendo el estado del arte de GGP.
Como ejemplo de los agentes desarrollados bajo este paradigma tenemos a CadiaPlayer (Bjornsson & Finnsson, 2009) el cual ganó The International General Game Playing Competition, en los años 2005, 2007, 2008 y 2012. En este último año CadiaPlayer, además, venció a un jugador humano (Genesereth, Love, & Pell, General game playing: Overview of the AAAI competition, 2005). Por lo anterior se puede decir que CadiaPlayer es el primer agente jugador multi-juego que ha tenido un relativo éxito.
Sin embargo, con la llegada de AlphaZero y su enfoque basado en autoaprendizaje se ha logrado un avance enorme en el desarrollo de agentes jugadores multi-juego. Se puede afirmar que AlphaZero ha dado una solución a las críticas realizadas a los agentes jugadores ya que:
• AlphaZero no requiere del conocimiento previo del juego ni intervención humana y es capaz de desarrollar sus propias estrategias al jugar contra sí mismo.
• AlphaZero ha aprendido a jugar en tres juegos: Ajedrez, Ajedrez Japones y Go, por lo que se considera el primer agente jugador multi-juego que ha superado al ser humano.
Aunque AlphaZero es un gran logro, el área del desarrollo de agentes jugadores aun es basto, hasta el momento los esfuerzos se han enfocado en juegos de tablero competitivos para dos jugadores y con movimientos por turnos, como lo es el ajedrez. Existen otros juegos de tablero que pueden reflejar escenarios de la vida real como lo son los juegos cooperativos, los de más de dos jugadores, los de movimientos simultáneos o los de información parcial. Incluso un área de interés puede ser el desarrollo de agentes capaces de jugar videojuegos (Levine, y otros, 2013; Schrittwieser, y otros, 2020)ya que presentan escenarios retadores al tener un mayor número de posibles acciones a realizar y la toma de decisiones debe ser prácticamente en tiempo real.
No cabe duda de que abordar estos escenarios permitirá desarrollar nuevos algoritmos y/o métodos aplicables en otras áreas como: la planificación, la gestión de procesos, el comercio electrónico, las operaciones militares, la conducción de vehículos autónomos, en general en escenarios dinámicos, no predecibles y con alta incertidumbre. Con esta revisión histórica se muestra que el área del desarrollo de agentes jugadores aun es un campo frutífero cuyos avances pueden llevar al desarrollo de agentes multidominio y multipropósito acercándonos cada vez más a la IA General la cual emule a la inteligencia humana.
Referencias
Allis, L. (1994). Searching for solutions in games and artificial intelligence.
Björnsson, Y., & Schiffel, S. (2013). Comparison of GDL reasoners. Proceedings of the IJCAI-13 workshop on general game playing (GIGA’13), 55-62.
Brange, H. (2021). Evaluating Heuristic and Algorithmic Improvements for Alpha-Beta Search in a Chess Engine.
Buro, M. (1997). The Othello match of the year: Takeshi Murakami vs. Logistello. ICGA Journal, 20(3), 189-193.
Buro, M. (2003). The evolution of strong othello programs. Entertainment Computing, 81-88. Campbell, M., Hoane, A., & Hsu, F.-h. (2002). Deep blue. (Elsevier, Ed.) Artificial intelligence, 134(1-