La nueva IA de Google ha sido capaz de aprender a jugar a uno de los juegos de mesa más difíciles del mundo por sí sola, sin ayuda humana.
AlphaGo es la Inteligencia Artificial (IA) que Google adquirió en 2014, además de ser la primera inteligencia artificial en derrotar a los mejores contrincantes de Go, un milenario juego de mesa de origen chino. Se cree que tiene cerca de 4000 años y se estima también que hay más posiciones posibles de este juego que átomos en el universo.
Concretamente, se cree que hay 2 × 10170 posiciones posibles (170 ceros tras la unidad) y además es necesario un Dell PowerEdge R280 con 4 terabytes de almacenamiento para poder llegar a calcular la cifra exacta. Las 2 × 1026 posiciones posibles del ajedrez, pues, se quedan en nada comparado con la alucinante cifra de posibles posiciones de juego del milenario juego Go.
Ya entendiendo por qué Google eligió este juego y no otro para experimentar con la Inteligencia Artificial, introducimos un poco de contexto: se ha presentado a dos torneos de Go en el The Future of Go Summit, una cumbre reservada específicamente para este juego, y en ambos ha ganado: en 2016 ganó 4 a 1 a Lee Sedol, el mejor jugador en aquel momento; y en 2017 ganó 3 a 0 a Ke Jie, el nuevo mejor jugador de este año.
En ambos torneos ganó de forma muy reñida, pero es porque está programada para ganar precisamente con la mínima diferencia posible (para realizar el mínimo trabajo posible, también).
AlphaGo Zero, la nueva versión
Ahora, la nueva versión de AlphaGo, llamada Zero, ha ganado a su antigua versión 100 partidas ganadas a 0. Además, no ha sido necesario ningún supervisor para que la IA aprenda, sino que ahora lo hace por sí sola. Es decir, que es capaz de aprender y de superarse a sí misma sin ninguna necesidad de que haya algún humano instruyéndola.
Y ese es precisamente el fin de las investigaciones en Inteligencia Artificiales: que sean capaces de aprender por sí mismas, sin necesidad de asistencia humana, y de la forma más óptima posible. Es lo que se conoce como unsupervised learning (aprendizaje no supervisado), y consiste en aprender sin la necesidad de que se introduzcan los datos necesarios de forma etiquetada, que es como normalmente aprenden las IA (‘supervised learning‘).
En este último método de aprendizaje se introduce información etiquetada para que la Inteligencia Artificial aprenda para que sea capaz de predecir un resultado cada vez que se le introduzca información sin etiquetar. Por supuesto que hasta ahora no había ninguna persona enseñando a jugar a AlphaGo, sino que esta se empapaba de millones de partidas ya jugadas.
AlpaGo Zero 100 – 0 Alpha Go
En este caso, ha bastado 3 días (casi 3 días, de forma concreta 70 horas) y casi 5 millones de partidas de entrenamientos para que AlphaGo Zero, la nueva versión de la Inteligencia Artificial, sea capaz de superarse a sí misma sin necesidad de aprender mediante partidas de profesionales ya jugadas y grabadas. En este caso, los desarrolladores solamente introdujeron las reglas del juego en la Inteligencia, y ello bastó para que se superase a sí misma.
Los primeros movimientos fueron realizados al azar, como la primera vez que juega una persona al Go o al ajedrez
Durante esos 3 días la IA se entrenó consigo misma, si ningún oponente y sin ver jugar a nadie más. Aprendiendo de sus propios fallos y errores, fue capaz no solo de superar de nuevo a cualquier jugador profesional, sino también a sus antiguos ‘yo’, entre los cuales se encuentra AlphaGo y AlphaGo Master, esta última encargada de competir contra los mejores jugadores.
De todo esto, además, se saca una conclusión muy interesante: la estrategia seguida por la nueva IA es mucho más eficiente que la estrategia aprendida en base a ver jugar a humanos, de ahí la aplastante derrota de 100 partidas ganadas a 0 patatero.
Aprende por sí sola y es más eficiente
Es capaz de tomar cada decisión en 0,4 segundos
Además, la nueva Inteligencia Artificial ya no está limitada al conocimiento humano, como literalmente se ha expresado en el estudio publicado. En este caso se usó únicamente una red neuronal y no dos, lo que permitió que el aprendizaje fuera más eficiente y que tomase decisiones más rápidas que antes.
Además, comparando las partidas pasivas que AlphaGo necesito con las partidas activas que realizó AlphaGo Zero, esta última apenas necesito tiempo: hablamos, en concreto, de que AlphaGo necesito observar un total de 30 millones de partidas con respecto a las 5 millones que solamente necesitó jugar la versión Zero.
Pero a pesar de que ha realizado importantes avances dentro del mundo de Go, no notaremos su impacto en la vida ‘real’ hasta dentro de mucho tiempo, tal y como ha especificado Nick Hynes, un estudiante de postgrado del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del Instituto Tecnológico de Massachusetts (MIT).
Además detalla que «el algoritmo descrito solo funciona para problemas en los que hay un número contable de acciones que se pueden tomar». A esto tenemos que sumar que inicialmente se introdujeron las reglas del juego, algo que no sería así en la vida cotidiana.