La Inteligencia Artificial de OpenAI aprende "un comportamiento extremadamente inteligente" jugando al escondite

Invertia | EP

MADRID, 18 (Portaltic/EP)

Open AI ha utilizado su herramienta de Inteligencia Artificial (IA) para desarrollar varias estrategias distintas para el juego tradicional del escondite por equipos para enseñar a coordinarse a varios agentes de IA.

El juego del escondite, a pesar de parecer simple en su planteamiento, plantea "una complejidad autosupervisada" que sugiere que la coordinación entre varias herramientas de IA "podría producir un comportamiento extremadamente complejo e inteligente", según explica OpenAI en un comunicado.

Como resultado, OpenAI ha obtenido seis estrategias y contraestrategias para el juego del escondite que hasta el momento se desconocía que su entorno pudiese soportar.

Para lograr este objetivo, OpenAI ha diseñado una simulación en la que un equipo de dos jugadores tienen que descubrir a un equipo de al menos otros dos integrantes que buscan esconderse de su campo visual, todos ellos guiados por la IA de la compañía.

Como variante adicional, OpenAI añade cubos y rampas que los jugadores pueden colocar estratégicamente para bloquear la visión a los perseguidores o para salvar obstáculos como paredes y puertas, respectivamente, que se ubican aleatoriamente.

Empezando por el movimiento aleatorio, la IA de OpenAI ha llegado a otras tácticas más avanzadas en las que los equipos se coordinan entre ellos, como la persecución y el bloqueo de puertas para no ser descubiertos.

Por su parte, las rampas han servido tanto a los perseguidores para descubrir a los escondidos como para que estos se coordinen para bloquear su uso y no ser encontrados. Los perseguidos han llegado incluso a aprender cómo construir refugios en los que no poder ser detectados.

OpenAI ha detectado "comportamientos sorprendentes" en su IA al entrenarla con este juego y que "los agentes pueden aprender el uso sofisticado de herramientas", en algunas ocasiones incluso sobrepasando los límites previstos por la simulación. Por ejemplo, los perseguidos aprendieron a huir del escenario parapetados tras cajas, o incluso usaban las rampas para saltar distancias superiores a las previstas.

"Hemos proporcionado evidencia de que las estrategias y habilidades relevantes para los humanos -mucho más complejas que el ambiente y la dinámica de juego- pueden emerger de la competición entre varios agentes y el uso de algoritmos de refuerzo a escala", ha concluido OpenAI.