Hace más de un año OpenAI, la famosa empresa dedicada a Inteligencia Artificial cuyo fundador es Elon Musk ha vuelto a realizar otro sorprendente logro en referencia a este campo. Hace más de un año la firma consiguió que una mano robótica pudiera aprender a trabajar por sí sola, sin ayuda.
Un año después han conseguido ir un paso más allá: han logrado que dicha mano robótica sea capaz de enseñarse a sí misma a resolver cubos de Rubik. Lo más sorprendente es que este entrenamiento también lo hizo por sí sola; la mano creó un régimen de entrenamiento que se aplicó a sí misma.
Puede no sonar muy impresionante el hecho de que una mano robótica se ponga a resolver cubos de Rubik, pero sí lo es desde el punto de vista de la IA. Además de por varias razones, porque consiguió que sus propios algoritmos mejoraran en entornos para los que no habían sido entrenados.
La mano robótica que se enseñó a si misma a resolver cubos de Rubik
Esto es impresionante por varios motivos. Para empezar, la mano se había enseñado a sí misma a resolver cubos de Rubik usando un algoritmo de aprendizaje por refuerzo. Dicha técnica de aprendizaje está basada en la forma en la que los animales aprenden a hacer sus tareas. Además, todo el entrenamiento al que había sido sometida la mano se hizo en simulaciones, y la mano fue capaz de trasladar dichos conocimientos al mundo real.
Dactyl, que así es como se llama la mano, ha aprendido a resolver estos cubos sin necesidad de una segunda mano adicional. Esto es impresionante pero no por resolver el cubo, lo cuál es relativamente sencillo, sino porque esto supone un nuevo paso en el aprendizaje y destreza de Dactyl.
Según Dmitry Berenson, un robotista de la Universidad de Michigan que se especializa en la manipulación de máquinas: "Este es un problema realmente difícil. El tipo de manipulación requerida para rotar las partes del cubo de Rubik es en realidad mucho más difícil que rotar un cubo".
Para entender la importancia de este logro, hay que saber cómo son capaces de agarrar objetos los robots. Hasta ahora, históricamente han sido capaces de manipular objetos de formas muy simples; si bien los algoritmos de aprendizaje automático han sido todo un éxito en tareas complejas de software (como derrotar a un equipo entero de Dota) trasladarlos a una máquina física es más difícil.
Esto es debido a que los algoritmos se deben refinar a base de prueba y error que desembocan en millones de intentos y rondas de experimentos. Esto implicaría que, en caso de que un robot completo hiciera este proceso, se desgastara con el tiempo. Por esto los investigadores suelen recurrir a las simulaciones.-
Esto también conlleva sus problemas, ya que es casi imposible construir un modelo virtual que reproduzca exactamente las mismas leyes de física, propiedades materiales y comportamientos de manipulación que se ven en el mundo real. Por lo tanto, cuanto más complejo es el robot y la tarea, más difícil es aplicar un algoritmo virtualmente entrenado en la realidad física.
La clave del avance reside en que respecto al experimento de hace un año ha habido cambios. Antes, los investigadores tuvieron que aleatorizar los parámetros en el entorno seleccionando manualmente y qué permutaciones creían que conducirían a un mejor algoritmo. Ahora, el sistema de entrenamiento por simulación hace esto por sí solo. Cada vez que el robot alcanza un cierto nivel de dominio en el entorno existente, el simulador ajusta sus propios parámetros para dificultar aún más las condiciones de entrenamiento y así avanzar al siguiente nivel.
Esto se traduce en un algoritmo más sólido con una mayor precisión, como por ejemplo la necesaria para rotar el cubo de Rubik. En las pruebas posteriores, los investigadores de OpenAI descubrieron que Dactyl resolvió estos cubos en condiciones en las que no había sido entrenado. Algunas de estas situaciones implicaban el uso de guantes de goma, tener los dedos unidos, etcétera.
Aunque OpenAI cree que gracias a este enfoque podrán desarrollar robots de uso general adaptables a nuestros hogares, los investigadores Berenson y Leslie Kaelbling, una robotista y profesora del MIT son escépticos. Berenson explica que "puede haber una impresión de que hay una teoría o sistema unificado, y ahora OpenAI solo lo está aplicando a esta tarea. Pero eso no es lo que está sucediendo en absoluto. Estas son tareas aisladas. Hay componentes comunes, pero también hay una gran cantidad de ingeniería aquí para que cada nueva tarea funcione.
Es por eso que me siento un poco incómodo con las afirmaciones sobre esto que lleva a robots de uso general. Veo esto como un sistema muy específico destinado a una aplicación específica".
Según cree Berenson el problema reside en el aprendizaje por refuerzo. Esta técnica, por naturaleza, está diseñada para dominar una cosa en particular pero está pensada para otorgar cierta flexibilidad en otras similares. Pero en el mundo real, el número de variaciones potenciales se extiende más allá de lo que razonablemente puede simularse. Por ejemplo, imagina que el robot tiene que limpiar; tendría que lidiar con distintos tipos de productos, con distintos tipos de suelo y con distintas herramientas de limpieza.
Berenson argumenta que ir más allá de estas limitaciones requerirá otras técnicas robóticas más tradicionales. "Habrá muchos procesos de aprendizaje comoel aprendizaje de refuerzo al final del día. Pero creo que llegarán más tarde".
Via | Futurism