Bard de Google se ha quedado a medio camino de lo que supuestamente iba a ser, a la espera de Google I/O en el que presumiblemente los chicos de Mountain View volverán a mostrarlo. Aparte de ese modelo coloquial basado en IA, justo el lunes pasado un grupo de investigadores de IA de Google y la Universidad Técnica de Berlín presentaron PaLM-E.
[Cómo usar la IA de Bing en cualquier página y hacer que te resuma vídeos y webs]
PaLM-E, un robot muy capaz
PaLM-E es un robot basado en un modelo de lenguaje visual multimodal (VLM) que se caracteriza por sus 562.000 millones de parámetros que integran control robótico por visión y lenguaje.
El grupo de investigadores de IA de Google y la Universidad Técnica de Berlín mantienen que es el mayor VLM jamás desarrollado para realizar una gran variedad de tareas con el valor que significa que no necesita ser reentrenado.
A diferencia de otros robots que necesitan ser programados para ciertas tareas, Palm-E puede generar un plan de acción con una plataforma robótica armada con un brazo (desarrollado por Google Robotics) que ejecuta acciones por sí misma.
En un vídeo compartido por la misma Google, se puede ver al robot ejecutando la orden de sacar una bolsa de patatas fritas de un cajón para que en un momento dado, uno de los ingenieros, la devuelva a su sitio para que PaLM-E, ni en segundos, sea capaz de tomarla de nuevo para llevarla a la superficie de la encimera de la cocina.
Todo este proceso de acciones, vía Ars Technica, lo hace este robot con IA al analizar los datos desde la cámara que lleva incorporada sin la necesidad de reentrenarlo, lo que elimina de raíz la intervención humana.
Transfiere el conocimiento adquirido de una tarea a otra
Otro ejemplo también es muy ilustrativo, ya que el modelo PaLM-E controla un robot a través de distintas tareas con complejas secuencias que anteriormente necesitaban la guía de una persona.
Su nombre se debe a estar basado en LLM, un mayor modelo de lenguaje de Google, y por incorporar información sensorial y control robótico. Lo importante de este modelo de lenguaje es que PaLM-E siempre se encuentra en una constante observación de los datos que recibe a través de los sensores y de las imágenes.
Luego lo que hace es codificarlos en una secuencia de vectores que tienen el mismo tamaño que los tokens de idioma. De esta forma, es capaz de "entender" la información visual de la misma forma que procesa el lenguaje, y al igual que hace ChatGPT al interpretar todo lo que un usuario le pregunta o solicita a través de texto.
Y es que también Microsoft está detrás de ChatGPT for Robotics, una investigación en la que se combinan los datos visuales y los modelos mayores de lenguaje para el control robótico de la misma forma que se hace con PaLM-E.
De aquí que PaLM-E sea capaz de transferir el conocimiento y habilidades aprendidas de una tarea a otra, lo que genera finalmente un mayor rendimiento comparado a esos modelos de robots de tareas únicas.
Casi autodidacta
Los investigadores que han presentado este robot mantienen que exhibe tremendas capacidades como el razonamiento multimodal de cadena de pensamiento, lo que le permite analizar una secuencia de entradas que incluyen información visual y de lenguaje, y la inferencia de múltiples imágenes, para así usarlas como una entrada para realizar una predicción o inferencia.
Es decir, que según sea más usado va aprendiendo de todas las tareas asignadas para que sea más complejo en el tiempo. De momento, el objetivo de los investigadores de Google es explorar las aplicaciones de PaLM-E en escenarios reales como podrían ser para la automatización del hogar o robots para el sector industrial.
Hay que quedarse con la palabra "Multimodal", ya que va a ser una referencia en el mundo de la inteligencia artificial para que estos robots lleguen a ser capaces de realizar tareas cotidianas como una misma persona.
Te puede interesar
- El Google I/O de este año será especial: Android 14, soluciones basadas en IA y el Pixel 7a
- Los nuevos televisores de Samsung para España tienen una IA que mejora el sonido
- Una nueva IA es capaz de leernos la mente y crear las imágenes que estamos pensando
- Esta IA revela qué es lo que la gente piensa de ti, y las respuestas te pueden emocionar