Elon Musk presenta su primer modelo multimodal, o lo que es lo mismo, una evolución de su inteligencia artificial generativa, Grok, que ha aprendido a realizar múltiples tareas: además de escribir texto, ahora analiza y comprende fotografías. Descrito inicialmente como "rebelde e ingenioso" este chatbot ya no se limitará a responder preguntas de texto en X (antes Twitter). Con este salto pretende desafiar a grandes modelos multimodales como GPT-4 (cerebro de ChatGPT) o Gemini de Google.
Grok se presentó hace meses como la alternativa a ChatGPT que integraría la red social X, también propiedad de Elon Musk. Su evolución a un modelo capaz de analizar imágenes sugiere que las funciones se ampliarán, incluso para influir en la conducción autónoma.
xAI, la empresa creada por el magnate para desarrollar IA afirma que su modelo supera a la competencia como GPT-4V de OpenAI o Gémini Pro 1.5 de Google en la "comprensión del mundo real". Los datos se extraen de una prueba creada por la propia compañía que pretende compartir con la comunidad de desarrolladores.
Grok aprende a analizar el mundo
Entre las funciones de las que ahora es capaz Grok está la opción de convertir un boceto de una pizarra en código Python para crear un videojuego. Al mismo tiempo, con este chatbot sería posible escribir un cuento partiendo de un simple dibujo de un niño pequeño para ayudarle a dormir por la noche. También puede analizar imágenes y dar soluciones a diferentes problemas.
Entre las pruebas a las que ha sido sometido y que la compañía publica como demostración de sus capacidades se le pide que indique la dirección cardinal a la que está mirando el dinosaurio de peluche. Esto implica que la IA debe ser capaz de comprender la información que aporta la brújula en el móvil y la colocación del objeto a su lado.
xAI pone también como ejemplo dos escenas de cinco relacionadas con la conducción. No hay que olvidar que esta compañía esta relacionada con Tesla, al ser las dos empresas de Musk. Esta IA podría ayudar a crecer a los sistemas de conducción autónoma o asistida actuales. Falta que la comunidad examine las capacidades y debilidades del nuevo modelo.
Grok-1.5 Vision, o Grok-1.5V estará pronto disponible para someterse a evaluación externa y que los usuarios de esta IA valoren sus capacidades. Anteriormente, el código de Grok cuando solo trataba texto se hizo público, de código abierto, para que la comunidad de desarrolladores experimente con él. Esta es una promesa personal de Musk, quien ha acusado a sus antiguos socios de OpenAI de abandonar su misión original en favor de un modelo con ánimo de lucro.
Nueva métrica
"Grok-1.5V es competitivo con los modelos multimodales existentes en una serie de dominios, que van desde el razonamiento multidisciplinario hasta la comprensión de documentos, diagramas científicos, gráficos, capturas de pantalla y fotografías", afirma la compañía en una publicación en su web oficial.
Respalda esta afirmación, con una tabla en la que se detalla la puntuación obtenida por este modelo y otros del mercado en las pruebas antes mencionadas. Se trata del test creado por xAI, RealWorldQA. "Estamos entusiasmados de lanzar RealWorldQA a la comunidad y tenemos la intención de expandirlo a medida que mejoren nuestros modelos multimodales", indican.
RealWorldQA examina la comprensión de diferentes formatos por parte del sistema multimodal, como texto, diagramas, fotografías o pruebas matemáticas. Este test, actualmente, consta de más de 700 imágenes que integran una pregunta y varias posibles respuestas, una de ellas correcta y verificable para cada imagen.
Los avances no se limitarán aquí, la empresa promete seguir trabajando en las capacidades de esta IA para comprender contenidos de distintos formatos y generar otros, "en diversas modalidades, como imágenes, audio y video", con la intención de "construir una AGI beneficiosa que pueda comprender el universo". Termina su anuncio explicando que se encuentran en proceso de contratación.