Publicada
Actualizada

Con el modo avanzado de voz ya estrenado en España, ahora ChatGPT se dirige a su próximo hito o etapa: el despliegue general de su función Live Video. Y esta tiene que ver con una importante experiencia para la inteligencia artificial generativa, que pueda 'ver' y así comentar, responder o reaccionar al entorno o hacia donde apunta el usuario con la cámara del móvil.

Y va a cambiar completamente el uso que se le puede dar a la inteligencia artificial generativa, aunque realmente se va a mejorar la experiencia al poder conversar naturalmente a través del vídeo; y es que actualmente solo se puede subir un tipo de contenido multimedia a ChatGPT y este son las imágenes. 

Ahora todo parece indicar que las capacidades de visión en vivo de ChatGPT a través del modo avanzado de voz estarían listas para su despliegue general. Ya en su momento mostró sus impresionantes capacidades para que la IA de OpenAI fuera capaz de reconocer al sujeto del vídeo como un perro, recordara su nombre, reconociera la pelota con la que jugaba y asociara la misma a la mascota a través de una actividad como buscar.

La experiencia casi se convierte en una videollamada con otra persona, ya que la actitud de ChatGPT es similar y va respondiendo con frases ante todo lo que 've'. Esta experiencia ya va apareciendo en algunos usuarios que han podido compartir como ChatGPT entiende la escena e incluso es capaz de soltar comentarios precisos.

Uno de ellos ha subido un vídeo a X (antes Twitter) en el que se puede ver como ChatGPT comenta que queda bastante comida en el cuenco de la mascota para dejar claro que todavía no se ha alimentado. Y es que el comentario lo hace al momento para reconocer de inmediato lo qué sucede, casi cuando está apareciendo el cuenco en la escena para incluso dar información de la razón por la que un gato deje parte de la comida.

Esta experiencia que es apasionante para los pocos usuarios que ya la están probando, puede ser genial para las personas con problemas de visión, ya que sacando el móvil en mano puede dar información muy precisa de todo lo que ChatGPT 've'. 

Sobre la llegada de esta función, OpenAI en ningún momento ofreció una fecha concreta para las capacidades de visión del modo avanzado de voz, aunque ahora parece que está preparándose para el despliegue de la beta según se ha podido encontrar en algunas líneas de código en la beta v.1.2024.317.

Esas líneas de código indican que la característica podría llamarse como "Cámara en vivo" cuando se despliegue finalmente a la beta. También aparecen avisos en el código de que no se use esta experiencia en ciertos momentos en los que se podría poner en peligro la seguridad de la persona. 

Se desconoce la fecha en la que se espera que OpenAI despliegue la beta al igual que si lo hará solo a través de la suscripción a ChatGPT Plus o algunos de los otros planes que ofrece actualmente en España según mantiene Android Authority.