El desarrollo de la inteligencia artificial se está acelerando y un torrente de herramientas creativas se ha lanzando en los últimos días. La semana pasada se desbloqueaba DALL-E 2 para que cualquiera, incluso desde España, pueda crear imágenes partiendo de una frase. Apenas unas horas después, Meta anunciaba una IA capaz de hacer lo mismo generando vídeos con descripciones sencillas y ahora es Google la que se suma a esta tendencia.
[La magia del algoritmo ‘artista’: DALL-E 2 te permite crear imágenes a partir de cualquier texto]
Tras Make-A-Video de Meta, Google ha presentado Imagen Video, un sistema de inteligencia artificial que genera clips cortos de vídeo partiendo de un mensaje de texto como "un helado de pistacho derritiéndose sobre el cucurucho" o "torrente de café cayendo en una taza". Los GIFs que generan esta IA aún tienen que mejorar, pero tocan una gran variedad de estilos artísticos y la de Google parece mejor en funciones en las que el resto pecan.
Aunque estos modelos permanecerán cerrados durante un tiempo por seguridad como ocurrió con DALL-E 2, suponen un salto en la generación de contenido y pueden revolucionar la industria. Siempre existe el miedo de que quiten puestos de trabajo, aunque sus defensores aseguran que servirán como apoyo a los artistas y otras profesiones, también está la preocupación de que se usen para distorsionar la realidad con los deepfakes.
Creando vídeos con Google
Imagen Video se basa como es comprensible en la IA de Google para generar imágenes estáticas, similar a DALL-E 2 y Stable Diffusion de Open AI. El sistema toma una frase descriptiva y genera imágenes estáticas pero consecutivas creando un video de 16 fotogramas, 3 fotogramas por segundo con una resolución de 24 x 48 píxeles.
Luego, el sistema trata de completar y mejorar el GIF, para ello "predice" fotogramas adicionales, para acabar produciendo un video final de 128 fotogramas, 24 fotogramas por segundo a 720 píxeles (1280×768) de resolución. Este proceso se ha entrenado con 14 millones de parámetros de video y texto y 60 millones de parámetros de imagen y texto. Una de las fuentes es la base de datos de imagen y texto LAION-400M disponible públicamente, que también se ha usado en el desarrollo de Stable Diffusion.
Una mejora con respecto a los demás modelos creados por la industria es la capacidad de Imagen Video de reproducir texto correctamente. Como muestra uno de los primeros ejemplos aportados por Google, el de las hojas en el agua, a su IA se le pueden pedir logos o recreaciones de marcas, algo que Stable Diffusion y DALL-E 2 les cuesta más reconocer si no son palabras genéricas.
No obstante, el resultado sigue siendo mejorable, tanto el modelo de Google como el de Meta generan clips distorsionados, con claras alteraciones de las imágenes. La calidad a la hora de generar que ha hecho famosa a la segunda generación de DALL-E, aún no se encuentra disponible en los modelos enfocados en vídeo. Problemas que se solucionan haciendo trabajar a la IA para que cada vez sea mejor.
Sistemas protegidos
Google dice que no lanzará el modelo de Imagen Video o el código fuente "hasta que se mitiguen las preocupaciones" y, a diferencia de Meta, no proporcionará ningún formulario para registrarse y solicitar acceso al sistema. Estas precauciones se han tomado con otros modelos para evitar usos indebidos mientras la IA no se controle por completo.
Las preocupaciones a las que se refiere Google tienen que ver con la generación de clips violentos o sexualmente explícitos. Uno de los riesgos que presentan estos modelos es la generación de deepfakes, poder colocar a cara de una persona en un vídeo falso o en una imagen donde aparezcan desnudos. De momento, la calidad delata a estos sistemas, pero cuando mejores diferenciarlos de la realidad puede ser más complicado. Para evitar este y otros problemas, se están usando marcas de agua.