Investigadores de Samsung han desarrollado un algoritmo capaz de crear una escena tridimensional partiendo sólo de un vídeo. El resultado es un entorno que podemos explorar como si fuera un videojuego.
Samsung es una de las compañías que más está invirtiendo en modificación de vídeos usando redes neuronales, y especialmente está interesada en crear nuevo contenido a partir del ya existente. Por ejemplo, no hace tanto que nos sorprendió cambiando las expresiones de la Mona Lisa, con una IA que era capaz de generar diferentes caras incluso partiendo de sólo una fotografía.
El nuevo proyecto es similar en el sentido de que es capaz de inferir más información de la que realmente hay en el contenido original. En este caso, la red neuronal es capaz de añadir una dimensión más a un vídeo, incluso aunque sólo sea capaz de "ver" un plano.
La IA de Samsung puede convertir vídeo a tres dimensiones
El vídeo publicado por Samsung demuestra muy bien las posibilidades de este sistema. Parte de un vídeo convencional, en el que se muestran escenas de la vida diaria como una habitación; el algoritmo es capaz de generar un entorno tridimensional sólo en base a esos datos.
Para ello, el algoritmo genera una serie de puntos representando la geometría de la escena, formando una "nube"; conforme el vídeo avanza, es capaz de comprender mejor la forma de los objetos de la escena. A continuación, esa nube de puntos se pasa a una red neuronal que renderiza un escenario en tres dimensiones con esos objetos.
El resultado que vemos no es el vídeo original, aunque lo parezca: es el renderizado 3D y la cámara está siendo movida por el usuario. Podríamos mover la cámara a cualquier punto y ángulo. En la imagen a continuación, a la izquierda se muestra el renderizado, y a la derecha una captura del vídeo original.
Este proceso dura apenas dos minutos, mucho menos de lo que costaría crear una escena semejante en un programa usado profesionalmente, como Blender o 3DS Max. Pero más importante, puede servir como base para crear una escena o para modificarla.
Eso significa que, en teoría, podríamos renderizar un entorno 3D sólo grabando un vídeo de la localización. Imaginemos un videojuego en el que podamos recrear nuestra casa como un nivel, simplemente grabándola con el móvil. Aunque por el momento, Samsung no ha confirmado si veremos esta tecnología en sus móviles, es un buen adelanto de lo que puede estar por llegar conforme el coste de ejecutar estas redes neuronales caiga y los procesadores sean más potentes.