Investigadores han conseguido una manera de crear vídeos falsos de personas hablando.
Al hablar, movemos las decenas de músculos de nuestra cara para reproducir los sonidos que queremos.
Es por eso que poner palabras en boca de otro es tan complicado; y por cierto, también es el motivo por el que deberíamos reconocer lo difícil que lo tienen actores de doblaje para hacer un trabajo convincente.
Si lo haces mal, sólo conseguirás un efecto similar al “valle inquietante”, o uncanny valley. Es el mismo efecto que sentimos cuando vemos un robot que intenta hacerse pasar por un humano; simplemente no nos lo tragamos, y nos da una sensación desagradable.
Redes neuronales que aprenden de cómo hablamos
La investigación salida de la Universidad de Washington puede acabar con esto; han desarrollado un método para crear vídeos falsos de personas hablando a cámara, diciendo cosas diferentes a las que dijeron.
Más aún, lo han conseguido sólo partiendo del sonido; es decir, que tenían el reto de hacer que un vídeo mostrase a una persona diciendo algo que se había grabado en un archivo de sonido aparte.
Para demostrar lo que han conseguido, los investigadores crearon un vídeo del ex-presidente de los EEUU, Barack Obama, mirando a cámara y diciendo una frase que se había grabado en otra ocasión.
Es increíble ver cómo han conseguido que el Obama falso hable de manera natural y realista, partiendo sólo del sonido (el vídeo superior es sólo para que tengamos una referencia, el algoritmo no usó el vídeo).
Cómo consiguieron crear vídeos falsos de personas hablando
Lo han hecho, cómo no, con una red neuronal, a la que han entrenado con catorce horas de vídeos de Obama; lo bueno es que, debido a su anterior trabajo, hay muchos vídeos de Obama mirando a cámara y tuvieron mucho material con el que trabajar.
Una vez que el sistema aprendió cómo hablaba el ex-presidente, se dedicó a crear formas con la boca que se sincronizaban con el audio; la boca es la parte falsa en el vídeo, renderizada de manera realista.
Pero no es lo único que cambió; también seleccionó movimientos de cabeza, ojos, cejas, y cuello, basándose en los movimientos involuntarios que realiza la persona.
La única parte que necesitó de la intervención de un humano fue cuando el algoritmo seleccionó dos frames en los que se veían los dientes superiores e inferiores al mismo tiempo. Algo de lo que el sistema aprendió y no volvió a repetir.
El futuro estará lleno de vídeos falsos
El sistema no es perfecto, claro. No tiene en cuenta la emoción del locutor (por ejemplo, si trata de temas muy graves); y aún le cuesta asociar algunos sonidos con un movimiento concreto. Además, también tiene bugs, como un momento en el que le dio dos barbillas a Obama.
La gran limitación, claro está, es que es necesario tener un archivo de audio con la voz de la persona; no podemos hacer que diga lo que queramos.
Sin embargo, es sólo cuestión de tiempo que sea posible hacer que una persona diga algo que no ha dicho; por ejemplo, usando este algoritmo en conjunción a otro que genere la voz a partir de muestras. O simplemente, usando a un imitador.
Si temías las “fake news” (noticias falsas), prepárate cuando la tecnología llegue a un nivel tal que sea posible crear vídeos con literalmente lo que se nos ocurra.
Al ritmo al que vamos, no sería de extrañar que pronto veamos a políticos compartir vídeos de su rival diciendo barbaridades.
Noticias relacionadas
- India lanza la misión que le puede convertir en el cuarto país en llegar a la Luna
- Tu nuevo fondo de pantalla ha sido posible gracias a una vela solar
- Duro como una piedra o blando como la gelatina: este material dinámico cambia con la iluminación
- Esta lengua electrónica puede "probar" y analizar líquidos en solo un minuto