Entre los últimos días de febrero y la primera semana de marzo unas imágenes virales invadieron las redes sociales y noticieros, incluidas algunas televisiones. Son sorprendentes fotos añejas, incluso de personas muertas, que cobran vida. Las cabezas se mueven y los rostros hacen gestos con naturalidad.
El revuelo es obra de una web llamada MyHeritage, conocida hasta ahora por su propuesta para investigar y generar el árbol genealógico de quien esté interesado. Una tarea para la que pide de entrada bastantes datos personales y una tarjeta de crédito.
La sacudida de estos días es consecuencia del proyecto Deep Nostalgia, desarrollado con algoritmos deep learning que pueden evocar inquietantes vídeos falsificados, 'deepfakes', en los que se manipula a personajes conocidos y se añaden palabras que nunca han pronunciado.
En este caso, lo que ofrece MyHeritage es un servicio gratuito e inmediato: se sube una foto y en cuestión de segundos el rostro cobra vida. Sonríe, parpadea, mira en diferentes direcciones…
Y, mientras, los que vibran entusiasmados "con toda esta locura viral" son los creadores del software que está detrás de la animación.
Se trata de una startup israelí que se llama D-ID. Fue fundada hace cuatro años en Tel Aviv por Eliran Kuta, Sella Blondheim y Gil Perry, el CEO, que aceptó inmediatamente conversar con D+I en plena euforia, mientras su agenda se apretaba para responder a otros medios internacionales y dejaba en las redes constancia de haber vivido un "fin de semana memorable".
"Nuestra compañía nació para desarrollar protección contra el reconocimiento facial a partir de fotografías", explica Perry. "Nos pasamos luego al vídeo. En Israel hemos conseguido una gran base de conocimiento en deep learning y expertos en visión computerizada. Resolvemos problemas muy, muy, difíciles en reconocimiento facial. Y a eso nosotros añadimos también gran pericia en visión humana, así que tenemos unas capacidades de máximo nivel mundial en [imágenes de] caras".
"Cuando empezó la Covid consideramos que había un problema mayor, en el que podíamos causar mucho impacto haciendo una disrupción en los medios y en el entrenamiento, señalando el camino de cómo crear vídeos para los medios, con inteligencia artificial en vez de grandes producciones", relata Perry.
"Así que, de ahí venimos. Tenemos un paquete de productos diferentes, uno de los cuales es el que ha visto en MyHeritage, que es apenas la punta del iceberg", asegura satisfecho.
Retratos vivos
Aunque la web lo haya bautizado como "Deep Nostalgia", para D-ID el producto se llama "Live Portraits" (retratos vivos). Un producto que aspiran a vender a redes sociales "y otras organizaciones de historia", aplicaciones de tratamiento fotográfico e incluso software de videoconferencia.
Perry detalla la gran diferencia entre su software y los de la competencia: "Cogemos cualquier foto, enfocándonos en las caras, o cosas que lo parecen. Nuestros 'motores de rostros' han sido entrenados durante años y son mejores que todo lo que existe en el mundo".
El elemento diferenciador, asegura, es que su deep learning "comprende, cuando mueves los rasgos a otra posición, cómo tiene que cambiar todo lo demás". El sistema interpreta "cosas complejas" que no se ven, como el fondo de la imagen oculto por la cabeza, y que, al moverse esta, deben resultar visibles y creíbles. Pero el ordenador no sabe lo que hay detrás.
"Una de las razones por las que esto se ha hecho viral, además de porque MyHeritage ha hecho un marketing magnífico, es que parece tan real…", dice con entusiasmo. "Hay otros productos competidores en los que, cuando la cara se mueve no parece real. Es lo que se llama el 'uncanny valley' [el valle inquietante]. Que es cuando el vídeo sintetizado parece muy bueno ante tus ojos, pero tu cerebro sabe que algo está mal, que hay algo que no distinguen los ojos".
Se refiere también a detalles como el modo concreto en que se juntan los labios para pronunciar un sonido con una determinada letra, como la oclusiva 'p', o las arruguitas que asoman alrededor de los ojos al sonreír. "Nosotros nos las hemos arreglado para atravesar el 'valle inquietante'. Tu cerebro entrenado sí cree que lo que ves es real".
Luchar contra el reconocimiento de imágenes
Perry cuenta que la compañía comenzó diseñando un software para impedir la identificación de rostros. "Imagine que quiere subir una foto a Facebook, en la que se vea quién es, pero que la máquina no pueda identificar que es usted, aunque un humano sí puede. Ese fue nuestro comienzo". La manipulación que hace su IA distorsiona sutilmente puntos de referencia que se usan para el reconocimiento, de manera que otra IA "no los entenderá".
Otro de sus productos se llama 'cabezas parlantes' (talking heads), con el que pueden hacer que una imagen 'hable' articulando las palabras de su discurso. Aunque Perry reconoce que en su catálogo ahora les falta que, al sintetizar una voz, pueda imitar la de un determinado personaje. "Está en nuestra hoja de ruta".
A diferencia de la rutina preestablecida en la web de MyHeritage, "podemos controlar el movimiento. Tú decides cómo se moverá la foto. Tomamos a un 'actor', al que llamamos guía, y la imagen de otra persona. Nuestro algoritmo sabe cómo transformar los gestos del guía a través de los rasgos de la cara en la foto. Lo que hagas tú, lo hace la foto y lo que digas, lo dice la foto".
Pero el producto del que se muestra más orgulloso es el de anonimización de un personaje en vídeo. El rostro de una persona que aparece en las imágenes puede ocultarse, no sólo con el recurso elemental de poner un manchurrón difuminado sobre él, que también pueden hacerlo, sino siendo sustituido por otro. Lo plantea como recurso para el cine documental.
"Hicimos un documental con un policía, que no podía mostrar su cara por motivos de seguridad, porque tenía ciertos problemas con el Gobierno. Pero no puedes hacer una película y emborronar la cara de un actor todo el tiempo. Así que reemplazamos su rostro por el de otra persona y así conservamos las reacciones y emociones del protagonista".
Con toda esta capacidad técnica, dice, "comprendimos que podemos cambiar por completo el mercado del entretenimiento, porque vamos a ser líderes en el cambio de la forma de crear vídeo utilizando inteligencia artificial. Nos vemos como 'los buenos' de los 'media' sintéticos".
Oposición frontal a las 'deepfake'
Naturalmente, sobre la conversación ha planeado todo el tiempo un ominoso concepto: 'deepfake'. Perry lo rechaza enérgicamente.
"Nosotros utilizamos la IA para trabajo creativo bueno. Sólo con buena gente que tiene buenas intenciones y para cosas que hagan el bien. Queremos que con MyHeritage la gente pueda conectarse con su pasado, con su familia. O hacer películas documentales que permitan a gente creativa cosas que nunca antes podían. Facilitar cosas buenas…".
Lo cual requiere, le plantea D+I, mantener un férreo control sobre quienes usan su software. "Tenemos dos modelos, aunque básicamente es software as a service", responde. "Puede estar instalado en nuestra nube o, si les preocupan cuestiones de privacidad, en una nube privada. Elegimos muy cuidadosamente a nuestros clientes".
"Tenemos unas reglas de uso muy estrictas para mostrar a la gente lo que está bien y cómo saber cuándo está mal", añade. "Estamos liderando la creación de un grupo de reguladores, líderes de opinión y startups para establecer un conjunto de normas: cómo puedes obtener consentimiento de la gente y cuándo serás sancionado si lo haces mal; en qué compañías deben poner dinero los inversores y cuáles son malas; cómo poner marcas de agua, para que se sepa que algo es falso; y si hay algo malicioso, cómo detectarlo".
"No vendemos nuestro producto a cualquiera", insiste Perry. "Sólo a gente con buenas intenciones y para hacer algo por los demás, que es como nosotros hemos llegado hasta aquí, partiendo de la [protección de la] privacidad".