"Españoles, una vez más hago llegar mi voz con emoción a vuestros hogares para enviaros un mensaje que considero trascendental y espero que nos haga reflexionar juntos para vislumbrar en lo posible el horizonte de los años venideros", de esta forma, y con una voz calcada a la de Franco, comienza una de las últimas obras de inteligencia artificial que ha dado nuestro país. Se ha empleado para la recreación sonora de varias piezas históricas en el podcast XRey, programa que tiene a Juan Carlos I como protagonista y que supone el primer podcast exclusivo de Spotify en España.
Un proceso complejo para el que los creadores han recurrido al centro de investigación Vicomtech. Situado en el Parque Tecnológico de San Sebastián, se ha convertido en uno de los referentes en investigación aplicada con especialización en Inteligencia Artificial y Visual Computing. Los más de 150 investigadores con los que cuentan actualmente han sido los encargados de 'resucitar' la voz de Franco. Y de qué manera lo han conseguido. El caudillo 'vuelve' de forma documental, aunque también puede cantar la Macarena o contar un chiste de Chiquito de la calzada.
Si la primera parte del audio no terminara avisándonos de que se ha creado por una inteligencia artificial, sería realmente complicado descubrir que se trata de algo cocinado mediante algoritmos en un ordenador. El centro Vicomtech agrupa a 7 centros de I+D+i entre los que se encuentran algunos con proyectos en tecnologías del lenguaje, las mismas que han conseguido devolver la voz a Franco en el podcast.
Rescatando la voz de Franco
"Un sistema de síntesis o clonación de voz convierte un texto normal de entrada en voz. El primer paso es, por tanto, construir un modelo de síntesis de voz con los datos de entrenamiento de la persona que se pretende clonar", nos ha contado Aitor Álvarez, responsable de tecnologías del habla en Vicomtech. Principalmente esos datos están compuestos por audios y transcripciones en texto para que el sistema consiga replicar las características vocales del individuo.
Antes de nada, el proceso de adquisición y preparación de los datos de entrenamiento es "un proceso clave en la construcción de un sistema de síntesis de voz". Es también una de las barreras más importantes que los técnicos han conseguido superar debido a la escasa calidad sonora de las grabaciones de Franco. "De la cantidad y calidad de estos datos dependerá que el modelo de síntesis construido genera las voces con las características y cualidades que queremos".
Los audios seleccionados pasan por un proceso de de transcripción semiautomático (con participación tecnológica pero supervisión humana) donde intervienen sistemas de reconocimiento automático del habla. En el caso de disponer de poco material de trabajo, se lleva a cabo un proceso de "evolución y 'tuneado' de modelos previos entrenados con muchas horas de otros locutores".
"Hoy en día, estos modelos incluyen componentes basados en redes neuronales profundas; como el componente encargado de transformar el texto de entrada en características del habla (espectrogramas, en este caso) y el componente que convierte estas características en la forma de onda final y conocido como Vocoder (del inglés Voice Encoder, Codificador de Voz en castellano)". Un proceso que Álvarez califica como "conceptualmente sencillo" ya que consta de estos dos pasos descritos pero no deja de lado la "alta complejidad matemática y los requerimientos de especialización".
Franco cantando la 'Macarena'
Una vez obtenemos un modelo fidedigno, queda enfrentarse al habla emocional. Álvarez la califica como "un reto para la comunidad y constituye un campo muy activo de investigación en el que también está envuelto Vicomtech". Y es que dotar de 'sentimiento' a una voz creada por inteligencia artificial es realmente complicado. Actualmente tenemos en mente las voces más o menos robóticas de los asistentes de voz como Alexa, Siri o Google. Principalmente y salvo en algunas excepciones, son voces alegres pero neutras. No son capaces de expresar sentimientos un poco más allá como sí se requiere en un discurso de Franco.
"A pesar de que en algunos idiomas como el inglés se empiezan a obtener resultados muy interesantes, todavía queda recorrido para alcanzar una síntesis emocional que suene con toda la naturalidad que podemos esperar", asegura Álvarez. Pero una vez con el modelo hecho, se puede hacer que la voz recree lo que los técnicos quieran.
"Una vez que el modelo de síntesis de voz ha sido generado y ha aprendido a generalizar correctamente, el sistema es capaz de crear un audio con cualquier texto que tome como entrada". En el audio explicativo que han subido a Spotify, se puede escuchar a Franco cantando la canción Macarena, de Los del Río.