MADRID, 12 (Portaltic/EP)
Los múltiples avances en el aprendizaje profundo han llevado a que Microsoft junto a la Universidad de Zhejiang (China) desarrolle un nuevo modelo de síntesis de habla, FastSpeech, que ha mostrado mejorías en la velocidad y precisión de la máquina al reproducir textos a voz.
Las síntesis de habla o 'Text-to-Speech' (TTS) está basada en redes neuronales. Estos modelos generan un espectrograma de escala mel -una representación visual de las frecuencias medidas en hercios de la escala Mel, escala musical perceptual, a lo largo del tiempo- de forma autorregresiva a partir de la entrada de texto.
Luego sintetizan la voz desde dicho espectrograma utilizando un codificador de voz. Debido a la larga frecuencia del espectrograma y su naturaleza variable la velocidad de inferencia puede ser lenta o que los discursos puedan contener errores y repeticiones.
Para su nuevo modelo, Microsoft ha introducido una nueva red de retroalimentación que genera espectrogramas de mel con una alta velocidad de generación. Este sistema destaca sobre los modelos anteriores gracias a su rapidez, ya que acelera la generación del espectrograma mel en 270 veces y la síntesis de voz de extremo a extremo en 38 veces.
Para evaluar su robustez los investigadores seleccionaron 50 oraciones -de una base de datos con 13.100 clips de audio en inglés) que son especialmente difíciles para los sistemas TTS, observaron que FastSpeech era capaz de eliminar la repetición y de omitir palabras que entorpecían la comprensión del texto. Además este sistema permite al usuario ajustar la velocidad de voz a través de un regulador de longitud.
FastSpeech fue presentado este miércoles en la Conferencia sobre Sistemas de Procesamiento de Información Neuronal (NeurIPS) 2019 celebrada en Vancouver (Canada).