Con el auge de ChatGPT, cada vez más investigadores y empresas están realizando innovaciones en forma de modelos de inteligencia artificial revolucionarios. Entre ellas se encuentran, lógicamente, Microsoft y Google que están enzarzadas en una batalla abierta por ver quién tiene la sartén por el mango en la revolución de la inteligencia artificial. Investigadores de Microsoft han conseguido presentar un nuevo modelo que permite a los usuarios traducir tu voz a otros idiomas.
Este modelo recuerda mucho al software que presentó Microsoft con Skype hace unos meses. Los investigadores han ampliado enormemente el modelo ya conocido como VALL-E, presentado en enero para poder entrenar un modelo de lenguaje de códec condicional multilingüe que es capaz de predecir secuencias de tokens acústicos. Ese modelo es VALL-E X.
De esta forma, esta IA promete permitir a los usuarios hablar en un idioma que no conocen usando su propia voz, siendo un gran golpe a la barrera del idioma y a Google. Y es que los de Mountain View llevan desde hace años potenciando sus funciones de traducción para ofrecer alternativas fáciles que permitan a los usuarios comunicarse fácilmente con personas de otros países.
Traducir tu voz a otros idiomas
A principios de año supimos de VALL-E, un modelo de lenguaje para la síntesis de texto a voz. Con tan solo unos pocos segundos de grabación de audio, el sistema es capaz de imitar cualquier voz y trasladarla a un audio completamente nuevo. Un modelo que en su desarrollo es funcional con otros modelos de IA, como GPT-3. VALL-E permite esencialmente imitar tanto la voz como su tono, cadencia y demás para emular la voz original en tan solo un paso.
Pues bien, ahora Microsoft ha ampliado VALL-E para que usando esa capacidad de imitar la voz de una entrada de audio, ahora sea capaz de traducir usando esa misma voz. Los investigadores le dieron a VALL-E la capacidad de generar códecs de audio a partir de texto y las indicaciones de audio y ahora la están expandiendo para que los usuarios puedan comunicarse en otros idiomas usando su voz.
Lo más sorprendente no es eso, sino que gracias a las capacidades de VALL-E, VALLE-X también es capaz de emular emociones dentro de la voz, haciendo que el resultado sea todavía más realista. VALL-E X puede sintetizar el habla personalizada "en otro idioma para un hablante monolingüe".
El modelo toma las secuencias "de fonemas derivadas del texto de origen y de destino, y los tokens acústicos de origen derivados de un modelo de códec de audio como indicaciones". VALL-E X puede producir esos mismos tokens en el idioma elegido. Lo más sorprendente es que VALL-EX no requiere datos de habla multilingüe de los mismos hablantes para el entrenamiento, "y puede realizar varias tareas de generación de habla multilingüe de tiro cero, como texto multilingüe, síntesis de voz y traducción de voz a voz".
Los investigadores han publicado dichos avances en una web con demostraciones d todo tipo, con traducciones de un idioma a otro. Por ejemplo, podemos ver cómo un audio de muestra en chino se convierte en un audio completo en inglés, imitando la voz, el tono y las emociones de la voz original, incluso estando en un lenguaje completamente distinto. Lo mismo ocurre de inglés a chino, y viceversa y se ven los ejemplos de control de acentos, mantenimiento de las emociones en la voz, etcétera.