Dentro de nada no podremos creernos nada de lo que vemos, gracias a avances en Inteligencia Artificial capaces de crear escenas que nunca ocurrieron; pero además, y gracias a la IA desarrollada por Baidu, pronto tampoco podremos creer nada de lo que escuchamos.
Un reciente estudio de los investigadores del gigante chino ha demostrado las capacidades de Deep Voice, una Inteligencia Artificial capaz de clonar la voz; usando dos métodos de entrenamiento diferentes, el sistema consigue captar las partes clave que diferencian nuestra voz de otras, y modificarlas como queramos.
La IA capaz de clonar nuestra voz
El primer método se llama “adaptación del hablante”, y es una técnica más lenta y costosa, ya que requiere información adicional en forma de más piezas de audio que analizar; partiendo de unas pocas muestras, el sistema se calibra a si mismo poco a poco, usando muestras adicionales.
En cambio, el método de “codificación del hablante” es más rápido y por lo tanto, barato en términos computacionales; esto permitiría, por ejemplo, que no sea necesario depender de servidores para ejecutarlo, aunque el resultado final sea de menor calidad. Consiste en entrenar por separado a un segundo modelo, que es el que ofrecerá la información relativa al habla con cada nueva muestra incluida.
Voz original
Voz clonada después de 10 muestras
Voz clonada después de 100 muestras
Ambos métodos ya son más rápidos y de mejor calidad que generaciones anteriores de Deep Voice; hasta el punto de que no solo son capaces de clonar una voz, sino también de otorgarle la misma naturalidad y copiar la manera de hablar que la persona original.
Baidu puede cambiar el sexo y el acento de nuestra voz
Y como el sistema sabe exactamente cuales son los factores que hacen única a una voz, también puede modificarlos para crear nuevas voces basadas en ella. De esta manera, es capaz de convertir la voz de un hombre en la de una mujer, y viceversa; podríamos interpretar el resultado como la manera en la que sonaríamos si nos cambiasen el sexo.
Voz original de hombre
Voz sintetizada de mujer
Deep Voice también trabaja con acentos, distinguiendo entre el británico y el americano e intercambiándolos como sea necesario, por ejemplo.
Voz original con acento británico
Voz sintetizada con acento americano.
Para Baidu, todo esto es especialmente importante para ofrecer atención automatizada especializada. Un solo sistema es capaz de reproducir miles de identidades diferentes con sólo media hora de entrenamiento; así que sería posible entrenar varios sistemas para atención al cliente o para asistentes virtuales, por ejemplo, con voces que nos resulten familiares y adaptadas a nuestra cultura, en vez de la misma para todo el mundo.
Podéis escuchar más ejemplos en la página de Github del proyecto.
Noticias relacionadas
- Tomar curvas peligrosas con la moto será menos peligroso con esta IA avisándonos
- El cofundador de Siri se une al equipo de Sherpa, el asistente inteligente español
- Intel crea un "cerebro" digital con 8 millones de neuronas, imitando a los nuestros
- Encontrar a perros perdidos usando fotos de sus hocicos ya es una realidad en China