Andy Jassy, director ejecutivo de Amazon, en la presentación de Alexa+.

Andy Jassy, director ejecutivo de Amazon, en la presentación de Alexa+. Ismael Marinero Omicrono

Software

Así es Nova Sonic, la nueva IA de Amazon que procesa la voz de forma nativa y genera réplicas naturales

La compañía ha lanzado una nueva iteración dentro de su familia de modelos, presentada a finales del año pasado.

Más información: Amazon presenta Alexa+, su nuevo asistente con IA: más inteligente, versátil y mucho más útil en el día a día

Publicada
Actualizada

La total apuesta de Amazon por la inteligencia artificial se ha notado en España, gracias a lanzamientos como la de la reciente Alexa+, que comenzaba a desplegarse de forma incompleta. Ya en marzo, Amazon planeaba el lanzamiento de un nuevo modelo de IA con capacidades de razonamiento muy avanzadas, que se unía a la presentación de Nova, la familia de modelos de IA que estrenaba la compañía a finales del 2024. Precisamente dentro de esa misma familia de modelos, Amazon ha presentado Nova Sonic, un modelo de voz basado en IA para crear sonidos naturales.

Nova Sonic ha sido presentado bajo el paraguas de este panorama de modelos de inteligencia artificial, siendo capaz de procesar voz de forma nativa, además de generar sonidos de conversación naturales. Este modelo, según explica Amazon en un comunicado, unifica la comprensión y la generación de voz en un único modelo, permitiendo conversaciones de voz más realistas, simplificando el desarrollo de raps de voz como los agentes de IA basados en voces y la automatización de llamadas.

Y es que la gran baza de este modelo radica en el enfoque de su desarrollo. El desarrollo de apps para generar voz ha implicado históricamente la unión y gestión de numerosos modelos, entre los que se cuentan modelos LLM para comprender y generar respuestas o modelos de reconocimiento de voz para convertir la voz, valga la redundancia, a texto. Nova Sonic cambia este acercamiento por una arquitectura de modelo unificada que aglutina estas novedades.

El nuevo modelo de IA de Amazon

Esta arquitectura, relata la firma de e-commerce, permite no solo la comprensión, sino la propia generación del habla, sin necesidad de aplicar un modelo independiente a cada uno de estos procesos. Es decir, que en vez de tener que unir las capacidades de varios tipos de modelos para varias situaciones, Amazon ha optado por unificar estos modelos para que este pueda llevar a cabo por sí solo dichas tareas.

Por ejemplo, el modelo puede adaptar la respuesta de voz generada al contexto acústico, como el estilo o el tono, así como a la entrada hablada. Esto da como resultado un diálogo más natural, y a la capacidad de Nova Sonic de comprender ciertos matices del habla humana aplicadas a la conversación (pausas, cavilaciones, etcétera). Incluso es capaz de generar una transcripción de texto del discurso del usuario, para que los desarrolladores usen este texto y así crear agentes de IA para voz.

¿Y qué ventaja tiene esto? El enfoque de usar varios modelos puede complicar bastante la complejidad del desarrollo de estas soluciones de IA. Además, impide preservar los matices y el contexto acústico, como el tono, el estilo, etcétera. Esto provoca que las conversaciones carezcan de esta naturalidad con dichos enfoques. Nova Sonic, promete esta naturalidad gracias a estas capacidades, que se conjuntan con una inferencia ultrarrápida por parte de Amazon.

La clave de Nova Sonic reside en su manejo de los aspectos naturales del lenguaje; comprende y adapta su voz a las pausas, interrupciones y vacilaciones, manteniendo el contexto conversacional en toda la interacción. En las pruebas realizadas por Amazon, Nova Sonic demostró un buen rendimiento tanto en calidad como en precisión, poniéndose a la par de rivales de Google y OpenAi. El modelo, por cierto, está disponible para sus pruebas en Amazon Bedrock.

Por ejemplo, los diálogos de un solo turno en la voz masculina de Nova Sonic (con idioma inglés estadounidense) consiguieron tasas de éxito del 51 y el 69,7% frente a GPT-4o y Gemini Flash 2.0. La voz femenina, por su lado, pasó a tener éxitos del 50,9 y 66,3% respecto a estos modelos, en los mismos conjuntos de datos. Cabe aclarar que Nova Sonic admite tres tipos de voces en inglés, masculinas y femeninas, para generar voces en inglés y en acento británico.

Sin embargo, estas no son las mayores bondades de Nova Sonic. Amazon aclara que el modelo destaca por el uso de herramientas para raps de terceros, que abren enormemente sus aplicaciones, y a su relación entre velocidad y precio. La latencia media de Nova Sonic percibida por el cliente es de 1,09 segundos frente a los 1,18 de GPT-4o y los 1,41 de Gemini Flash 2.0. Todo ello siendo un 80% más barato que GPT-4 en tiempo real.