Grabación de voz

Grabación de voz DALL-E El Androide Libre

Aplicaciones

La nueva IA de Meta es capaz de clonar tu voz en segundos, y ya está disponible en España

Audiobox es el nuevo modelo de inteligencia artificial de Meta, y es capaz de generar sonidos a partir de texto, y también de clonar voces humanas.

12 diciembre, 2023 13:40

No es ningún secreto que la inteligencia artificial es una tecnología cada vez más utilizada en muchos ámbitos, y las posibilidades que ofrecen los modelos generativos como Dall-E 3 o ChatGPT, estando este último incluso ya presente en los móviles de Samsung de forma nativa

Ahora, Meta, la empresa propietaria de Facebook WhatsApp e Instagram, ha lanzado un nuevo modelo de IA, pero en este caso, dedicado a la clonación de voces y a la generación de audio. Además, tiene varias condiciones de uso para que no se pueda emplear de forma inadecuada.

Este modelo, llamado Audiobox, ya está disponible en la web de la compañía, y promete una gran fidelidad respecto a la realidad a la hora de generar voces y efectos de sonido. Para ello, puede mezclar tanto ejemplos de voces como indicaciones de texto proporcionadas por el usuario

Así es Audiobox

Esta inteligencia artificial tiene su origen en Voicebox, el modelo anterior que la compañía ya mostró este pasado verano, y que ahora llega de forma mejorada y con un nuevo nombre, además de con más posibilidades. Realmente, como afirma la compañía, no se trata de un solo modelo, sino de una familia de estos.

Para crearlo, se han utilizado más de 160.000 horas de habla, así como música y muestras de sonido para que sea capaz de sacar e interpretar datos. Su uso se puede separar en dos funciones principales: clonar voces de otras personas y generar efectos de sonido. Para ambas, se puede utilizar una grabación humana como modelo, o bien crear una voz.

Audiobox

Audiobox El Androide Libre

Ambos usos se pueden combinar, ofreciendo el usuario tanto una entrada de voz como una descripción de lo que se busca que haga la IA, y los resultados se ajustan bastante a la realidad, aunque no son exactamente iguales que la voz humana. También permite generar voces artificiales utilizando únicamente la descripción. Todo se puede combinar en diferentes canales de audio en la misma grabación, tal como si se estuviera ante un programa de edición.

Sin embargo, hay que tener en cuenta que la compañía ha publicado esta herramienta con fines de investigación, lo cual le permite llevar a cabo una mayor recopilación de datos que si tuviera un uso comercial. De hecho, hay algunos lugares de Estados Unidos donde no se puede acceder porque sus leyes prohíben la recopilación de vídeo, tal como recoge VentureBeat. También hay que señalar que, por el momento, no se trata de una aplicación de código abierto, aunque en el futuro afirman que lo será

Te puede interesar