Desde que modelos como ChatGPT, DALL-E o Stable Diffusion aparecieran en España y en el resto del mundo, la inteligencia artificial ha comenzado a vivir su época dorada. Generar imágenes a través de texto, crear contenido escrito con tan solo una simple pregunta y muchas más cosas nacidas de esta tecnología que aún se está explorando. Google vuelve a la carga con un nuevo modelo de IA, esta vez para generar música siguiendo una descripción de texto, tal y como recogen en TechCrunch.
El sistema, apodado MusicLM, es descrito en un artículo académico como un modelo "que genera música de alta fidelidad a partir de descripciones de texto". Por ejemplo, podría generar música a través del siguiente comando: "una relajante melodía de violín respalda por un riff de guitarra distorsionado".
Google asegura que MusicLM se "puede condicionar tanto en texto como en melodía, ya que puede transformar melodías silbadas y tarareadas de acuerdo con el estilo descrito en una leyenda de texto". Incluso puede usar como referencia descripciones generadas por los propios usuarios y recibir los resultados esperados.
La IA de Google
MusicLM se sustenta en un entrenamiento intensivo que ha aportado al modelo casi 28.000 horas de contenido musical. Google destaca enormemente su capacidad de ser versátil respecto a la generación de música de todos los tipos de géneros y capacidades. Se pueden crear, según lo que se establece en la web de MusicLM, desde bandas sonoras para juegos hasta fusiones de géneros, mezclando sonidos tan dispares como el dance y el reggaetón.
La variedad de los comandos que podemos ver en los audios de muestra de la página web es apasionante. Podemos ver audio generado desde comandos elaborados, con creaciones largas que pueden llegar a varios minutos de duración e incluso melodías con una base de historia. En este último caso, el audio es generado "proporcionando una secuencia de mensajes de texto", influyendo en cómo el modelo "continúa los tokens semánticos derivados de la oración anterior".
Otro ejemplo es el texto y la melodía con un acondicionamiento consistente y coherente. Por ejemplo, al agregar incrustaciones de melodías al condicionamiento del modelo, este puede generar música "que respete el mensaje de texto mientras sigue la melodía proporcionada". Es posible empezar con una orientación específica pero luego completar la generación del audio con otras orientaciones con cuestiones como la instrumentación o detalles musicales concretos.
El modelo es capaz, incluso, de crear melodía en base a descripciones de cuadros famosos de pintores como Heni Matisse o el propio Salvador Dalí. A partir de descripciones sacadas de académicos, webs especializadas o incluso de páginas de Internet como la Wikipedia, se generan melodías que, aunque en algunos casos suenen extrañas, van en consonancia con lo que transmite la obra.
Desgraciadamente, no es oro todo lo que reluce. Y es que un cierto porcentaje (del 1%, para ser exactos) de las melodías generadas por MusicLM estaban generadas a partir de canciones y sonidos ya existentes que fueron usadas para entrenar al modelo. Así lo descubrieron los propios investigadores mientras estaban realizando pruebas.
Y es que esto podría generar a su vez problemas serios referentes al contenido protegido por derechos de autor, así como entrar en otros debates y cuestiones problemáticas que van ligadas a la creación de contenido artístico por parte de una inteligencia artificial. A esto se le suma que MusicLM sigue teniendo ciertos problemas en generar ciertas melodías, especialmente en lo que a voces se refiere.
Es por ello por lo que al menos por el momento, Google no lanzará de forma comercial MusicLM. La posibilidad no está del todo cerrada, y es probable que en un futuro, cuando se pulen las asperezas técnicas del modelo, se pueda lanzar sin demasiados problemas. Por ahora, es imposible probar sus capacidades de forma individual; solo es posible acceder a las muestras de su web.