La importancia de la inteligencia artificial en España ha dado lugar a situaciones un tanto polémicas. Hace muy poco, numerosas investigaciones descubrieron que fabricantes como Nvidia o Anthropic habían usado ingentes cantidades de vídeos de YouTube para entrenar sus IAs. Ahora, una nueva investigación pone el foco en esta práctica, que habría alcanzado cuotas inpensables.
El portal 404 Media ha publicado una extensa investigación que expone cómo Nvidia habría extraído vídeos tanto de YouTube y de varias fuentes para recopilar datos de entrenamiento para sus inteligencias artificiales. No solo eso; chats, correos, documentos y demás comunicación interna planteaban las cuestiones legales que esta práctica implica, y los responsables afirmaron tener la autorización para ello.
En uno de los correos, Ming-Yu Liu, vicepresidente de investigación de Nvidia y líder de uno de los proyectos que usan este sistema de entrenamiento, aseguró que estaban asegurando los recursos necesarios "para construir una fábrica de datos de vídeo que pueda producir datos de entrenamiento por día equivalentes a la experiencia visual de toda una vida humana".
Usando vídeos para entrenar IAs
Toda la investigación se basa en un conjunto de comunicaciones internas que van desde correos hasta chats internos. Además, se le suma un testimonio de un antiguo empleado de Nvidia anónimo, al que se le pidió extraer vídeos de Netflix, YouTube y otras plataformas para entrenar ciertos modelos de IA, destinados a varios proyectos.
Este modelo de IA estaba presente en proyectos como Omniverse, una plataforma de APIs y SDKs para integrar tecnologías de renderizado OpenUSD y RTX en flujos de trabajo con la esperanza de generar entornos y mundos en 3D fácilmente. En concreto, se usaron todos estos vídeos para entrenar un modelo de IA conocido internamente como Cosmos.
Cabe aclarar que este Cosmos no es el mismo Cosmos que actualmente tiene Nvidia; este es un servicio alojado en la nube que permite, precisamente, crear y entrenar modelos de redes neuronales para negocios. Sin embargo, esta variante aún no está disponible en el público general. Los correos internos relatan que se trata de un modelo de última generación para generar vídeo.
En definitiva: los responsables estaban usando estos vídeos para entrenar este modelo e integrarlo en otros productos de Nvidia como GeForce, GROOT o DGX Cloud. Para descargar los vídeos usaban diferentes herramientas como yt-dip, una herramienta para descargar vídeos de YouTube de código abierto. También usaban máquinas virtuales que actualizaban constantemente sus IP para evitar bloqueos por parte de YouTube.
Las cifras son impresionantes: los correos relatan que los responsables del proyecto estaban usando alrededor de 20 y 30 máquinas virtuales en los Amazon Web Services para descargar una media de vídeos equivalentes a 80 años por día. También discutían el uso de otras herramientas como Sora de OpenAI y el potencial uso de películas de Hollywood para incluir metrajes en sus datos de entrenamiento.
Para muestra, un botón. Uno de los mensajes relataba cómo estas películas eran "una buena fuente de datos para conseguir una consistencia en 3D similar a la de los videojuegos y contenido ficticio, pero de mucha mayor calidad". Liu llegó a afirmar que necesitaban "un voluntario para descargar todas las películas".
Dependiendo de las necesidades de entrenamiento que los empleados tuvieran en aquel momento, usaban y calificaban los vídeos de muchas maneras distintas. Por ejemplo, establecieron una base de datos con URLs de los vídeos ya descargados, usando las identificaciones de estos vídeos como referencia.
Es importante destacar que en los términos de uso y condiciones de YouTube no está permitido ni descargar, ni reproducir ni distribuir el contenido de la plataforma. De ahí que las herramientas de YouTube detecten y bloqueen las llamadas herramientas de scrapping o raspado que buscan descargar estos vídeos. También se plantearon el uso de YouTube-8M, un conjunto de datos de investigación de ID de YouTube compilado por la misma Google.
Estas comunicaciones internas dejaron claro cómo los empleados y directivos a nivel interno discutían las implicaciones tanto legales como éticas de descargar estos vídeos y usarlos como datos de entrenamiento. En la gran mayoría de ocasiones, los directivos justificaban este proceso, asegurando que o bien tenían autorización o bien no había consecuencias negativas al no hacer público este entrenamiento de datos.
Las respuestas de YouTube y Nvidia
Nvidia justifica su posición explicando que estos procesos cumplen con los principales preceptos de las leyes de derechos de autor. Un portavoz de Nvidia declaró que estas leyes "protegen expresiones particulares, pero no hechos, ideas, datos o información. Cualquiera es libre de aprender hechos, ideas, datos o información de otra fuente y usarlos para crear sus propias expresiones".
Además, se escudaron en el llamado 'fair use' o 'uso legítimo', siempre que se lleve a cabo "con un propósito transformador, como el entrenamiento de modelos", dijo el portavoz. Por su parte, Google respondió ante este hecho asegurando que sus declaraciones anteriores seguían siendo válidas.
No solo eso. Enlazaron un artículo de Bloomberg con las declaraciones del CEO actual de YouTube, Neal Mohan, en las que expresaba su parecer ante el uso de vídeos de YouTube para el entrenamiento de herramientas como Sora. En ese sentido, Mohan declaró que esta práctica sería una violación de los términos y condiciones de uso de YouTube.