La inteligencia artificial generativa está suponiendo un gran avance tecnológico, y compañías como Open AI, Google y Meta están haciendo grandes avances. En España, ya hay disponibles un gran número de estos modelos que, en ciertos casos, pueden hacer la vida mucho más fácil a muchas personas.
Estos modelos requieren que la IA que los mueve se "entrene" utilizando datos y contenido externo, y este puede ser determinante para su mejora. Sin embargo, este tipo de aprendizaje tiene ciertos límites, como la privacidad de los usuarios o los derechos de autor, y parece que Google, OpenAI y Meta podrían haber ignorado algunas de sus políticas para enseñar a sus inteligencias artificiales, según la información de New York Times.
Este tipo de limitaciones en su aprendizaje sirven para garantizar la privacidad de sus usuarios, pero también por otros motivos. Y es que, este contenido puede albergar sesgos que la IA podría aprender y amplificar en sus respuestas. En este sentido, es importante que se use información o contenido que sea veraz, entrenándola de manera ética y con el consentimiento de los usuarios.
Infracciones del entrenamiento de IA
Todo apunta a que, a pesar de estas limitaciones, algunas de las principales empresas en el segmento de la IA generativa podrían haber cogido el camino rápido para entrenar sus modelos. Y es que, OpenAI habría utilizado Whisper, su herramienta para transcribir audio, para pasar a texto más de un millón de horas de vídeos de YouTube para entrenar a ChatGPT.
Según las reglas de Google, no se permite descargar contenido de YouTube sin autorización, y la propia compañía afirmó no saber nada de lo que hacía OpenAI. Sin embargo, el informe de New York Times recoge que sí que había gente en Google que sabía de esto, y que dentro de la propia empresa también se llevaba a cabo esta práctica de transcribir vídeos para conseguir texto para su IA, algo que podría violar los derechos de autor de los creadores de la plataforma.
Parece que varios empleados de Google estaban al tanto de estas prácticas, según el informe, pero no dijeron nada porque también hacían lo mismo. Denunciarlo habría sido tirarse piedras a su propio tejado. Ya en 2023, la empresa cambió su política de privacidad para ampliar las posibilidades de uso del contenido que se subía de forma pública, incluyendo documentos de Google Docs y Sheets.
Meta no se quedaría atrás, puesto que también habría incumplido sus políticas de privacidad para conseguir contenido con el que entrenar a su modelo. Ahmad Al-Dahle, vicepresidente de IA generativa en la compañía, habría contado a los ejecutivos en conversaciones internas que habían utilizado casi todos los libros, ensayos, poemas e incluso noticias disponibles en Internet.
Estas compañías deben enfrentarse a la escasez de datos o pagar por los derechos de autor. Sin embargo, Sam Altman, director ejecutivo de OpenAI tenía un plan para afrontar esto, basado en datos sintéticos creados por inteligencia artificial que, a su vez, ayudaran a estos modelos a mejorar.