¿Podrían las máquinas aprender a hablar como lo hacen los seres humanos desde que nacen? Esto es lo que se han preguntado unos investigadores de Nueva York. En contraste con las técnicas de entrenamiento masivo que se han usado con inteligencias artificiales como las que nutren a ChatGPT de OpenAI o Gemini Pro de Google que ya está en España, este experimento ha enseñado a hablar a una IA siguiendo los pasos de un bebé de meses, de una forma más eficiente y consiguiendo una precisión alta.
Los principales modelos de lenguaje natural que en 2023 han revolucionado la industria con herramientas populares en España como ChatGPT o Bard de Google se nutren de un gran número de parámetros, millones en algunos casos. Estudian toda clase de textos extraídos de internet y demás archivos, algo que les ha llevado a tener problemas legales. Estas redes neuronales aprenden así a replicar la forma de comunicarse de los humanos con bastante acierto, aunque sin entender lo que están escribiendo y con un proceso de computación costoso.
Pero así no aprenden los humanos a hablar, desde pequeños las personas observan con detalle el mundo que les rodea y unen los estímulos visuales y auditivos para relacionar palabras y conceptos que su entorno les enseña, hasta estar preparados para repetirlas. Un equipo de investigadores de la Universidad de Nueva York quiso comprobar si era posible entrenar a un nuevo modelo de lenguaje de la misma forma que aprenden los bebés a hablar.
Entrenaron un sistema de inteligencia artificial multimodal a través de los ojos y oídos de un solo niño, utilizando grabaciones de video con cámara frontal desde que el niño tenía 6 meses hasta los 2 años. El experimento, publicado en un artículo científico para la revista Science demostró que la red neuronal podía aprender una cantidad sustancial de palabras y conceptos utilizando fragmentos limitados de la vida del sujeto. En este caso Sam, un bebé australiano que aprende de sus padres y abuelos en el experimento.
El equipo de investigación analizó el proceso de aprendizaje grabando su vivencia en primera persona con una cámara colocada en un casco para su pequeña cabeza. Las grabaciones se realizaron de forma semanal en esos dos años. Para entrenar a la inteligencia artificial se utilizaron más de 60 horas de metraje, lo que solo supone el 1% de las horas de vigilia del pequeño, pero con esto fue suficiente para avanzar en el uso artificial del lenguaje.
"Demostramos, por primera vez, que una red neuronal entrenada con esta información realista desde el punto de vista del desarrollo de un solo niño puede aprender a vincular palabras con sus contrapartes visuales", dice Wai Keen Vong, científico investigador del Centro de Ciencia de Datos y la Universidad de Nueva York y primer autor del artículo. El modelo ha conseguido un nivel de precisión del 61.6%.
En esas 60 horas de grabación había un cuarto de millón de palabras que el pequeño había recibido de su entorno, muchas eran repeticiones de algún término. Estas estaban vinculadas a los fotogramas con actividades diferentes que había realizado el bebé como horas de comida, la lectura de libros y juegos.
El resultado ha sido una red neuronal multimodal con dos módulos separados: uno capta fotogramas de vídeo y llamado, codificador de visión, encargado de captar el habla dirigida al niño, un codificador de lenguaje. Esta inteligencia artificial ha sido examinada de la misma forma que se haría con un niño pequeño, presentándole el objeto a nombrar y dándole varias opciones.