En París veneran a Yann LeCun, atribuyéndole directamente la paternidad de las redes neuronales convolucionales (una técnica avanzada de deep learning) y como gurú nacional de la inteligencia artificial. En 2018 ganó el premio Turing, junto con Geoffrey Hinton y Yoshua Bengio. Desde entonces se les conoce como los padrinos de la IA.
Pero sus compañeros de premio comulgan ahora con esa tendencia de expertos que ven en la inteligencia artificial una amenaza para la raza humana. LeCun discrepa de ellos y no se la imagina tomando el control del planeta: “Sólo es una proyección de la naturaleza humana sobre las máquinas”.
LeCun es el jefe científico de inteligencia artificial de Meta (antes Facebook). Trabaja en Nueva York como consecuencia de un pacto directo establecido durante la cena en la que "Mark" [Zuckerberg] le fichó para Facebook, a finales de 2013. “Irme a San Francisco no me apetecía. Está muy lejos”, dice.
Para unirse a la compañía, LeCun puso varias condiciones. Una, importante, la de no moverse de Nueva York, donde ya desarrollaba sus investigaciones; otra, gestionar su trabajo en inteligencia artificial bajo criterios de código abierto.
D+I tuvo oportunidad de escuchar, acercarse al genio y preguntarle algunas cosas, durante dos jornadas en París.
Primero, en el ‘Día de la Prensa’ del centro FAIR (Fundamental AI Research) Hub de Meta, que él mismo impulsó en la capital francesa hace ocho años. Una charla en la que explicó su visión sobre la IA, de la que afirma que "la verdadera inteligencia todavía no se ha inventado".
En la segunda jornada, LeCun asistió al primer día del festival VivaTech. Allí fue estrella invitada para una especie de mesa redonda, en la que tuvo que aguantar con una sonrisa de cortesía las arremetidas de un oponente identificado como futurista, Jacques Attali.
Un mundo de amenazas
Attali predica un mundo preñado de ominosas amenazas apocalípticas (cambio climático, superpoblación, enfermedades, tecnología).. y llegó a decirle a LeCun que está trabajando para "una industria de muerte".
El experto de Meta aprovechó sus turnos de palabra para describir la esencia de sus ideas sobre el desarrollo de la tecnología inteligente. Mientras tanto, el agorero se quedaba con cara de ajo, viendo que ninguna de sus intervenciones recibía el menor aliento de un público que llenó a rebosar el principal auditorio de VIVA.
De esas ideas que guían a LeCun merecen destacarse algunos puntos clave: primero, que los modelos de lenguaje de gran tamaño (LLM), como ChatGPT y LaMDA/Bard, que han conquistado la imaginación popular, carecen de sentido común. No razonan.
Se puede conseguir gran eficacia con modelos en entrenamiento más pequeños, embebidos (joint embedding architectures, lo llama), capaces de trabajar con datos de texto, sonido, imágenes y vídeo. Son sistemas IA que pueden incluso ejecutarse en un ordenador portátil.
El objetivo futuro, el próximo paso, es conseguir "que las máquinas razonen como humanos", anuncia. Incluso está convencido de que la IA nos superará, sólo es cuestión de tiempo. Pero advierte que "no será mañana".
“Ocurrirá” y "supondrá un renacer de la humanidad, como pasó con la imprenta o internet", sentencia.
Únase a estos criterios su convencimiento de que el camino debe ser la investigación abierta, colaborativa y transparente. Y dos respuestas directas a preguntas de este periódico: no tiene, ni se lo plantea, patente alguna sobre sus desarrollos. Y, sí, LeCun cree que un futuro, probablemente no lejano, cada uno podrá poseer una IA personal, igual que ahora tenemos un móvil o un ordenador.
"Sin duda", asevera, "es el futuro". Una IA propia, capaz de asistir de manera personalizada en todo lo que necesite el individuo, preservando privadamente sus datos y ofreciéndole protección y ayuda en el mundo digital.
Siete centros de investigación
"Tenemos siete centros de investigación entre Norteamérica, Europa e Israel. Y el de París es uno de los más grandes", explica complacido LeCun, subrayando que la sede parisina reúne, además de ingenieros y científicos profesionales, una treintena de brillantes estudiantes de doctorado, que suelen cumplir un periodo de tres años hasta su titulación. Esto genera "un gran efecto en el ecosistema de Francia. A algunos los contratamos, otros crean startups o trabajan para otras compañías".
"El futuro es de lo que quiero hablar. Realmente nunca me interesa mucho el presente. Y si alguna vez surge algo interesante, siempre trato de encontrar en qué falla", prosigue, para entrar en materia. "El objetivo es conseguir máquinas que sean tan inteligentes como los humanos, o más. Es un desafío técnico y también científico, porque plantea la cuestión básica de definir qué es una inteligencia humana y cuáles son los aspectos que podemos reproducir en una máquina. Para eso tenemos al grupo de neurociencia…".
[Javier Oliván, el aragonés que acompañará a Mark Zuckerberg en la ambiciosa reconstrucción de Meta]
Hace un año LeCun publicó una propuesta titulada “IA orientada a objetivos” (Objetive-Driven AI), para incitar a la búsqueda de esa inteligencia capaz de aprender, recordar, razonar, planificar, tener sentido común y, además, ser orientable y segura.
Una de sus ideas es una nueva arquitectura, para superar ciertas limitaciones de los modelos LLM. La objeción que les plantea es que, si bien "con aprendizaje supervisado" pueden ser entrenados para desarrollar una tarea concreta, eso requiere un entrenamiento con enorme cantidad de ejemplos. Y si se aplica un "aprendizaje reforzado", hace falta "una locura" de entrenamiento.
Errores estúpidos
"Eso funciona para jugar”, dice. “El rendimiento con el texto es asombroso. Pueden generar texto predictivo, imágenes, vídeo, 3D, diseñar estructuras de vitaminas…”. Sin embargo, “carecen de sentido común. Cometen errores estúpidos y no son capaces de entender cómo funciona la realidad subyacente, ni de idear un plan complejo, con acciones sucesivas".
Así que, en tono jocoso, afirma que "el machine learning [actual] es una birria [dice ‘sucks’]. Al menos, comparado con las asombrosas habilidades que observamos en los seres humanos y en los animales".
Subraya que un niño pequeño, o cualquier animal, como un perro o un gato, es capaz de aprender con rapidez cómo funciona el mundo a su alrededor y predecir los efectos de determinadas acciones.
“Los bebés comprenden enseguida la diferencia entre objetos animados e inanimados. Intuitivamente tienen noción de cuestiones físicas, como la gravedad y el hecho de que un objeto que se empuja, cae…”, comenta.
LeCun se conformaría por ahora con lograr una IA "tan inteligente como una rata… o un perro", capaz de aprender por observación.
Critica el "entrenamiento autorregresivo" de los sistemas LLM, mayoritariamente aplicado a texto, que sólo les permite responder con los datos utilizados hasta su último entrenamiento, no con información posterior.
Su idea para superarlo, y lograr lo que esos modelos no consiguen, es el "aprendizaje autosupervisado, para rellenar los vacíos [de conocimiento]".
En los laboratorios de Meta esa idea se ha traducido en el proyecto I-JEPA (Joint Embedding Predictive Architecture), descrito en un paper que se presenta esta semana en Vancouver, en la conferencia CVPR 2023, como un nuevo modelo de entrenamiento open source, especialmente con imágenes.
Fácil para los humanos, no para la IA
El tropiezo que observa LeCun es que seguimos chocando contra la paradoja de Moravec: "Las cosas que son fáciles para los humanos son difíciles para la IA, y viceversa".
Ejemplos que ofrece: "Un crío de 10 años aprende en minutos a quitar la mesa y llenar el friegaplatos. No tenemos aún un robot capaz de hacerlo. Un joven de 17 años puede aprender a conducir un coche con 20 horas de práctica. Llevamos años intentado conseguir una conducción autónoma plena de nivel cinco [sin supervisión humana]… Algo importante se nos escapa", concluye.
Él busca respuestas en el modo en que funcionan las diversas regiones del cerebro humano, por eso se apoya en la neurociencia y el aprendizaje autosupervisado "para generar y entender texto, imágenes, sonido, vídeo…", con la capacidad de "predecir contenido y rellenar" agujeros y pérdidas de datos en la información que recibe.
El proyecto I-JEPA hace predicción "abstracta" sobre sus objetivos, sin tener que descender al nivel de los detalles secundarios e irrelevantes de la imagen, con una estrategia de enmascaramiento multibloque.
El entrenamiento se concentra sobre los elementos específicos que desea identificar, en particular para trabajar con imágenes, en usos de vídeo o para visión computerizada.
Por ejemplo, si se trata de conducir un coche, son relevantes los otros vehículos que circulan alrededor, no el movimiento de las hojas de los árboles que circundan la carretera. Su propuesta es eliminar los elementos irrelevantes para establecer una adecuada economía de recursos.
Mapas de bosques
Las ideas del científico se han plasmado en otro proyecto concreto, DINOv2, que utiliza el método de entrenamiento autosupervisado para visión computerizada.
DINOv2 ha elaborado un trabajo de demostración, mapeando bosques en Norteamérica, árbol por árbol, en colaboración con el Instituto Mundial de Recursos (World Resources Institut). Y la conclusión es que parece que se le da bien hacer mapas del mundo real.
El modelo de entrenamiento autosupervisado SEER (SElf-SupERvised) de Meta, para visión computerizada, funciona con imágenes aleatorias. La versión SEER10B, asegura la compañía, entrenada con imágenes no sólo del mundo occidental (como ocurre en muchos casos), sino procedentes de todo el mundo, funciona mejor, con menos sesgos y errores, en identificaciones de género, color de piel y grupos de edad, sea cual sea el origen de los individuos.
Por otra parte, aunque LeCun se muestre poco convencido con los modelos LLM, los laboratorios a su cargo no renuncian a explorar el momento. Del hub de París surge también LLaMA (Large Language Model Meta AI), un LLM diseñado para ayudar al trabajo de sus investigadores.
A LLaMa se le introduce una secuencia de palabras y va prediciendo la siguiente para, de manera recursiva, generar un texto. Ha sido entrenado en 20 idiomas, con alfabetos latinos y cirílicos.
Cuando LeCun habla de estos modelos de IA generativa (en la línea de ChatGPT), explica que son muy buenos con el texto para predecir, completar o traducir. Aunque “el sistema nunca puede pronosticar la palabra exacta que va a seguir. En su lugar, predice una distribución de probabilidad sobre todas las palabras posibles en el diccionario. Y eso es fácil de representar [matemáticamente] porque sólo hay un número finito de palabras en el diccionario”.
“El texto es discreto y hacer una predicción con incertidumbre en un domino discreto es mucho más fácil que hacerla, con incertidumbre, en un dominio continuo como la imagen o el vídeo”, sentencia LeCun.