La tecnología que hoy es ficción mañana puede ser realidad y además suponer una revolución impactante. Es lo que ha sucedido con los LLM (Large language models, y el más famoso ChatGTP) que han acercado la Inteligencia Artificial a todo el mundo, creando un caso de uso con valor para la inmensa mayoría de usuarios. Pero esta tecnología viene de hace mucho. Se han requerido al menos cuatro pasos muy concretos desde los años 60 para que a finales de 2022 explotase la IA generativa del lenguaje. Los repaso brevemente.
El primero de los escalones son las redes neuronales. Algoritmos de aprendizaje automático diseñados para imitar la manera en que el cerebro humano aprende y procesa información. La idea básica (almacenamiento de datos con pesos en ecuaciones) fue propuesta en los 40.
En los 80 se enriqueció el concepto con algoritmos de retropropagación que permitían entrenar redes multicapa de manera efectiva. Desde entonces, la investigación y la aplicación de las redes neuronales han avanzado rápidamente, añadiendo más capas, más datos… hasta el punto de que en las redes modernas (después de meses procesando) es difícil saber qué aprende y cómo. Resulta un misterio identificar cómo es capaz de ver patrones complejos y hacer predicciones precisas a partir de grandes volúmenes de datos.
Una vez se disponía del algoritmo, el segundo de los escalones era poder trabajar con más potencia y “en paralelo”. Esos grandes volúmenes de datos y algoritmos complejos necesitaban de mucha capacidad de cómputo. Esto no lo trajeron solamente los “ordenadores” con sus CPUs (el procesador central), sino las GPU (graphic processing units), impulsadas a su vez por el mundo de los videojuegos. A diferencia de las CPUs tradicionales que procesan una o pocas operaciones a la vez, las GPUs están optimizadas para realizar millones de operaciones simultáneamente. Tienen muchos más “cores” menos potentes en vez de pocos “cores” más potentes.
Resultaban ideales para pintar gráficos en pantalla (porque se pueden calcular todos los datos a la vez, sin depender uno del otro). Esta característica fue determinante para acelerar los algoritmos de aprendizaje automático y procesamiento de grandes conjuntos de datos. Con el tiempo, las GPUs han evolucionado, mejorando en capacidad y eficiencia energética. Comenzaron en los 70, pero hasta finales de los 90 no se popularizaron.
Una vez se disponía del algoritmo adecuado y la capacidad de cómputo, el siguiente escalón fue quizás una aceleración que nadie esperaba. Las redes generativas antagónicas o GANs, por sus siglas en inglés. Ian Goodfellow dibujó en 2014 su diseño básico en una servilleta. Estos modelos están compuestos por dos redes neuronales que compiten entre sí: el generador, una IA que intenta crear datos que parezcan reales, y el discriminador, otra IA que trata de distinguir entre los datos reales y los generados por el generador.
Esta dinámica de competencia permite que las inteligencias mejoren rápida e iterativamente hasta que el generador se vuelve tan bueno que el discriminador ya no puede diferenciar fácilmente los datos falsos de los reales. Desde su concepción, el modelo GANs ha revolucionado el campo de la generación de imágenes, audio y vídeo, permitiendo la creación de contenido realista y detallado.
Y el último hito quizás, por ahora, son los Transformers. Se trata de una arquitectura de modelo de aprendizaje profundo que ha revolucionado la manera en que las máquinas entienden y procesan el lenguaje natural. Introducidos en 2017 por Vaswani y otros investigadores en un documento titulado "Attention is All You Need", los Transformers destacan por su mecanismo de atención, que permite al modelo ponderar la importancia relativa de diferentes palabras en una frase, sin tener que procesar el texto en un orden secuencial.
Esto los vuelve muy eficientes para manejar grandes cantidades de datos y para trabajar en tareas donde el contexto de palabras “lejanas” es crucial. En un principio se pensó que los transformes serían útiles “solo” para traducir con mayor eficiencia a otros idiomas y pocos supieron ver su potencial en la inteligencia artificial generativa de lenguaje, hasta hace relativamente poco. Actualmente son la columna vertebral de muchos sistemas de inteligencia artificial modernos que requieren procesamiento del lenguaje a gran escala.
Y así, recopilando toda la información generada en internet y procesada por un LLM, se acercó la IA a los usuarios y se ha revolucionado para siempre la manera de comunicarnos con los ordenadores y la forma de generar ideas. Porque hasta ese momento, las IAs ya eran muy inteligentes, pero nos costaba comunicarnos con ellas de forma natural, tanto en un sentido (proporcionarle información de qué queremos) como en otro (generar contenido en un lenguaje que todos entendiésemos). ¿Qué viene después? ¿Qué hito supondrá un nuevo salto en el paradigma?