Aunque la inteligencia artificial data de 1956 (cuando este término fue acuñado en la célebre Conferencia de Dartmouth), es desde 2022 cuando esta tecnología ha saltado a la primera plana de cualquier conversación que se precie. El auge de la capa generativa ha democratizado el acceso a la IA, la ha convertido casi en un objeto de culto y, también, ha provocado una fiebre inversora como nunca antes se había visto.

Detrás de los grandes nombres como ChatGPT, LlaMA o Gemini están los modelos de lenguaje largo (LLM, por sus siglas en inglés). Hablamos de modelos de IA entrenados con grandes cantidades de datos textuales (medidos en billones de parámetros) que son capaces de comprender y generar contenido en lenguaje natural. Para lograrlo, usan redes neuronales profundas en una arquitectura conocida como transformers.

Ideados en 2017 por algunos ingenieros como Ashish Vaswani en el paper 'Attention Is All You Need', los transformers incorporan una suerte de mecanismo de atención, por el cual los sistemas son capaces de enfocarse en distintas partes de los textos de forma flexible. En otras palabras: esta idea subyacente es la que ha permitido que los LLM de nuevo cuño (como GPT, BERT, PaLM o LLaMA) sean tan rápidos y precisos en sus respuestas.

[La inteligencia artificial generativa ya no tiene tanto tirón: por qué es una buena noticia para todos]

Los actuales LLM

ChatGPT es el gran exponente de los actuales modelos de lenguaje largo , basado en la tecnología GPT (Generative Pretrained Transformer), desarrollado por OpenAI. La serie GPT comenzó con GPT-2, pero fue GPT-3 el que realmente copó la atención global en 2022, con 175.000 millones de parámetros. GPT-4, lanzado en 2023, es una versión aún más avanzada, capaz de procesar texto y realizar tareas complejas de manera más coherente. Es, además, la misma tecnología que usa Microsoft en su catálogo de productos Copilot.

Por su parte, Google desarrolló dos modelos en paralelo que han acabado confluyendo en su actual solución Gemini. Por un lado, BERT (Bidirectional Encoder Representations from Transformers) que, a diferencia de GPT -un modelo generativo- se trata de un modelo de codificación bidireccional, lo que significa que puede entender el contexto de una palabra en función de las palabras que la rodean, tanto antes como después. Por otro lado, los modelos PaLM (Pathways Language Model), diseñado para manejar tareas multilingües y razonamiento complejo.

A su vez, empresas como Meta han desarrollado modelos como LLaMA (Large Language Model Meta AI), diseñados para ofrecer una alternativa eficiente a los gigantes del mercado, siendo más pequeño pero igualmente potente en ciertas tareas. Y, además, de código abierto, esencial para atraer a la comunidad de desarrolladores y su implantación en multitud de casos de uso industriales.

Sus limitaciones, cada día más evidentes

Hasta aquí, todo suena a historia de éxito, a una revolución sin precedentes. Y, en parte, así es. Pero no podemos obviar las enormes limitaciones que los LLM tienen en su propia concepción y que, a largo plazo, pueden convertir esta tecnología en obsoleta e incapaz de responder a las enormes demandas del mercado. Ya no hablemos de las expectativas depositadas en ella.

"Estamos viendo un gran interés por la inteligencia artificial generativa, pero ya tenemos mucha experiencia para saber que estas modas desaparecen. La pregunta es saber qué quedará cuando esto pase. Mucha de esta tracción se quedará con nosotros, pero no serán las tecnologías de los cuatro grandes de hoy en día", explica a DISRUPTORES Jan Wildeboer, EMEA open source evangelist de Red Hat.

Empecemos por lo más inmediato: el intensivo uso de recursos informáticos que requieren estos modelos tanto para su entrenamiento como para su uso en producción. Por ejemplo, un modelo como GPT-3, con 175.000 millones de parámetros, puede costar millones de dólares en infraestructura de hardware (como las escasas y caras GPU de Nvidia), electricidad y tiempo de procesamiento.

Jan Wildeboer, EMEA open source evangelist de Red Hat. null

Un estudio de OpenAI estimó que el entrenamiento completo de GPT-3 utilizó unos 1.287 MWh de energía, lo que equivale a las emisiones de carbono de más de 500 vuelos transatlánticos. Y no es sólo un problema ambiental: se trata de unas tasas de consumo imposibles de mantener económicamente de cara al futuro, por lo que la sostenibilidad financiera de la misma IA está en juego.

Pero hay más limitaciones a tener en cuenta. Los actuales modelos de lenguaje largo no son capaces de mantener la coherencia a largo plazo en sus respuestas. Cuando se produce una conversación extensa con uno de estos sistemas o se exige un razonamiento complejo, éstos suelen cometer errores de bulto y alucinaciones de toda índole. Y debemos sumar los sesgos heredados de los datos con que han sido entrenados: al basarse en billones de parámetros extraídos masivamente de internet, resulta complicado controlar estos prejuicios y discriminaciones.

Otra razón de peso más la encontramos en las dudas acerca del uso responsable y privado de los datos que emplean estos sistemas. "Llevamos haciendo esto desde hace 15 años. No lo llamábamos LLM, sino machine learning. La automatización es importante, pero en sectores regulados como la banca o el ámbito público, ésta debe ser conforme a la normativa, y no vemos cómo podríamos hacer que un LLM sea conforme, especialmente cuando miramos los grandes modelos. No sabemos qué hacen ni cómo funcionan. Así que no es la herramienta adecuada para ellos", añade Wildeboer.

Además, para hacer un uso preciso a escala empresarial de estos LLM, es necesario realizar un costoso y largo proceso de fine-tuning o reentrenamiento. En un estudio del MIT, se destacaba que el coste y la complejidad de mantener estos modelos actualizados es exponencialmente mayor cuanto más grandes son los modelos.

O lo que es lo mismo: los LLM son insostenibles cuanto más pidamos de ellos.

Cómo escalar la inteligencia artificial

¿Significa todo lo anterior que la inteligencia artificial generativa no tiene futuro? Nada más lejos de la realidad. Lo único que debemos hacer es buscar vías alternativas y propuestas técnicas que no caigan en los mismos errores que sus antecesores de los transformers.

Existen varias propuestas al respecto, pero todas tienen algo en común: es necesario reducir el tamaño de los modelos para que sean sostenibles de cara al futuro. No es nada nuevo: los modelos específicos ya se venían usando desde hace años en multitud de sectores antes de la llegada de los sistemas generalistas. Sin embargo, el reto está en conseguir resultados tan amplios y ambiciosos como los de los LLM sin su enorme base de entrenamiento.

Ahí es donde entra en juego el concepto de 'enjambre': cómo poder aprovechar las capacidades de varios modelos pequeños para que, una vez combinados, obtener resultados comparables a los del actual ChatGPT. También podemos denominarlo como una red de modelos, en la que en lugar de usar un único modelo gigantesco para todas las tareas, se utiliza una red de modelos más pequeños, reduciendo el coste computacional y mejorando la eficiencia. 

"Ya estamos viendo cómo las personas se están organizando a nivel vertical, local y en varios contextos para crear estos modelos. Un gran LLM ya no crece exponencialmente, por lo que necesitamos multitud de ellos y luego ponerles una capa encima que nos permita hacer preguntas y distribuirlas entre estos pequeños modelos especializados", detalla Wildeboer.

La actual carrera por entrenar modelos con más y más datos también carece de sentido, a juicio de este experto. Esta métrica, convertida en el mantra de esta generación de la IA generativa, resulta inútil para el rendimiento a largo plazo de estos sistemas.

"Ya no hay suficientes datos. Ni tan siquiera Google lo consigue. Cuando hizo el proyecto Google Books, escanearon millones de libros. Tienen un enorme archivo de noticias de todo el mundo. Si se tratara de la cantidad de datos, deberían estar perfectamente preparados para crear un modelo increíble que te dé respuestas precisas. Pero no, simplemente no funciona", indica. "Así que hay un problema que sólo puede resolverse si estrenamos un modelo con datos específicos de un dominio, y eso significa que necesitas obtener datos estructurados, y aquí es donde entra la ventaja del enjambre de IA".

A ello hemos de unir otros métodos que también prometen mejorar los puntos débiles de los LLM, como el pruning, la cuantización y el knowledge distillation. Todos ellos mantienen la esencia de los modelos de lenguaje largo, pero permiten reducir el tamaño de los modelos sin sacrificar demasiado su rendimiento. El pruning elimina parámetros innecesarios, la cuantización reduce la precisión de las representaciones numéricas y la destilación del conocimiento entrena un modelo más pequeño para imitar el comportamiento de uno más grande.

Un estudio de Hugging Face mostró que, mediante estas técnicas, se puede reducir el tamaño de un modelo en un 50% o más, manteniendo un rendimiento similar en muchas tareas.

Un potencial a explotar

De acuerdo a un informe de McKinsey, la IA generativa podría aportar entre 2,6 y 4,4 billones de dólares (entre 2,4 y 4 billones de euros) de beneficios a la economía global.

Esto aumentaría su impacto entre un 15% y un 40% a los entre 11 y 17,7 billones de dólares (entre 10 y 16,2 millones de euros) de valor económico que estiman que la inteligencia artificial y el análisis no generativos podrían desbloquear. Su cálculo en 2017 era que la IA podría alcanzar un valor de hasta 15,4 billones de dólares (14 billones de euros).