
IA con emoticonos que reflejan emociones
En el último trimestre de 2024 y en los primeros meses de 2025 estamos asistiendo a una nueva evolución de la Inteligencia Artificial generativa, en concreto, en el campo de los modelos de lenguaje. Nos encontramos en un punto incipiente de los modelos de lenguaje razonadores similar al punto en el que nos encontrábamos con los primeros modelos GPT hasta el lanzamiento de ChatGPT.
Inicialmente se trató de mejorar el aprendizaje y la calidad de las respuestas aumentando el tamaño de los modelos de lenguaje (hasta alcanzar incluso trillones de parámetros). Pero hemos visto que esto no es suficiente en tareas más exigentes como son las matemáticas y, en general, trabajos que requieren mayores necesidades de razonamiento.
Una alternativa para mejorar la calidad de los resultados, que se ha observado tras los primeros usos y experimentaciones reales con los modelos de lenguaje, consiste en pedir al modelo que razone paso a paso su respuesta. De este modo, se consigue una lista de acciones o pasos a seguir para realizar la tarea propuesta.
Los modelos de lenguaje funcionan de manera autorregresiva, lo que significa que generan cada respuesta a partir de las palabras y frases introducidas previamente. Esta secuencia de pasos lógicos permite obtener resultados más precisos en tareas que requieren un mayor nivel de razonamiento.
A este funcionamiento se le ha denominado “cadena de pensamiento” (CoT por sus siglas en inglés, Chain of Thought) y permite a los modelos del lenguaje:
-
Dividir problemas complejos en problemas más sencillos (pasos intermedios de la cadena de pensamiento).
-
Entender los pasos seguidos por el modelo hasta llegar a su respuesta, lo que permite localizar y corregir los pasos incorrectos del proceso de razonamiento.
-
Mejorar los resultados en problemas matemáticos, razonamiento lógico, ciencia y programación.
-
Incorporar las cadenas de pensamiento a los grandes modelos de lenguaje es un proceso relativamente sencillo mediante técnicas de aprendizaje por refuerzo, o Reinforcement Learning. Mediante este proceso se pueden mejorar las cadenas detectando los pasos incorrectos y retroalimentando al modelo para aprender a crear mejores cadenas.
De esta manera, se ha conseguido que los modelos se tomen un tiempo inicial dedicado a pensar esas cadenas antes de lanzarse a generar la respuesta. Este es un modo diferente de actuar a como venían haciendo los modelos de lenguaje, los cuales se lanzaban a responder antes de “razonar” su respuesta.
Los primeros modelos en presentarse bajo este nuevo paradigma fueron los modelos o1, en septiembre de 2024, por parte de OpenAI. Según la información proporcionada por parte de la compañía sabemos que cuanto más tiempo dedique la IA a entrenar cómo se crean las cadenas de pensamiento y cuanto más tiempo dedique a pensar (generar las cadenas de pensamiento) su respuesta será mejor. Google también presentó su familia de modelos razonadores, con Gemini 2.0 Flash Thinking a la cabeza.
Pero sin duda, quien ha conseguido agitar el mercado ha sido la compañía China DeepSeek, que en enero de 2025 presentó su modelo de lenguaje razonador llamado R1 con resultados similares a los obtenidos por OpenAI, pero con menos recursos y, por lo tanto, a un coste significativamente inferior, lo que pone en entredicho la creencia de que estos modelos requerirán cada vez mayores infraestructuras y más costosas. Más recientemente OpenAI ha presentado una nueva familia de modelos razonadores, o3, los cuales no sólo superan a la competencia, sino que también son más económicos y rápidos.
Aunque estos modelos han presentado avances significativos, aún presentan grandes desafíos. El principal reto radica en enfrentarse a problemas completamente nuevos, para los cuales no han sido entrenadas sus cadenas de pensamiento, y en ampliar así sus capacidades de generalización.
Como comentaba al principio, nos encontramos en un momento de redefinición de los grandes modelos de lenguaje.
***José Manuel Rodríguez es profesor de Afi Global Education.