El lanzamiento de ChatGPT pasará a la historia como una revolución en el sector tecnológico, para bien y para mal. OpenAI consiguió demostrar el potencial de la IA generativa, con un ‘bot’ capaz de responder a cualquier pregunta de manera natural y como un ser humano; y eso obligó a todas las tecnológicas a abandonar todos sus proyectos en favor de la IA, como hizo Google con Gemini.
Sin embargo, con el paso del tiempo, la ‘magia’ de ChatGPT y la IA generativa se ha perdido, está provocando más problemas de los que soluciona, y en general, las promesas no están siendo cumplidas. Sam Altman, CEO de OpenAI, ahora afirma que la llamada ‘superinteligencia artificial’ llegará en apenas unos miles de días; pero viene bien recordar que esta no es la primera vez que pone plazos tan poco realistas. Ahora, un estudio, publicado en Nature, de la Universitat Politècnica de València y la Universidad de Cambridge ha revelado el avance real de la IA generativa, y la conclusión es que se está atontando.
El estudio se centró en los llamados LLM (Large Language Models), grandes modelos de lenguaje en los que, como su nombre indica, el tamaño es muy importante. Cuantos más datos, la IA es más precisa y capaz, así que hasta ahora, el principal método para mejorar los LLM ha sido aumentar el volumen de datos, incluso si se obtienen robándolos de otras fuentes; eso se traduce en más recursos computacionales para gestionar y procesar todos esos datos, y más métodos para obtener información de los usuarios (rayando en el espionaje).
Sin embargo, los investigadores afirman que los modelos de lenguaje más grande en realidad son menos fiables, hasta el punto de que pueden tener dificultades para responder preguntas simples que cualquiera sería capaz de responder. Peor aún, en las preguntas más complicadas, que los modelos simples directamente ignoran, las respuestas son erróneas en muchas ocasiones, aunque no lo parecen. Los modelos se centran en ‘aparentar’ que tienen la razón, aunque en realidad no la tengan.
Ese puede ser el motivo por el que ChatGPT, Gemini y otras IA fallan estrepitosamente a la hora de responder preguntas simples o resolver problemas básicos: los modelos más complejos y avanzados ignoran las áreas de baja dificultad, en las que, o bien el modelo no debería fallar, o un humano es capaz de encontrar el error fácilmente. En otras palabras, el funcionamiento de la IA no se ajusta a la “percepción humana de la dificultad de la tarea”.
Cuando compañías como ChatGPT realizan una presentación de sus nuevos modelos, se suelen centrar en demostrar el funcionamiento en tareas de cierta complejidad, lo que sin duda ayuda a convencer a la audiencia de que la IA está avanzando.
En la práctica, aunque ciertamente los modelos pueden resolver tareas complejas para un humano, también fallan en tareas simples, incluso si tratan de lo mismo. Por ejemplo, pueden resolver problemas matemáticos de nivel de doctorado, pero se pueden equivocar con una simple suma.
Los nuevos modelos de ChatGPT, LLaMA y BLOOM, tienen un problema muy curioso: mejoran su rendimiento en tareas de alta dificultad, pero no en las de baja dificultad. Los investigadores también descubrieron que son mucho más propensos a proporcionar respuestas incorrectas; esa puede ser una ‘trampa’ para los usuarios que confían demasiado en estas tecnologías, ya que pueden dar por buenos resultados incorrectos sólo porque han visto que la IA es capaz de resolver problemas difíciles.
En conclusión, los investigadores creen que es necesario un cambio en el diseño y desarrollo de la IA, especialmente para las aplicaciones de alto riesgo, en las que sería catastrófico que la IA respondiese con respuestas incorrectas a problemas simples.