La aplicación de ChatGPT en iPhone Chema Flores Omicrono

Software

Apple examina a ChatGPT y Gemini con problemas matemáticos escolares: "no comprenden el enunciado"

¿Cuántos kiwis tiene Oliver? Investigadores de Apple poner a prueba LLMs con un test escolar para saber si razonan realmente.
Más información: Apple estaría probando hasta cuatro modelos de IA para preparar su revolución para Siri

Marta Sanz Romero

Publicada 15 octubre 2024 09:32h

Actualizada 15 octubre 2024 15:55h

La inteligencia artificial se encuentra detrás de numerosas herramientas digitales. En España se está utilizando para analizar datos en procesos médicos, aunque su uso más conocido son los chatbots como ChatGPT o Gemini que responden a toda clase de preguntas, generan texto e imagen a petición del usuario y cada día parecen ser más inteligentes. Sin embargo, los expertos advierten que sigue siendo necesario revisar el trabajo y respuestas de esta tecnología.

Desde el inicio de esta revolución en 2023 fue muy cuestionado el uso de ChatGPT en escuelas, advirtiendo que podían cometer fallos o alucinaciones. La supervisión humana sigue siendo esencial en el uso de la IA. Un reciente informe presentado por investigadores de Apple demuestra las actuales deficiencias de razonamiento de los principales modelos de lenguaje natural que integran chatbots y herramientas.

Esta investigación plantea que la supuesta inteligencia alcanzada por estos modelos puede estar más cerca de la "comparación sofisticada de patrones" que del "verdadero razonamiento lógico". Para ello, el equipo de investigación ha sometido a los modelos a problemas matemáticos como los que resuelven los alumnos en las escuelas.

Fotomontaje con el logo de Gemini y un iPhone 14 Pro. Manuel Fernández Omicrono

GSM8K (Grade School Math 8K), es lo que equivaldría a la educación primaria en España. El equipo de investigación ha creado un test propio, GSM-Symbolic, para evitar la contaminación de los datos, pues los modelos podrían haber sido entrenados con las preguntas de esta popular prueba académica y saberse ya las respuestas correctas.

El estudio probó más de 20 modelos, incluidos o1 y GPT-4o de OpenAI, Gemma 2 de Google y Llama 3 de Meta. En el estudio no ha entrado OpenAI o1-preview su gran modelo presentado en septiembre como el primero centrado en el razonamiento.Hay que tener en cuenta que todos los modelos examinados son competencia directa del fabricante del iPhone que está trabajando en desarrollar su propia IA, aunque haya llegado a un acuerdo con OpenAI para integrar ChatGPT en Siri como respaldo hasta que sus modelos están al nivel del resto del mercado.

Gráfico test GSM-Symbolic a modelos LLM Apple Omicrono

Este gráfico muestra como decrece en calidad el trabajo de cada modelo examinado al pasar de las preguntas de GSM8K a las inventadas por los investigadores para GSM-Symbolic. El informe asegura que el razonamiento de cada modelo de lenguaje "se deteriora significativamente a medida que aumenta el número de cláusulas de una pregunta".

Para demostrar la fragilidad de su razonamiento lógico, se plantearon problemas matemáticos similares, pero añadiendo detalles superfluos. Por ejemplo, "Oliver elige 44 kiwis el viernes. Luego elige 58 kiwis el sábado. El domingo, elige el doble de kiwis que el viernes, pero cinco de ellos eran un poco más pequeños que el promedio. ¿Cuántos kiwis tiene Oliver?".

EP/NC Omicrono

[Apple tendrá un directivo en la junta de OpenAI tras el acuerdo de Apple Intelligence: así será su papel en la empresa]

Los LLM tendían a restar los cinco kiwis más pequeños de la ecuación sin entender que el tamaño del kiwi era irrelevante para el problema, pues "tienden a convertir enunciados en operaciones sin comprender verdaderamente su significado", dicen los investigadores de Apple.

Más en Software