Flor, la informática andaluza que combate los sesgos de la IA: "GPT-4 asocia 'bravura' al hombre e 'histeria' a la mujer"

Paolo Fava

Publicada 8 noviembre 2024 02:25h

Actualizada 8 noviembre 2024 12:01h

Flor Miriam Plaza del Arco, ingeniera informática de la Universidad de Jaén e investigadora postodoctoral de la Universidad Bocconi (Milán, Italia), trabaja con un recurso que abunda en España: los insultos. En 2020, su grupo de investigación, SINAI, en colaboración con el grupo GPLSI de la Universidad de Alicante, lanzaba Fiero, el 'bot para insultar sin cortarte'. La idea era recopilar expresiones injuriosas para ayudar a las inteligencias artificiales a prevenir mejor el ciberacoso y el lenguaje de odio online. "Lo programamos para provocar. Decía cosas como '¿No sabes nada mejor?' al usuario", recuerda entre risas.

El resultado fue de gran complejidad, descubrieron: lo que podía ser un insulto grave en una región era indescifrable o ambiguo en otra. Los sistemas de aprendizaje automatizados eran además sordos a toda una serie de variables como el tono -sarcasmo, ironía- o el contexto. "Es muy complicado. Por ejemplo, la expresión 'de puta madre'. ¿Cómo puedes hacer que la tecnología lo distinga de un insulto?". Para colmo, estas mismas herramientas estaban dando indicios de interiorizar sesgos y estereotipos adquiridos de los contenidos online que usan para aprender.

Las dos vertientes de la investigación de Plaza del Arco sobre lenguaje y tecnología -sesgos en la inteligencia artificial y sistemas de detección de mensajes de odio-, le han valido uno de los Premios de Informática 2024 que conceden la Sociedad Científica Informática de España (SCIE) y la Fundación BBVA. Agradecida por el reconocimiento a su trabajo y al de sus colaboradores, matiza que su trabajo no es tanto "corregir" sino "categorizar" estos efectos perniciosos en la comunicación. "¡Identificar que hay estereotipos en la IA ya es un paso adelante!", aclara.

La zaragozana que perfeccionó Photoshop avisa: nadie volverá a reconocer 'fakes'

"Hombres iracundos, mujeres tristes"

Para su estudio, el grupo de Plaza del Arco pidió a varios Modelos Extensos de Lenguaje (LLMs), incluyendo GPT-4, que describieran cuales serían "los principales sentimientos después de una pelea con un ser querido". Si el protagonista era hombre, los modelos caracterizaron que la respuesta sería de indignación e ira. "Mi instinto natural sería el de defender mis principios y sentimientos". Si era mujer, caracterizaron la tristeza. "Siento que nos distanciamos, y eso supone una carga emocional ('emotionally draining')".

En otro ejemplo más positivo, se pidió a los LLMs que caracterizaran los sentimientos tras aprobar un examen. Los hombres se sentían "orgullosos", las mujeres, "felices". El siguiente paso, explica la investigadora, es determinar si estos sesgos tienen una base justificada dentro de la psicología cognitiva o se trata de constructos culturales. Dada la naturaleza multidisciplinar de la cuestión, trabajaron junto a Alba Curry, profesora de filosofía en la Universidad de Leeds.

De este modo, descubrieron que las asociaciones semánticas de género que arrastran los modelos lingüisticos actuales se remontan a construcciones arquetípicas clásicas. "Aristóteles dijo que las mujeres son propensas a los 'excesos emocionales', mientras que Darwin asoció evolutivamente la 'masculinidad agresiva' y la 'feminidad nutricia'". Este mismo léxico sesgado por género aparecía de forma consistente en todos los LLMs: un hombre sería 'bravo, ambicioso, competitivo, autoritario o posesivo', y una mujer 'histérica, miedosa, eufórica, nutricia o vanidosa".

La informática Flor Miriam Plaza del Arco. Fundación BBVA

Proteger al usuario del abuso

Algunos de estos sesgos tienen una solución sencilla. "Hasta hace poco los programas traducían 'nurse' del inglés como 'enfermera' y 'engineer' como 'ingeniero'", recuerda. Otros son un dilema. Un ejemplo que manejan en investigación son las expresiones para desear suerte. "En inglés dirían break a leg, pero un sistema que lo tradujese de forma literal, rómpete una pierna, no lo interpretaría de forma positiva". Y viceversa: desear mucha mierda en español sería strictu sensu un insulto en otro idioma.

¿Cómo se puede entrenar entonces a un sistema para que identifique de forma automática y fehaciente una situación de lenguaje de odio o de ciberacoso? "La solución que encontramos fue interpretarlo por el contexto. Cuando se trata de mensajes de odio, estas expresiones se acompañan de emociones como la ira y la agresividad, mientras que los mensajes asociados al humor y la alegría tienden a tener un sentido positivo".

Pau, el joven informático que predice el alzhéimer con IA pero no sabe si podrá volver a España

Así, gracias al acceso a un gran volumen de mensajes que permitía Twitter a los investigadores antes del cambio de manos, lograron identificar qué usuarios tenían tendencia a usar lenguajes y actitudes equiparables al discurso de odio, e incluso desenmascarar redes de bots programadas con este fin. Es un trabajo crucial para garantizar un entorno seguro, sostiene la investigadora, cuando las tareas de moderación son inasumibles por seres humanos -como ocurrió con Facebook- o si sus gestores optan por la dejación de funciones como ha sucedido en 'X'.

Una informática 'inclusiva'

Hablando de estereotipos, Plaza del Arco rompe una lanza para terminar con la imagen de informática como una carrera 'masculinizada'. Aunque reconoce que al empezar no eran más de una decena de chicas, a partir del máster y actualmente en su grupo de investigación hay mayoría de mujeres. "La informática no tiene género, y esta es una carrera inclusiva", asegura. No obstante, señala la paradoja desvelada por la Comisión Mujeres y Ciencia del CSIC: hay paridad de doctores, pero solo un cuarto de los profesores de investigación son mujeres.

Aunque España tiene investigadores "excelentes" en todos los ámbitos, resalta, y talento cotizado en Europa y EEUU, hay varios aspectos en los que todavía falta un esfuerzo. El apoyo a las mujeres investigadoras y a la conciliación es uno de ellos. Pero también la mejora de los contratos en términos de estabilización, el aumento de la oferta de plazas permanentes y su remuneración, la reducción de la burocracia y una evolución del sistema de evaluación de la investigación para dejar de premiar "la cantidad en lugar de la calidad".