Tecnología

Desarrollan un sistema automatizado capaz de reescribir oraciones desactualizadas en Wikipedia

13 febrero, 2020 17:15

Invertia | EP

MADRID, 13 (Portaltic/EP)

Un grupo de investigadores han desarrollado una nueva herramienta de generación de texto automático que es capaz de identificar y reemplazar información anticuada con los datos actualizados utilizando oraciones que conservan la gramática y el estilo humano.

Han sido los investigadores del Instituto de Tecnología de Massachusetts (Estados Unidos) quienes han presentado un sistema que es capaz de actualizar automáticamente datos incorrectos o desfasados en los artículos de Wikipedia.

Con este nuevo sistema generador de texto basado en Inteligencia Artificial (IA) se pueden identificar y reemplazar con información específica artículos desfasados manteniendo el lenguaje y estilo que utilizaría un humano.

La idea de este proyecto consiste en que una persona escriba una oración con información actualizada sin preocuparse por el estilo o la gramática.

Posteriormente el sistema buscaría en Wikipedia la página adecuada y la frase desactualizada y la reescribiría de manera humana. En el futuro los investigadores aspiran a construir un sistema totalmente automatizado que identifique y use la información más reciente de Internet para producir estas nuevas oraciones.

Wikipedia ya utiliza otros 'bots' que realizan correcciones automáticas, sin embargo estos trabajan para mitigar el vandalismo o para colocar información específica definida en plantillas predefinidas.

Como señala Darsh Shah, una de las autoras del artículo, "las otras tareas [de los bots] están más basadas en reglas, mientras que esta es una tarea que requiere razonamiento sobre partes contradictorias en dos oraciones y genera un texto coherente".

El sistema toma por un lado la oración desactualizada de un artículo de Wikipedia y por el otro recoge otra oración que contiene la información actualizada. El sistema elimina automáticamente la información anticuada pero mantiene palabras específicas, para después añadir los datos nuevos dentro de la estructura de la frase original.

Este sistema se entrenó con pares de oraciones que estaban etiquetadas de tres formas: 'de acuerdo', 'en desacuerdo' y 'neutral'. La IA tenía que hacer que todos los pares en desacuerdo estuvieran de acuerdo, modificando la oración desactualizada para que coincida con la nueva oración.

Por último, los investigadores descubrieron que este sistema era capaz de eliminar el sesgo gracias al uso de datos aumentados. Los investigadores consiguieron reducir la tasa de error de un detector de 'fake news' en un 13 por ciento.

Más en Tecnología