Investigadores de Amazon y de la Universidad de Sheffield han puesto a disposición pública a gran escala un conjunto de datos para la extracción y verificación de hechos. Pretenden cubrir, de ese modo, la principal laguna tecnológica para combatir la información falsa en internet.
El almacén de datos verificados, en su mayoría utilizando Wikipedia, alcanza ya las 185.000 entradas y ya se puede descargar, según confirma Arpit Mittal, uno de los desarrolladores de este “almacén” junto a Christos Christodoulopoulos y los investigadores de la Universidad de Sheffield.
Este conjunto de datos podría usarse para entrenar sistemas de inteligencia artificial para extraer información verificable. “Esta tecnología también nos ayudaría a avanzar en los sistemas de inteligencia artificial capaces de responder cualquier pregunta con información verificable”, señala Mittal en su blog de desarrolladores de Amazon.
Las anotaciones que se consideran verdaderas o probadas están generadas “manualmente” por personas que las extrajeron de las páginas de Wikipedia, por ejemplo, mientras que las anotaciones “falsas” se generaron al mutar afirmaciones verdaderas, alterando así el significado. Estas afirmaciones han sido verificadas por múltiples “anotadores”, cada uno de ello es una persona distinta a la que había construido la anotación.
La mayor parte de la información textual se genera como texto en formato libre, pero solo una pequeña fracción está disponible en un formato estructurado (Wikidata , Freebase…) que las máquinas pueden procesar y analizar directamente. El objetivo es mejorar la capacidad de transformar el texto de formato libre en conocimiento estructurado.
Para protegernos contra la difusión de información falsa de fuentes no confiables es preciso trabajar en la verificación de los datos. “No solo es un desafío para las organizaciones de noticias y las redes sociales, sino también para cualquier aplicación o servicio online en el que se realice la extracción automática de información”, incide Mittal.
Además de poner a disposición del público esta confirmación de datos, los investigadores de Sheffield y los desarrolladores de Amazon invitan al resto de la comunidad a abordar este problema. Para ello, se van a celebrar una serie de talleres sobre machine learning, minería de datos, procesamiento de lenguaje natural… para tratar de resolver los problemas que pueden surgir en la extracción y verificación de los hechos.