Cómo 'enseñar' a la tecnología a mejorar su nivel de euskera (y de las otras lenguas transfronterizas)
La Universidad del País Vasco, junto con la Zaragoza y Navarra trabajan para que las lenguas pirenaicas se cuelen en los procesos de IA.
30 enero, 2022 04:11Noticias relacionadas
Allá por el año 2018 nacía el proyecto Linguatec. Su objetivo: desarrollar, demostrar y difundir nuevos recursos, herramientas y aplicaciones lingüísticas innovadoras que mejoren el nivel de digitalización del aragonés, del euskera y del occitano, tres de las lenguas transfronterizas que se manejan en el entorno de los Pirineos.
Cuatro años después, la Universidad del País Vasco, junto con otras como la de Zaragoza, la Pública de Navarra y la de Pau (Francia), ha decidido empezar a desarrollar algunos de los procesos que ha ido ofreciendo el citado proyecto en los últimos años.
En concreto, gracias a este acuerdo, las universidades podrán utilizar e implementar las herramientas y aplicaciones tecnológicas desarrolladas en Linguatec durante los próximos cuatro años.
Además, estas instituciones y la fundación promotora de Linguatec, Elhuyar, se comprometen a trabajar de manera conjunta para el desarrollo de proyectos tecnológicos para el euskera, occitano y aragonés en el ámbito de la inteligencia artificial.
Las universidades, que tienen, entre otras, las funciones de creación, desarrollo, transmisión y crítica de la ciencia y tecnología, utilizarán e implementarán dichas herramientas, y colaborarán en la evaluación y mejora de las mismas, así como en la generación de ideas y proyectos para futuros desarrollos que ayuden en una mejora de la gestión multilingüe, inteligente y accesible de las universidades, según explicaba la Universidad del País Vasco en un comunicado.
También colaborarán en proyectos en inteligencia artificial aplicada al lenguaje que ayuden en el desarrollo tecnológico de las lenguas vasca, aragonesa y occitana.
Para llevar a cabo el desarrollo y seguimiento del convenio, se constituirá una Comisión Mixta de Seguimiento, que tendrá como finalidad promover las acciones que permitan cumplir los objetivos y condiciones estipulados en el convenio. La comisión se reunirá con una periodicidad anual.
Los antecedentes
La pasada primavera, concretamente el 18 de junio de 2021, en el marco del Congreso Transfronterizo Linguatec y dado el notable nivel de desarrollo logrado por el proyecto, las instituciones pertenecientes al consorcio dieron un paso estratégico creando una red de excelencia en inteligencia artificial, para crear una infraestructura lingüística transfronteriza.
El convenio que se firma entre universidades es un paso estratégico más en la construcción científico-tecnológico de una infraestructura lingüística transfronteriza inclusiva, multilingüe e inteligente.
Las tecnologías de la lengua son aquellas que tratan de hacer que los ordenadores sean capaces de tratar, entender y reproducir los lenguajes humanos, tanto en forma de textos como en forma de lenguaje hablado.
El desarrollo de estas tecnologías es dispar en las diferentes lenguas de los Pirineos: en un primer nivel de digitalización se encuentran el francés y el español; en un segundo nivel, el catalán y el euskera, que poseen un conjunto significativo de recursos y herramientas digitales, y en el tercer nivel se hallan el occitano y el aragonés, ya que todavía tienen claras lagunas en su desarrollo digital.
Las herramientas generadas
Pero ¿qué herramientas ha desarrollado el proyecto Linguatec en los últimos años? Son muy variadas e interesantes.
Respecto al euskera, el proyecto ha desarrollado una aplicación de reconocimiento del habla que permite, además, su transcripción. También se ha desarrollado un proceso para mejorar la traducción automática del y hacia el español. Y, por último, se ha creado una herramienta para presentar las reglas de la Real Academia de la Lengua Vasca, que incluye también dialectos como el de Iparralde. Este dialecto, por cierto, también tiene su propio desarrollo tecnológico, con un programa de síntesis vocal.
Respecto al idioma aragonés, también se ha procedido a la síntesis vocal, clave para la interfaz de muchos dispositivos móviles. La app Traduze mejora la traducción automática español-aragonés y aragonés-español. Una app multilingüe del Camino de Santiago a su paso por Aragón es otra de las herramientas generadas, que se complementa con una audioguía inclusiva orientada al turismo y la cultura y con el 'Aragonario', un diccionario on line de este idioma.
Por último, en relación con el occitano, se ha recopilado un léxico monolingüe que incluye formas flexionadas y otro bilingüe con una colección de palabras usuales y sus equivalentes en otras lenguas. También se ha desarrollado un análisis morfosintáctico del occitano y un analizador morfosintáctico automático. VOTZ crea una síntesis vocal, ReVOc es una herramienta de reconocimiento del habla y, por último se ha desarrollado un sistema de traducción automática del y hacia el francés.
También se han creado en el marco de este proyecto una serie de herramientas multilingües, como una app de traducción automática entre las lenguas de los Pirineos: euskera-francés, euskera-español, francés-occitano y español-aragonés, disponibles tanto en Google Play como en Apple Store; una barra descargable de traducción automática para sitios web, disponibles en Chrome y Firefox; y, por último, una aplicación de traducción automática para CMS.