Los datos tienen una "presencia abrumadora" en la era digital, de hecho, se calcula que, en 2022, se están produciendo al día 2,5 exabytes. De ellos, "una buena parte" corresponden a los generados por el lenguaje, tanto en texto como en voz, por lo que se hace imprescindible la ayuda de la inteligencia artificial (IA) para su manejo.
Marta Villegas, responsable de la Unidad de Minería de Textos del Barcelona Supercomputing Center, ha explicado durante el foro sobre el Despegue de los Polos Digitales en España organizado por D+I - EL ESPAÑOL que esta relación es un "win-win", ya que el aprendizaje profundo se beneficia de la disponibilidad de la información masiva.
Villegas es una de las impulsoras de MarIA y AINA, dos proyectos dedicados al aprovechamiento del lenguaje natural (tanto en castellano como en catalán) que forman parte del Plan de Impulso de las Tecnologías del Lenguaje (Plan TL), coordinado por la Secretaría de Estado de Digitalización e Inteligencia Artificial (SEDIA).
"Tuvimos la suerte de que la disrupción dentro de nuestro ámbito nos pilló en mitad de la ejecución de este plan", ha contado. "Nos pusimos a reaccionar y conseguir datos en español y el resto de lenguas cooficiales y empezar a generar los primeros modelos".
La responsable de a Unidad de Minería de Textos del BSC ha apuntado que, cuando empezaron con este proyecto, todas las innovaciones en este campo venían respaldadas por el inglés, que disponía de recursos a gran escala, pero el resto de idiomas "se quedaban atrás".
La experta ha precisado que todos los modelos generados a raíz del Plan TL están en abierto, a disposición de la industria y del sector, así como de los actores de investigación, con el objetivo de que puedan desarrollar aplicaciones que sean competitivas en el ámbito internacional.
"De lo que se trata es que las empresas nacionales dispongan de la infraestructura básica para competir a nivel internacional, tanto en aplicaciones en español como en el resto de lenguajes cooficiales", ha señalado.
En este sentido, Villegas ha destacado que el entorno multilingüe que existe en España iguala en una escala menor al ecosistema europeo, lo que supone una oportunidad para las empresas del sector. "Lo que aprendamos en un entorno pequeño como el español se puede extrapolar", ha concluido.
La jornada es organizada por Disruptores e Innovadores (D+I) y cuenta con el patrocinio de Globant, VASS, Hotwire, CaixaBank, Leitat, Tecnalia, Comunidad de Madrid y Ayuntamiento de San Sebastián.