El diccionario de la RAE entrenará la IA de Microsoft para mejorar su comprensión lingüística
Microsoft y la Real Academia Española colaborarán para entrenar las herramientas de inteligencia artificial del futuro en un uso más correcto del idioma español en todas sus variantes.
30 noviembre, 2021 17:33Noticias relacionadas
La Real Academia Española ha llegado a un acuerdo con Microsoft para potenciar el buen uso del idioma español de España y de los países hispanoamericanos en los algoritmos de inteligencia artificial del gigante tecnológico. La riqueza de este lenguaje se integrará en el entrenamiento de la IA para reconocer mejor el idioma y el sentido con que se usa en aplicaciones como Bing.
"La inteligencia artificial está llegando a la paridad con el ser humano en el reconocimiento del lenguaje", asegura Alberto Granados, presidente de Microsoft en España. "Nos dirigimos hacia la mejora de la comprensión del sentimiento con el que se está diciendo una frase, si el cliente está enfadado, por ejemplo", explica en referencia a los avances que están por llegar.
Esta colaboración se enmarca dentro del proyecto LEIA presentado hace dos años por la RAE y las principales empresas tecnológicas, desde Google hasta Amazon y Telefónica. Microsoft es la primera compañía que ha firmado un acuerdo con la Academia y tendrá acceso al Diccionario de la Lengua Española para utilizarlo en sus servicios y aplicaciones digitales.
Con LEIA se pretende preservar las reglas del idioma español en todas sus variantes dentro de la tecnología. Para Santiago Muñoz Machado, director de la Real Academia Española esto es de vital importancia, "sino se puede producir una fragmentación de la calidad y de la regulación de este idioma dependiendo del criterio de cada tecnológica que usa inteligencia artificial".
En los últimos años, ordenadores, móviles, coches y altavoces inteligentes han empezado a conversar con sus usuarios. De igual manera, el lenguaje se ha convertido en la herramienta clave para que los humanos se comuniquen con servicios de búsqueda en internet o con chatbots que atienden sus dudas. Servicios digitales en los que el dominio del inglés es mayor que el de las demás lenguas. "Queremos potenciar esa versión española de este gran invento revolucionario que va a cambiar nuestras vidas" recalca Muñoz Machado en la presentación del acuerdo.
Para mejorar la comprensión y uso del idioma español en los servicios de Microsoft, la RAE dará acceso a la tecnológica a 375.000 conjuntos de datos que serán actualizados con frecuencia en el futuro para que el proyecto sea dinámico. El buscador Bing, las herramientas de Windows 11 y los servicios en la nube de Office y Azure se nutrirán de ese primer corpus de datos para aprender más sobre el idioma de Cervantes y Pablo Neruda.
Una IA más intuitiva
Granados insiste en que las herramientas de Microsoft democratizan la tecnología, al dar acceso a nuevos recursos tanto a grandes corporaciones como a pequeños empresarios o investigadores. Y pone como ejemplo la utilización de esta tecnología a la hora de enviar un correo.
El presidente de Microsoft hace hincapié en que "la inteligencia artificial no trata de sustituir a las personas, sino complementarlas y facilitar su vida". De igual manera, señala como un investigador podrá beneficiarse de la capacidad de síntesis de esta tecnología al resumir un extenso ensayo científico en pocos segundos.
"La tarea más difícil es sumarizar, resumir es muy complicado para la mente humana, ser breve es mucho más difícil que extenderte horas y horas hablando. Pues los algoritmos ya son capaces de resumir en tiempo real". Junto a este objetivo, Granado remarca otros avances conseguidos como el reconocimiento de expresiones y la transcripción instantánea.
Entre sus esfuerzos por impulsar la evolución de las redes neuronales en las que se nutre este tipo de inteligencia artificial, destaca Megatron-Turing, anunciado hace unos meses. Se trata del "modelo de lenguaje más potente del mundo" para el que se han usado el triple de parámetros que GPT-3. Además, Microsoft colabora con Open AI, creadores de GPT-3, para nutrir con todos los recursos de GitHub a este modelo y que sea posible desarrollar código de programación partiendo del lenguaje escrito.
La RAE educa a la IA
Por parte de la Real Academia Española también hay intención de impulsar mejoras con las que seguirle el ritmo a la evolución tecnológica y acercar los conocimientos de esta institución con 300 años de historia a las nuevas máquinas. Los 375.000 datos que se facilitarán a Microsoft, son solo la pieza inicial del proyecto.
La Asociación de 23 Academias de la Lengua Española planea recoger expresiones, palabras y formas del lenguaje en mayor medida para nutrir a la inteligencia artificial de cualquier compañía que lo solicite. "Uno de nuestros corpus tiene 325 millones de formas con expresiones que incluyen palabras y donde se indica cuál es el contexto en el que se usan correctamente. Pero la inteligencia artificial necesita corpus mucho más avanzados que el nuestro y estamos trabajando en uno nuevo que estará destinado a nutrir esas máquinas con 625.000 millones de formas dentro de poco tiempo" ha anunciado Santiago Muñoz Machado.
Esa ingente cantidad de datos persigue que las herramientas del futuro se comuniquen mejor con las personas y que corrijan sus escritos siguiendo las normas establecidas por la Academia, así como realizar traducciones instantáneas sin caer en la literalidad y ambigüedades que presentan los idiomas. "Dada la importancia que tiene la traducción automática, dentro de poco no importará en qué idioma se suministra la información, porque la traducción será inmediata para acceder al conocimiento desde cualquier lengua, es una especie de demolición de babel", pronostica Santiago Muñoz Machado.