Hacer que la inteligencia artificial 'piense' en español: una eterna aspiración para llegar a 600 M de personas

Alberto Iglesias Fraga @aiglesiasfraga

El anuncio de un PERTE ligado a la lengua española, realizado hoy por el presidente del Gobierno, aspira a convertir nuestro idioma en un activo económico que pueda ser explotado a nivel turístico, cultural pero, especialmente, tecnológico. Y, concretamente, con la inteligencia artificial como principal campo de batalla.

Vaya por delante que la comunidad hispanohablante ronda los 600 millones de personas en todo el mundo. Pese a ello, la mayoría de los sistemas de inteligencia artificial -en especial, los relacionados con el procesamiento del lenguaje natural, como los asistentes virtuales- son entrenados en inglés o en chino. Una vez entrenados en esos idiomas, las grandes tecnológicas simplemente traducen los resultados a las distintas lenguas de los mercados en que operan.

Con ello, se pierde una riqueza en la comunicación muy importante que no se ve reflejada en estos modelos inteligentes. Por lo pronto, cabe recordar que el inglés posee una variedad gramatical más limitada que, con un menor uso de preposiciones o artículos, lo que puede hacer que los sistemas de inteligencia artificial no ofrezcan la misma precisión al establecer relaciones con un ciudadano en este idioma que en el inglés con que han sido entrenados.

Además, al estar los algoritmos entrenados con personas anglosajonas, tampoco recogen las variantes ni particularidades regionales del español. De hecho, el castellano apenas representa el 30% del mercado mundial de las tecnologías de procesamiento de lenguaje natural.

Puede parecer anecdótico que un asistente virtual cometa un error de vez en cuando por no comprender bien el idioma. Pero lo cierto es que las consecuencias, escaladas a mercados como el 'contact center' o el entretenimiento, pueden ser millonarias en forma de ventas perdidas o clientes insatisfechos. Máxime cuando se tiene a la automatización en el contacto con los consumidores de manera masiva.

"Se trata de incentivar proyectos empresariales ligados a la digitalización (no sólo en el ámbito cultural), donde el uso del español o lenguas cooficiales pueda establecerse como activo dentro del proyecto. De hecho, hay uno de los proyectos en La Rioja cuyo corazón es crear una base de datos lingüística que pueda ser posteriormente explotada por el resto de industrias, ya que con esta base de datos, entrenar un algoritmo de IA de un interfaz conversacional sería mucho más eficaz", explica José Antonio Cano -director de Investigación en IDC- en D+I.

Una laguna que ya se conocía en 2015

Este problema no es nuevo, sino bien conocido por la industria tecnológica española y por el propio Gobierno. De hecho, en la Estrategia Nacional de Inteligencia Artificial -recogida en el componente 16 del Plan de Recuperación, ya se contempla una partida de 28 millones de euros en tres años para el Plan de Tecnologías de Lenguaje Natural.

El objetivo de este plan, que incluye la creación de un centro de inteligencia artificial en español, era claro: dotar de recursos (principalmente a través de la apertura de bases de datos y corpus lingüísticos) a empresas y startups que pudieran investigar y explotar algoritmos en español y promover nuestro idioma en el ámbito de la IA.

Ese plan es el punto de partida sobre el que se sostiene el PERTE anunciado hoy por el Ejecutivo. De hecho, las palabras de la propia Nadia Calviño, vicepresidenta económica, son prácticamente un calco de los propósitos del mencionado plan.

"Queremos que la inteligencia artificial piense en español gracias a un gran corpus lingüístico que pueda ser utilizado por nuevas industrias", ha dicho en Logroño.

Aunque siendo objetivos, lo cierto es que esta necesidad ya se planteaba desde antes de que los socialistas ascendieran al poder siquiera. En 2015, con Mariano Rajoy aún de presidente, el Ejecutivo lanzó el Plan de Tecnologías del Lenguaje, en el que se rezaba literalmente lo que sigue:

"El desarrollo de aplicaciones para una lengua depende de la disponibilidad de tecnología y recursos para esa lengua y en un ámbito de conocimiento determinado. En el caso de España, la disponibilidad de esos recursos para el castellano tiene un nivel parecido al que existe para el alemán o el francés a pesar de tener un número muy superior de hablantes (...) Para garantizar la disponibilidad de aplicaciones en español y lenguas cooficiales es necesario aumentar el número, la calidad, la variedad y la disponibilidad de los recursos y herramientas que les dan soporte".

Quizás por tanto tiempo de espera, la noticia de este PERTE ha sido acogida con satisfacción por parte de gran parte de los actores del sector tecnológico nacional, quienes venían demandando esta clase de propuestas desde hace tiempo.

David Cierco, presidente de la Fundación Alianza Digital 2030 y exdirector general de Red.es, explica a D+I que "combinar el conocimiento de las empresas con el apoyo del Gobierno es muy necesario porque la inteligencia artificial va a ser la gran palanca de transformación de los países en los próximos años. Y ahí el idioma va a ser muy relevante para situarnos en el mapa no sólo por nuestras capacidades tecnológicas, sino en el ámbito del español".

Los proyectos ya existentes

Aunque los detalles del PERTE del español todavía no son conocidos, lo que sí sabemos son los propósitos y esfuerzos realizados hasta ahora por algunas iniciativas público-privadas para la promoción del idioma en la inteligencia artificial.

La más ambiciosa es el proyecto LEIA, impulsado por la RAE con el apoyo de las 'big tech' (Telefónica, Google, Amazon, Microsoft, Facebook o Twitter, entre otras).

En este marco, las tecnológicas se comprometían a utilizar los materiales de la RAE (diccionarios, gramática, ortografía...) en el desarrollo de sus asistentes de voz, procesadores de texto, buscadores, chatbots, sistemas de mensajería instantánea, redes sociales y cualquier otro recurso, así como a seguir los criterios sobre buen uso del idioma aprobados por la Real Academia Española.

El otro gran proyecto ya existente en nuestro país es conocido como MarIA, en esta ocasión fruto de una alianza entre el Barcelona Supercomputing Centre, IBM, el gobierno central y la Biblioteca Nacional.

En esta ocasión, se buscaba desarrollar un sistema de inteligencia artificial experto en comprender y escribir la lengua española. Para ello, el sistema fue entrenado con archivos de la Biblioteca Nacional de España (se utilizaron 59 terabytes del archivo web de la institución) usando la tecnología del superordenador MareNostrum. Según sus impulsores, esta tecnología puede emplearse en predictores y correctores lingüísticos, chatbots, aplicaciones de resumen automático, búsquedas inteligentes, aplicaciones para el análisis de sentimientos o motores de traducción y subtitulación automática, entre otras aplicaciones.

Invertia

Hacer que la inteligencia artificial 'piense' en español: una eterna aspiración para llegar a 600 M de personas

Los algoritmos, especialmente los de asistentes conversacionales, son entrenados en inglés, sin tener en cuenta las particularidades del español.

Una laguna que ya se conocía en 2015

Los proyectos ya existentes