La apuesta para que la inteligencia artificial hable en vasco: de Itzuli a Latxa
Itzuli es el cajón de herramientas del lenguaje que surgió en 2019 para incorporar la IA a las traducciones, transcripciones y generación de voz.
14 marzo, 2024 12:00En el País Vasco viven 2,2 millones de personas, de las que 1,3 millones tienen conocimientos de euskera en mayor o menor medida, uno de los idiomas más antiguos del mundo y lengua cooficial en esa región. Cómo acercar el vasco al 38% de la población local que no lo domina y subirse a la ola de avances en tecnologías lingüísticas se imponen, por tanto, como imperativos no siempre fáciles de lograr con estas dimensiones.
En esa línea surgió, ya en 2014, un primer intento del Gobierno vasco por lanzar un traductor de euskera a castellano, aunque sin demasiado éxito. Se trataba de una herramienta similar a Google Translate, con demasiados errores y escasa adopción. Empero, la necesidad seguía presente, lo que llevó en 2019 a lanzar una tecnología, esta sí consolidada, de inteligencia artificial aplicada a este campo: Itzuli.
"Comenzamos con el traductor impulsado por IA, para ir evolucionando hacia más herramientas del lenguaje, como conversores de voz a texto y de texto a voz", explica a D+I - EL ESPAÑOL Óscar Guadilla, responsable de Innovación y Vigilancia Tecnológica de la Sociedad Informática del Gobierno vasco (EJIE). "Nuestro propósito era múltiple, desde hacer que se usara y fuera más accesible el euskera para todos los ciudadanos, no sólo del País Vasco, sino en todo el mundo, hasta ayudar con tecnología a los servicios de la Administración Pública. Y, por supuesto, asumiendo que la inteligencia artificial y las tecnologías del lenguaje son un motor económico y queremos que haya más jugadores que las grandes 'tech' a las que un idioma como el vasco no les resulta rentable".
[Inteligencia artificial: la obligada revisión histórica]
En estos momentos, Itzuli permite traducir cualquier texto del castellano, francés o inglés al vasco; así como convertir voz a texto entre vasco y castellano y de texto a voz también en francés e inglés. Su éxito, a ojos de Guadilla, es evidente: 100.000 descargas de la app móvil, 260.000 peticiones diarias (6,7 millones al trimestre) de 35.000 usuarios cada jornada, radicados principalmente en la península aunque con tentáculos en todo el globo.
Inteligencia artificial propia
Óscar Guadilla -quien lleva en la Sociedad Informática del Gobierno vasco veinte de los cuarenta años de vida de este organismo- explica a este medio que, frente a los grandes proyectos de IA que tanto están dando que hablar en este momento, la iniciativa Itzuli fue desarrollada por entero en el País Vasco en un contexto en que no se hablaba tanto de este tipo de tecnologías.
"En 2019 buscamos qué alternativas teníamos en el mercado para poder llevarlo a cabo. Encontramos que uno de los centros tecnológicos que tenemos aquí, Vicomtech, tenía un desarrollo propio que nos encajaba muy bien y, tras una convocatoria pública y varios exámenes, comenzamos a trabajar con ellos", detalla el experto. "También tuvimos que incorporar tarjetas gráficas (GPU) que antes no teníamos en nuestro centro de datos y garantizar que el despliegue fuera 24x7, a prueba de bombas, para lo que decidimos apostar por tecnologías de Kubernetes con Red Hat Openshift".
Por supuesto, todo ello partiendo de una base imprescindible: los datos con los que entrenar estas herramientas de lenguaje. En el caso de Itzuli, se utilizaron documentos de más de 20 años del IVAP (Instituto de la Administración Pública Vasca) y del Departamento de Cultura y Política Lingüística. "Sin el trabajo previo del gobierno por almacenar y cuidar esos datos, no hubiéramos podido llegar hasta aquí", admite Guadilla.
Múltiples usos
Como anticipábamos, los casos de uso de Itzuli y su compendio de herramientas de lenguaje va más allá de traducir un fragmento de texto o buscar el significado de una palabra. Su verdadera magia radica en los usos profesionales que se derivan de todo ello.
Por ejemplo, el Parlamento Vasco está utilizando estas tecnologías para las transcripciones automáticas de los plenos generales. También se usa en las transcripciones y resúmenes de las ruedas de prensa posteriores a las reuniones del Consejo de Gobierno vasco, cada martes. Y, a través de conexiones vía API, administraciones de Navarra, diputaciones, ayuntamientos e incluso el servicio de salud vasco se apoyan en Itzuli para traducir documentos entre castellano y euskera.
Mención aparte merece el empleo de este compendio de herramientas en el ámbito de la justicia. "Al Lehendakari le entendía perfectamente, pero cuando quisimos usar esta tecnología en justicia nos dimos cuenta de que no funcionaba tanto, porque hay momentos de tensión, de lloros y mucho lenguaje espontáneo. Por eso tuvimos que coger contenidos de la televisión pública, en castellano y euskera, para que el sistema pudiera entender mejor esos momentos", concreta Óscar Guadilla.
Latxa: el gran estandarte
Si Itzuli es la joya de la corona en herramientas de lenguaje, no entra en los tan manidos actualmente modelos de lenguaje que posibilitan la inteligencia artificial generativa. Para ello, el gobierno regional cuenta con una línea de trabajo muy intensa con la Universidad del País Vasco que ha dado lugar a su propio LLM: Latxa.
Bajo este nombre (una oveja típica de la región) se esconde una variante del modelo Llama de Facebook, con 70.000 millones de parámetros, específicamente entrenado para traer las mismas bondades que ChatGPT y similares, pero en euskera.
Este modelo, recién liberado, se une a otros muchos avances que la administración está sacando a disposición del gran público, incluyendo las voces sintéticas desarrolladas para sus herramientas de lenguaje (fruto de dos meses y 40 horas de datos procedentes de grabaciones con dos personas). A sumar las imprescindibles mejoras y complementos de lo que supone Itzuli hoy por hoy, como el subtitulado en tiempo real basado en IA (previsto para abril o mayo de este año).