Se buscan donantes de voz para que la inteligencia artificial entienda los 20 dialectos del catalán
La Generalitat crea el proyecto AINA, ya suma miles de voluntarios e iniciará una gira para reclutar más grabaciones en Comunidad Valenciana o Andorra.
11 marzo, 2022 03:04Noticias relacionadas
El Estatuto de Autonomía de Cataluña y el de Baleares refrendan que la lengua oficial de estos territorios es el catalán. Sobre ese idioma común se despliegan una veintena de dialectos que le dan mayor riqueza lingüística.
Esta cifra de dialectos, según algunas voces en territorio catalán, debería ampliarse a los 25 para incluir las diferentes variantes del valenciano. Pero oficialmente, el idioma valenciano no está considerado un dialecto del catalán, ya que el Estatuto de Autonomía de la Comunidad Valenciana lo considera lengua propia.
Con todo, estas disquisiciones geopolíticas no vienen al caso, aunque de alguna forma se relacionan en un proyecto tecnológico impulsado por la Generalitat de Cataluña. Lo explicaremos.
Pero primero presentemos la iniciativa. Hablamos de AINA, un plan para que la inteligencia artificial no sólo hable y entienda el catalán -eso ya lo hace- sino que lo aprenda de forma constante y, de esta forma, sea cada vez más perfeccionista.
Es como convertir a un sistema tecnológico de asistencia por voz en un alumno en constante estado de aprendizaje. Cuanto más estudie, mejor servicio nos prestará.
Por eso es tan importante el matiz de los dialectos. Y máxime si hay tantos dentro de un mismo idioma.
¿Nos entenderá la Alexa catalana si le pedimos, en su idioma, que nos diga cuál es la mejor ruta para llegar a Lleida? Seguro que sí. ¿Y si es un ciudadano de Lleida el que se lo pide? Pues es posible que no, porque la variante leridana del catalán convierte esa última 'a' de Lleida en una 'e' ('lleide', se pronunciaría).
'Nuestra lengua es tu voz'
El párrafo anterior sirve como ejemplo para medir la importancia que tiene el aprendizaje al que debe estar sujeto la inteligencia artificial basada en asistentes por voz cuando entran en juego variantes dialectales.
El proyecto AINA se enfoca precisamente a ello. Y lo hace mediante un novedoso sistema de 'donantes de voz'. Cualquier ciudadano de Cataluña puede acceder a la web del proyecto y grabar su voz -con sus peculiaridades innatas-.
No se trata de que el donante fuerce su dicción para que sea lo más normativa posible sino de que hable como lo hace normalmente. Sólo así se va a conseguir entrenar de una manera eficiente a la máquina. Sólo así habrá más opciones de que, cuando un ciudadano catalán recurra a esta tecnología de asistencia por voz en su dialecto, la comunicación no tenga problemas de fluidez.
El claim del proyecto -'La nostra llengua és la teua veu' (nuestra lengua es tu voz)- no deja lugar a dudas sobre su objetivo. "Si queremos que las máquinas nos entiendan cuando hablamos en catalán y nos respondan en nuestra lengua, hace falta que primero la entiendan. Por eso se tienen que conseguir millones y millones de horas de voz en catalán de personas de todos los géneros, edades, variedades dialectales y registros. Personas como tú", se explica (por supuesto, en catalán) en la web de AINA.
La voz de los donantes, según explican los impulsores de la iniciativa, "nos ayudará a construir el diccionario oral de catalán que toda máquina necesita para aprender nuestra lengua". Además, añaden que "esta base de datos podrá ser utilizada por todas las compañías tecnológicas".
La finalidad: "Enseñar a las máquinas a hablar en catalán y ayudar a salvar nuestra lengua en el ámbito digital".
AINA superó en sólo 10 días desde su puesta en marcha los 20.000 donantes de voz. El departamento de la Vicepresidencia y de Políticas digitales y Territorio y el Barcelona Supercomputing Center, impulsores del proyecto, se habían marcado llegar esta cifra a lo largo de todo el 2022.
Según los impulsores del plan, actualmente ya hay más de 300.000 grabaciones –frases leídas- y 500 horas de grabaciones realizadas.
La polémica valenciana
La campaña va a encarar esta primavera una segunda fase, que va a consistir en una gira por los territorios de habla catalana.
Habíamos sugerido al principio esas disquisiciones y polémicas que enfrentan a quienes defienden que el valenciano es un idioma propio y quienes lo consideran un dialecto del catalán.
Pues bien, pese a que el Estatuto de Autonomía valenciano es muy claro al respecto, los dirigentes políticos catalanes han incluido al territorio valenciano en esta gira de captación de donantes de voz.
Baleares -que sí reconoce el catalán como lengua oficial- y Andorra son otros de los territorios que formarán parte de esta gira con la que se pretende seguir aumentando este corpus de pronunciación catalana.
La gestión idiomática encaminada a entrenar a los sistemas de inteligencia artificial es algo por lo que no sólo Cataluña está haciendo esfuerzos. La pasada semana el Gobierno presentó oficialmente un PERTE encaminado precisamente a perfeccionar esta cuestión tomando como base el español.
La vicepresidenta Nadia Calviño, cabe recordar, también mencionó que este PERTE incluirá también proyectos encaminados a la promoción en el ámbito digital de las lenguas cooficiales. Entre estos proyectos mencionó AINA, impulsado desde la Generalitat de Cataluña.
Otro proyecto que se está llevando a cabo en la actualidad es, por ejemplo, el proyecto LEIA, impulsado por la RAE con el apoyo de las grandes tecnológicas (Telefónica, Google, Amazon, Microsoft, Facebook o Twitter, entre otras).
Esta colaboración implica que estas compañías se comprometen a utilizar los materiales de la RAE (diccionarios, gramática, ortografía...) en el desarrollo de sus asistentes de voz, procesadores de texto, buscadores, chatbots, sistemas de mensajería instantánea, redes sociales y cualquier otro recurso, así como a seguir los criterios sobre buen uso del idioma aprobados por la Real Academia Española.
El otro gran proyecto ya existente en nuestro país es conocido como MarIA, en esta ocasión fruto de una alianza entre el Barcelona Supercomputing Centre, IBM, el gobierno central y la Biblioteca Nacional.
En esta ocasión, se buscaba desarrollar un sistema de inteligencia artificial experto en comprender y escribir la lengua española. Para ello, el sistema fue entrenado con archivos de la Biblioteca Nacional de España (se utilizaron 59 terabytes del archivo web de la institución) usando la tecnología del superordenador MareNostrum.