La revolución tecnológica de nuestra época refiere, sin duda alguna, a la inteligencia artificial. No porque sea una tecnología nueva ni mucho menos, sino por sus increíbles capacidades, tal y como han demostrado en España y en el resto del mundo compañías como OpenAI. Ahora, la inteligencia artificial podría ayudar a desentrañar los secretos de nada menos que el primer imperio conocido de la historia de la humanidad, el imperio acadio.
Expertos de la Universidad de Tel Aviv, en conjunto con investigadores de la Universidad Ariel de Cisjordania han conseguido desarrollar un modelo de inteligencia artificial que podría ser capaz de traducir acadio cuneiforme al inglés. El acadio es una lengua semítica que se hablaba en la antigua Mesopotamia y en Oriente Próximo en un período que comprendió el 3.000 a. C. y el 100 d. C. El trabajo ha sido titulado como Translating Akkadian to English with Neural Machine Translation.
El acadio, considerado como el sucesor de la lengua sumeria, se considera una de las primeras lenguas escritas hasta el momento. Los investigadores de Tel Aviv, que han publicado su trabajo en la revista PNAS Nexus, en el que han detallado como su modelo de inteligencia artificial es capaz de traducir textos de acadio cuneiforme al inglés abriendo la puerta a que se desvelen algunos de los mayores secretos de la humanidad.
El acadio y la dificultad
El acadio cuneiforme está basado en uno de los sistemas de escritura más longevos que existen, el sistema cuneiforme. Este sistema cuenta con una trayectoria de más de 3.000 años, y se usó para detallar idiomas como el hitita, acadio o el sumerio. Se usó sobre todo en el área geográfica correspondiente al Próximo Oriente.
El sistema cuneiforme pasaba por escribir sobre tablillas principalmente de arcilla húmeda con una caña afilada. Los textos tanto sumerios como acadios están representados con marcas en las tablillas. Está presente en estas tablillas desde aproximadamente el 2.600 a. C., y permitió dar el salto de la escritura cuneiforme hasta un sistema silábico completo. El acadio antiguo se usó hasta el final del tercer milenio antes de Cristo, cuando fue reemplazado por el asirio y el babilonio mayoritariamente.
En los últimos dos siglos, se han encontrado cientos de miles de textos de acadio cuneiforme, repartidos por todo el mundo en forma de tablillas y restos arqueológicos. Estas tablillas de arcilla sirven para documentar la realidad política, social, económica y científica de la antigua Mesopotamia. El problema es que una buena parte de estos documentos no han sido traducidos.
El porqué es sencillo; no existen suficientes traductores capaces de dominar el acadio para descifrar la ingente cantidad de texto recogido en estas tablillas. De hecho, hay que aclarar que se han recuperado más de medio millón de textos escritos en estas tablillas y aunque muchas de estas ya han pasado por un proceso de digitalización, lo cierto es que esto no ha mejorado demasiado el proceso de traducción.
Esta es una problemática que recoge Gai Gutherz, científico de la Universidad de Tel Aviv, en el medio local Times of Israel. Según Gutherz, traducir estas tablillas es increíblemente importante, ya que "podría exponernos a los primeros días de la historia, a la civilización de aquellas gentes, en qué creían, de qué hablaban, qué documentaban".
A todo esto se le suma que estos textos han llegado a nuestra realidad actual a base de copias grabadas en superficies rocosas o en tablillas tremendamente frágiles incompletas. Algo que dificulta todavía más la traducción si cabe, y que obliga a los pocos expertos que hay en acadio a interpretar el resto del mensaje incompleto.
Un modelo de IA neuronal
El trabajo presentado por Gutherz y su equipo se constituye como un modelo de traducción automática neuronal de última generación. Este realiza traducciones automáticas de textos acadios al inglés a partir de glifos cuneiformes en Unicode y de transliteraciones de signos cuneiformes, y los expertos aseguran que es "particularmente efectivo" para mantener el estilo del género del texto en la traducción.
Esta se constituye como la primera traducción automática neuronal al inglés del acadio. El modelo NMT de traducción está disponible en el GitHub de Akkademia, buscando la mayor accesibilidad posible y la implementación de funciones dirigidas al análisis de textos cuneiformes con métodos computacionales.
Todo este proyecto de traducción de acadio nació en 2020; el propio Gai Gutherz se unió al arqueólogo de la Universidad Ariel Shai Gordin para publicar un artículo científico que recogía un modelo de inteligencia artificial capaz de traducir del cuneiforme acadio a la transliteración del latín. La transliteración es una metodología que sirve para reflejar la forma exacta en la que una palabra determinada se representa en su lengua original.
De esta forma, tanto Gordin como Gutherz (junto al resto de investigadores de ambas instituciones) consiguieron unos resultados increíbles: un 97% de precisión en las traducciones de acadio al alfabeto latino transliterado. Algo sorprendente ya que como apuntan los investigadores en su paper, la traducción del acadio tiene que cumplir unos criterios de equivalencia concretos.
Para desarrollar el modelo de aprendizaje automático actual se valieron a partir de representaciones Unicode de los signos cuneiformes. La traducción a latino transliterado fue un buen primer paso, pero pasar de este idioma al inglés conllevaba sus taras. Y es que este modelo solo permite traducir los símbolos cuneiformes a una sola palabra.
[Uno de los padres de la inteligencia artificial abandona Google y avisa de sus grandes riesgos]
De esta forma se deben mantener las palabras en el mismo orden en el que fueron encontradas. Con el inglés es distinto; es necesario que la inteligencia artificial encadene frases y oraciones completas que tengan sentido, al menos dentro del orden sintáctico del idioma anglosajón.
Pero no era el único problema, ya que los investigadores se encontraron con que no contaban con suficientes datos para entrenar a su modelo, sufriendo de una falta de textos e imágenes de tablas con texto acadio cuneiforme. Eso sin contar que en los 3.000 años en los que se usó el acadio este sufrió de modificaciones, que derivaron incluso en dialectos secundarios. De esta forma, existen símbolos cuneiformes que son distintos entre sí, dificultando todavía más la traducción.
Así, el 90& del material usado para el entrenamiento constó de 50.544 frases en acadio cuneiforme. El 10% restante se dividió; un 5% (2.808 frases) se usaron para la validación del sistema y el otro 5%, también 2.808 frases, se usó para la fase de pruebas correspondiente. Los resultados de esta inteligencia artificial se pasaron por una herramienta de evaluación que dictamina cuán precisas son las traducciones generadas por software, la Best Bilingual Evaluation Understudy 4.
BLEU4 determinó que la traducción del modelo para el cuneiforme al inglés era de 36,52 sobre 100. Esta aumentaba ligeramente para el cuneiforme transliterado al inglés, subiendo hasta el 37,47. Gutherz explica que estas notas son bastante positivas, si tenemos en cuenta que esta es una traducción en fases iniciales de desarrollo y usando uno de los primeros idiomas de la humanidad.
[Así se controlará el desarrollo de la IA: las propuestas del 'padre' de ChatGPT, el G7 y la UE]
El programa es más efectivo cuando se traducen oraciones de 118 o menos caracteres, aunque no está exento de fallos o 'alucinaciones', que equivaldrían a resultados sintácticamente correctos en inglés pero faltos de exactitud. Tanto es así, que los investigadores resaltan que se consigue una mayor precisión en textos formulistas, tales como decretos reales de la época.
El arqueólogo Gordin, por su parte, destaca que este es un gran primer paso. Los autores proponen que esta traducción automática se use como parte de una "colaboración hombre-máquina", en la que los académicos humanos corrijan y sean capaces de refinar estos resultados.
La conclusión de Gordin es que este es un proceso que conlleva tiempo, debido a su complejidad. "Puede ser un proceso complejo, ya que normalmente requiere no solo disponer de un conocimiento experto de dos idiomas diferentes, sino también de los distintos entornos culturales".