Los secretos de traducir a toda máquina
Los investigadores perfeccionan la traducción automática, aún lejos de ser satisfactoria pero con un desarrollo vertiginoso gracias a nuevos sistemas como las redes neuronales.
27 septiembre, 2016 01:20Noticias relacionadas
Cada vez resultan más útiles y provocan menos risas. Los traductores automáticos están disponibles en internet y, con mayor o menor fortuna, nos permiten comprender casi cualquier cosa en cualquier idioma. A veces ni siquiera hay que hacer nada: desde hace tiempo usted puede elegir que su navegador traduzca automáticamente las páginas que visita. Otras veces, sin saberlo, está entrando en sitios web cuya versión original estaba en una lengua distinta y cuya traducción no ha pasado ningún filtro humano. Sin embargo, estas herramientas aún están lejos de la perfección y muchos investigadores, principalmente lingüistas e informáticos, trabajan para que la brecha que separa el resultado de la máquina y el de un traductor profesional sea cada vez menor.
Mikel Forcada, investigador de la Universidad de Alicante, es el padre de una plataforma de traducción española que ha triunfado en todo el mundo, Apertium. Es un proyecto de software libre que cualquier desarrollador puede mejorar y adaptar. Por eso, ya está disponible para 40 pares de lenguas.
El embrión de esta iniciativa está en una caja de ahorros que quiso contar con un traductor automático entre castellano y catalán para facilitar el trabajo en sus oficinas y se lo encargó a la universidad alicantina. El buen resultado hizo que los investigadores lanzaran en 2005 una primera versión de una plataforma automática de código abierto que enseguida ofreció traducciones instantáneas fiables entre las lenguas oficiales de España y que hoy en día se sigue perfeccionando y sirve de base para otros sistemas.
Apertium también nos permite traducir del inglés a español, pero su especialidad son las lenguas minoritarias
Por supuesto, Apertium también nos permite traducir del inglés a español, pero su especialidad son las lenguas minoritarias y en ello los sistemas de Google o de Bing no pueden competir en calidad. Para entender el porqué es necesario conocer un poco los entresijos del funcionamiento de la traducción que realizan las máquinas.
Básicamente, a la hora de programar un traductor automático hay que optar por dos opciones: traducir por reglas o por estadística. La primera opción consiste en introducir una serie de normas lingüísticas del idioma de origen y del idioma al que se traduce. Sin embargo, desarrollar un sistema así lleva tiempo y a medida que se introducen más reglas se generan más conflictos entre ellas, así que la mayoría de los traductores más populares hoy en día utilizan la segunda opción, que consiste en analizar ingentes cantidades de textos hasta sacar los patrones más probables para una traducción.
Ahí está el gran problema de las lenguas minoritarias. En internet hay millones y millones de textos en inglés o en español, pero muy pocos en lenguas como el sardo, el maltés o el asturiano, que también tiene su hueco en Apertium, que sigue funcionando por el sistema de reglas.
Los estudiantes de Noruega usan este sistema masivamente en sus deberes, ya que tienen que traducir textos entre dos lenguas
Curiosamente, el par de lenguas más utilizado de la plataforma es el que traduce entre las dos variedades de noruego. "Hemos comprobado que los estudiantes de Noruega la utilizan masivamente para hacer trampa en sus deberes, ya que tienen que traducir textos entre las dos lenguas", comenta Mikel Forcada.
Al igual que con los idiomas minoritarios y por las mismas razones, los traductores automáticos más populares tienen graves problemas con el lenguaje especializado. Traducir por el método estadístico hace que el resultado siempre favorezca la opción más general. De hecho, las traducciones de textos técnicos entre inglés y español funcionan mejor en Apertium que en Google Translate, según Forcada.
Sistemas personalizados
La necesidad de especialización es el camino que han encontrado algunas empresas tecnológicas para ofrecer a sus clientes sistemas de traducción automática personalizados. A eso se dedica KantanMT, una startup irlandesa que investiga en este campo junto a especialistas de la Dublin City University.
"Los clientes usan sus archivos en dos idiomas diferentes para crear bases de datos con las que entrenan sus propios motores", explica Carlos Collantes, español que trabaja en la compañía, "nosotros les facilitamos la plataforma para hacerlo y les enseñamos a utilizarla".
Con este servicio en la nube, los clientes disponen de un servicio adaptado al lenguaje con el que trabajan en su sector y muchos de ellos publican directamente la traducción de sus productos, mientras que en otros casos los textos aún pasan el filtro de una persona.
Imitando a las neuronas
En la sección de I+D de la empresa el trabajo se centra en el desarrollo de redes neuronales artificiales. Basados en el funcionamiento biológico del sistema nervioso, estos sistemas tratan de imitar el aprendizaje humano, se están utilizando en muchos campos de la computación y también en la traducción automática son lo más novedoso.
"Al igual que nuestras neuronas reciben estímulos y ofrecen una respuesta, las redes neuronales artificiales aprenden a reaccionar a partir de ejemplos", explica Collantes. El sistema está tan de moda que en los congresos de especialistas se organizan concursos para ver quién realiza las mejores traducciones basadas en redes neuronales.
Así, el entrenamiento de los motores que utiliza KantanMT se automatiza, llegando a procesar hasta 250 millones de palabras y seis millones de palabras por hora. La edición posterior hace que la calidad de las traducciones personalizadas mejore continuamente hasta adaptarse a las necesidades de los clientes. Además, como servicio para empresas este sistema tiene otra gran ventaja frente a las opciones gratuitas disponibles en internet: la privacidad.
Cuestión de creatividad
¿Se completará alguna vez este camino hacia el perfeccionamiento hasta el punto de que los traductores sean prescindibles? "Hay textos técnicos, por ejemplo, los jurídicos o financieros en los que el lenguaje es muy repetitivo, pero para realizar traducciones creativas o literarias siempre será necesaria una edición posterior, no creo que nunca se llegue a sustituir por completo la labor de un traductor", afirma Collantes.
Para realizar traducciones creativas o literarias siempre será necesaria una edición posterior
Mikel Forcada opina lo mismo aunque con matices. "Como personas, tenemos un contexto y un bagaje cultural difícil de imitar y podemos discernir lo más verosímil en cada situación", destaca.
Sin embargo, los grandes avances de los últimos años se están produciendo por dos hechos: cada vez hay más datos disponibles y la potencia de cálculo de los ordenadores es cada vez mayor; ambos factores seguirán creciendo e irán acorralando la parte de la traducción específica del entendimiento humano. Por eso, el experto hace referencia al concepto de singularidad tecnológica, la hipótesis de que la inteligencia artificial superará a la humana. "Algunos sitúan ese momento en 2025, quizá entonces las máquinas entiendan mejor que nosotros los contextos", apunta.