Meta crea una inteligencia artificial que cambiará la comunicación: traduce 101 idiomas al instante de voz a voz
Meta ha presentado un nuevo modelo de IA, con sello español, para traducir de forma instantánea, que superaría los actuales existentes.
Más información: Zuckerberg confirma que lanzará nuevas gafas inteligentes este 2024: así serían las Ray Ban
Es posible que entre sus propósitos de año nuevo esté el aprender un idioma, el inglés, por ejemplo. Esta necesidad se ha transformado con la llegada de la inteligencia artificial. Con esta tecnología es cada vez más fácil traducir de un idioma a otro. Ya sea desde el teléfono móvil, a través de auriculares o desde las gafas de sol como las Ray-Ban de Meta, la IA puede ayudarle en sus viajes por el mundo, evitando la barrera del idioma.
Precisamente, investigadores de la matriz de WhatsApp e Instagram (Meta) han presentado un nuevo modelo de inteligencia artificial que promete un salto cualitativo en los sistemas de traducción simultanea actuales. Traducción a más de 100 idiomas en tiempo real, en formato texto o voz y reduciendo el ruido o interferencias que impidan la comprensión en la conversación.
Diferentes expertos en la material, ajenos a este proyecto, han valorado de forma positiva lo presentado por la empresa de Mark Zuckerberg. "SEAMLESSM4T supone un avance significativo" afirman Maite Martín, catedrática del departamento de Informática de la Universidad de Jaén a SMC España. Esta experta destaca la inclusión de idiomas menos representados en la tecnología como el maltés o suajili. Los resultados del trabajo se han plasmado en el artículo publicado en la revista Nature, cuya autora principal es la española, Marta Costa-Jussà, investigación básica sobre inteligencia artificial en las oficinas de Meta en California.
Más de 100 idiomas
Meta ha creado el pez de Babel o lo que es lo mismo un sistema capaz de traducir voz y texto en directo hasta en 101 idiomas. El gigante tecnológico hace referencia a un clásico elemento de la ciencia ficción que en la novela La guía del autoestopista galáctico permitía traducir simultáneamente, para anunciar su último avance en inteligencia artificial.
Ese pequeño pez se podía insertar en la oreja, desde donde traducía al momento el idioma hablado por el interlocutor. En realidad, esta idea se puede encontrar con facilidad, son los auriculares con IA integrada que han poblado el mercado ofreciendo traducción instantánea. Por ejemplo, los auriculares WT2 Edge, puestos a prueba por el equipo de Omicrono- EL ESPAÑOL, permiten mantener una charla fluida en 40 idiomas y acentos usando un dispositivo similar a los AirPods de Apple.
Sin embargo, aún faltaría mucho avance en esta materia, varios obstáculos por superar, y la propuesta de Meta superaría lo conseguido hasta el momento. Nombrado como SEAMLESSM4T, se trata de un modelo multimodal y multilingüe que puede reconocer hasta 96 idiomas de forma automática en una conversación hablada y traducir en directo 101 idiomas diferentes de habla a habla, habla a texto, texto a texto y texto a habla.
Uno de esos obstáculos pendientes en estos modelos es el trabajo con voces frente a texto, así como la comprensión de idiomas hablados en comunidades más pequeñas. Los investigadores de Meta afirman que SEAMLESSM4T puede superar hasta un 23% más de precisión que los sistemas existentes en tareas traducción de voz a voz, y de voz a texto en un 8%. Estos resultados se han plasmado en el artículo publicado en la revista Nature, cuya autora principal es la española, Marta Costa-Jussà, investigación básica sobre inteligencia artificial en las oficinas de Meta en California.
A través de SMC España, Raquel Fernández, catedrática de Lingüística Computacional y Sistemas de Diálogo en la Universidad de Ámsterdam, explica que, aunque este modelo supone un avance substancial por su capacidad de traducir hacia y desde el habla en una gran cantidad de idiomas, también presenta "problemas para procesar el habla en función de factores como el género, el acento o el idioma".
Incluso muestra sesgos de género en algunas oraciones en español, por ejemplo, traduciendo a "Soy ama de casa" cuando la frase original en inglés no hace referencia al género de la persona. Estos obstáculos, junto con la menor eficiencia a la hora de trabajar con la voz hablada frente al texto, están presentes en la mayoría de la industria y los productos que se están generando.
Con cancelación de ruido
"Más allá de la calidad, cuando se prueba su solidez, nuestro sistema es, en promedio, aproximadamente un 50% más resistente al ruido de fondo y las variaciones de los hablantes en las tareas de conversión de voz a texto que los sistemas de última generación anteriores.", explican. Rodolfo Zevallos, investigador del grupo de Tecnologías del Lenguaje del BSC (Barcelona Supercomputing Center) destaca al SMC España esta cualidad del nuevo modelo presentado: la robustez del modelo frente a ruidos de fondo y la variabilidad debida al hablante es otro aspecto positivo.
A pesar de estos logros, los autores del artículo de investigación afirman que se require una mayor optimización del modelo antes de que se lance a un producto de consumo. De momento, han puesto la herramienta a disposición de la comunidad científica. Puede que en adelante, cuando este modelo esté más completo se pueda usar en las distintas plataformas de la empresa y su producto como las gafas Meta Quest de realidad virtual y los modelos de sol de Ray-Ban que permiten grabar vídeos.