Carlos Gómez, el joven investigador premiado por enseñar a 'hablar' español a las máquinas desde Galicia
Galardonado con el Premio Nacional de Investigación para Jóvenes 'María Andresa Casamayor' en su primera edición, defiende en esta entrevista con D+I que "contar con recursos lingüísticos es un activo estratégico".
25 octubre, 2022 03:11La marcada ‘musicalidad’ de su acento le delata. Quien habla al otro lado del teléfono es de origen gallego o, al menos, lleva tanto tiempo viviendo en esa tierra, que la ha adoptado como suya. Él mismo despeja la incógnita: nació en Murcia en 1982, pero desde niño vive en A Coruña, “de donde es mi familia”.
En esta ciudad estudió y ahora trabaja, y aquí Carlos Gómez recibió hace unos días la noticia de haber sido galardonado con el Premio Nacional de Investigación para Jóvenes 'María Andresa Casamayor', que concede el Ministerio de Ciencia e Innovación, junto a otros nueve en diferentes categorías. Todos a investigadores que no superen los 40 años, justo los que ha cumplido Gómez este año.
En su caso, el reconocimiento lo recibe en el área de Matemáticas y Tecnologías de la Información y las Comunicaciones (TIC), “por la originalidad y el impacto de sus contribuciones al desarrollo de algoritmos que incorporan el lenguaje natural a entornos digitales propios de la inteligencia artificial”, según reza en el comunicado del Ministerio. Y no ha tenido que salir de su ciudad para conseguirlo.
Investigar desde 'casa'
Este joven investigador reconoce que su caso es una excepción porque estaba “en el lugar y momento adecuados”. Se doctoró en ingeniería informática en la Universidad de Coruña (UDC) y ahora es profesor titular de esta misma institución.
“He podido quedarme en España y en Galicia, que era lo que yo quería, pero mi caso no es representativo [de lo que ocurre con la investigación en España]. Yo tuve suerte”, admite durante la conversación que mantiene con D+I.
Las investigaciones de Carlos Gómez son fruto de su interés “desde los tiempos de instituto” por dos materias que, tradicionalmente, nunca se mezclaban: la informática y las humanidades.
Sus trabajos siempre han estado orientados al procesamiento del lenguaje natural (PLN). La rama de la inteligencia artificial que trata de crear sistemas informáticos que trabajen con el lenguaje humano, comprendiéndolo, “aunque sea parcialmente, para que podamos mantener conversaciones con máquinas y entiendan lo que decimos”.
Recuerda que en sus años de estudiante, ya existía algunas iniciativas en este sentido, "pero es ahora, con la inteligencia artificial, cuando han llegado a un punto de encuentro”, asegura.
" Con la inteligencia artificial, la informática y las humanidades han llegado a un punto de encuentro".
Dentro de un campo tan amplio, este ingeniero se ha dedicado a varias ramas, pero sobre todo al análisis sintáctico, que consiste en determinar la estructura de las oraciones: identificar cuál es el sujeto, el verbo, el complemento directo…
“Algo que puede parecer muy teórico, que todo el mundo estudia en el colegio y que en las personas es intuitivo, pero que los ordenadores necesitan para extraer el significado de las oraciones como paso previo a muchas aplicaciones”, explica Gómez.
Interpretar más rápido el lenguaje humano
Durante cinco años, y dentro del proyecto europeo Fast Natural Language Parsing for Large-Scale NLP (FASTPARSE) –una Starting Grant financiada por el Consejo Europeo de Investigación–, estuvo dedicado al desarrollo de algoritmos que mejoran la velocidad de ese análisis y, como consecuencia, interpretan más rápido el lenguaje humano.
El resultado son sistemas capaces de procesar sintácticamente alrededor de 1.000 oraciones por segundo “de forma bastante precisa y en múltiples idiomas”.
Esos idiomas son, sobre todo, chino e inglés, pero también español y gallego. “Los sistemas se instruyen a partir de datos que utilizan técnicas de aprendizaje automático. Cuanto mayor sea el número de datos, de oraciones, el sistema va mejor, algo que no pasa en idiomas con mercados más pequeños, como el gallego, pero con el que sigue siendo preciso”, asegura.
Un discurso en el que, llegados a este punto, es obligado preguntar sobre el PERTE de la lengua. Un plan al que el Gobierno ha destinado una inversión de 1.100 millones de euros para impulsar la presencia del español –y lenguas cooficiales– en la nueva economía digital y que la inteligencia artificial ‘piense’ en nuestro idioma.
“Si queremos que el español juegue en la misma liga que el inglés y el chino, hay que potenciarlo, porque las compañías van donde obtienen beneficios”
Para Gómez, este paso adelante es una “buena noticia”. “Contar con recursos lingüísticos en un idioma es un activo estratégico porque afecta al rendimiento de los sistemas de inteligencia artificial en ese idioma, y es ahí donde hay que dedicar medios para no quedarnos atrás”, defiende.
Ante la dominación evidente del inglés, alega que las empresas tecnológicas desarrolladoras de esos sistemas dirigen sus inversiones “allí donde hay mercado”, algo que ya está ocurriendo con el chino. “Si queremos que el español juegue en esa liga, hay que potenciarlo, porque las compañías van donde obtienen beneficios”.
El 'poder curativo' de las palabras
Las investigaciones de Gómez centradas en el análisis sintáctico se nutren de corpus y colecciones que contienen anotaciones en hasta 120 idiomas. Las aplicaciones son múltiples.
Al otro lado del teléfono pone como ejemplo más sencillo los sistemas de traducción automática, pero, añade, “también se puede extraer información de determinados documentos para explotar esos datos y darles valor”, como en uno de los proyectos en los que trabaja actualmente.
[Análisis del lenguaje natural para la detección precoz de enfermedades raras]
Sin dar los nombres de las entidades que colaboran en esta investigación “todavía incipiente”, solo detalla que a partir de los historiales de pacientes están “estructurando datos de textos médicos, que ahora son meramente descriptivos, para localizar determinadas informaciones, sacar conclusiones y aplicarlas al tratamiento de enfermedades”.
Otra de las ramas del PLN en las que también va a empezar a trabajar es en el análisis de sentimientos. Lo hará bajo el paraguas del proyecto efficient Syntactic Analysis for Large-scale Sentiment Analysis (SALSA), financiado nuevamente por el Consejo Europeo de Investigación dentro del programa Proof-of-Concept Grant.
Para ello, el recurso son los mensajes que las personas escriben en redes sociales y las reseñas en tiendas y páginas web para, por ejemplo, enseñar al sistema a diferenciar entre una opinión negativa y otra positiva. Su objetivo es buscar aplicaciones prácticas y transferir ese conocimiento a un producto que puedan ofrecer al mercado.
Mientras avanza en sus investigaciones, este ingeniero, que un día se vio atraído por una materia tan humana con el uso del lenguaje, permanece na súa terra, en la que ha conseguido quedarse para enseñar a las máquinas a 'hablar' nuestro idioma y, confiesa, "disfrutar de la lluvia".