El cerebro cognitivo español para la voz
Verbio es una startup catalana que se ha hecho fuerte en el reconocimiento de voz para interactuar con máquinas, con clientes en todo el mundo como Intel y Sprint
13 diciembre, 2019 07:00Sólo no tiene voz el ser que no tiene sangre". Esta contundente frase, incluida en la obra maestra argentina La vuelta de Martín Fierro, es extraordinariamente precisa a la hora de entender que nuestra voz es uno de los rasgos más distintivos del ser humano, eso que nos separa de las máquinas y que sirve de escaparate de lo más escondido en nuestro interior. Sin embargo, este valor único de las personas de carne y hueso ya no lo es tanto: asistentes virtuales como Siri, Alexa o Cortana ya se pueden comunicar con nosotros mediante la voz, aunque sea de manera torpe. Y todavía son más los sistemas que pueden entendernos, transcribir nuestros mensajes y recoger nuestras impresiones de manera clara y directa.
Es esa torpeza, esa necesidad de adaptar nuestra forma de hablar a lo que las máquinas son capaces de procesar, la que sigue estableciendo la frontera natural entre el hombre y la máquina. Aunque parece que esta división podría durar menos de lo que nos imaginamos, pues nadie duda ya de que la voz es la siguiente gran interfaz tras los PC y los smartphones. Un terreno muy prometedor en el que una empresa española, Verbio, es la que presume de una madurez tecnológica más avanzada que cualquier otro rival.
El catedrático de la
De esos humildes comienzos poco queda ya, a tenor de una compañía con presencia multinacional -cinco oficinas en todo el planeta- y 80 empleados. Carlos Puigjaner, dueño de la firma junto a Antonio Terradas, explica al respecto que Verbio ha experimentado un "crecimiento un grande en los últimos años, con muchos clientes en las Américas, desde Canadá hasta Argentina o Chila y Asia, que está comenzando a ser una parte muy relevante de nuestro negocio".
Pero, ¿qué es lo que hace a su tecnología de reconocimiento de voz especial entre tantas y tantas que surgen a diario? "Cubrimos todo el proceso, desde la síntesis de voz hasta la biometría de la misma, el procesamiento del lenguaje natural y su análisis en un cerebro cognitivo", detalla Puigjaner.
"Utilizamos también arquitecturas específicas, como los chips FPGA de Intel, para poder hacer las inferencias en tiempo real y con múltiples funciones. Porque el mayor reto que tenemos es que los humanos somos capaces de hacer la transcripción de la voz de forma automática, pero las máquinas aún tienen que hacer cada uno de esos procesos por separado". Además, su innovación no sólo es capaz de entender lo que se dice o se oye, sino también de interpretarlo. "Podemos extraer mucha información de la voz mediante el análisis de sentimiento, como la edad o el estado de ánimo de la persona", añade el ejecutivo.
Obviamente, su sistema de reconocimiento de voz requiere de un extenso entrenamiento, adaptado además a las distintas casuísticas en que se puede aplicar la tecnología (desde contact centers hasta seguridad, pasando por el subtitulado en tiempo real de programas televisivos o la indexación automática de audios). Una labor ingente de la que depende también el éxito de Verbio y que no ha estado exenta de anécdotas curiosas. "Por ejemplo, intentamos entrenar a nuestros algoritmos con datos teatralizados para entender las emociones, pero luego dimos marcha atrás porque nos dimos cuenta de que las personas no hablamos igual que en el teatro", admite el colíder de la startup.
A pesar del camino recorrido, Puigjaner es consciente de que apenas estamos comenzando esta aventura vocal. "Ahora mismo estamos desarrollando nuevos sistemas de reconocimiento y síntesis de voz que explotan al máximo las posibilidades de la inteligencia artificial y de las redes neuronales, que nos permitirá reducir a días el entrenamiento de nuevos idiomas. Esto nos permitirá acelerar al máximo el acceso a nuevos mercados y proyectos". Y es que, por rizar el rizo, su tecnología es especialmente acertada en la sempiterna laguna de las lenguas más allá del inglés.
De escuchar llamadas en EEUU a analizar el japonés
Verbio cuenta por decenas sus grandes proyectos internacionales. Uno de ellos es con la ‘telco’ norteamericana Sprint, para la cual ha creado un sistema conversacional capaz de atender de forma automatizada hasta 3.000 llamadas simultáneas de sus clientes en inglés y español. Para un fabricante de chips, la startup ha diseñado un chatbot que se comunica en lenguaje natural, disponible incluso en portugués. Y algo más lejos, en Japón, Verbio está trabajando con otra ‘telco’ en un sistema de análisis de voz en japonés, que permitirá medir de forma efectiva la satisfacción y la experiencia de uso de sus clientes