La inteligencia artificial supera a los humanos en el reconocimiento de voz
Por primera vez un sistema informático ha logrado seguir una conversación, traducirla y transcribirla con mayor precisión y velocidad que los humanos
22 octubre, 2020 10:30Seguir una conversación y transcribirla con precisión es uno de los grandes retos de la investigación de inteligencia artificial. Se han hecho grandes avances en este sentido, pero hasta ahora ningún algoritmo había conseguido mejorar la capacidad humana para trascribir una conversación espontánea.
Por primera vez, los investigadores del Instituto de Tecnología de Karlsruhe (KIT) han logrado desarrollar un sistema informático que ha superado tanto en la precisión como en la velocidad a cualquier traductor humano
"Cuando la gente habla entre sí se producen silencios, tartamudeos, dudas, como "er" o "hmmm", se ríe y se tose. Incluso hay problemas de vocalización", señala Alex Waibel, profesor de Informática de KIT. Todas estas “interrupciones” provocan que la conversación no se entienda con claridad. Incluso una persona acostumbrada a tomar notas – los taquígrafos, los periodistas, abogados…- se han encontrado con problemas para entender con exactitud una conversación. También ha sido un reto para la inteligencia artificial que ya existe en muchos sistemas de traducción simultánea.
Ahora en investigadores de KITES, una startup del KIT, han conseguido desarrollar un sistema informático que ejecuta esta tarea mejor que los humanos y más rápido que otros sistemas. Sus algoritmos han permitido poner en marcha en la universidad un traductor automático en vivo que traduce directamente las conferencias del alemán o el inglés a los idiomas que hablan los estudiantes extranjeros.
Mientras que la traducción humana tiene unos niveles de error de en torno al 5,5%, este nuevo sistema apenas se equivoca en un 5%. El sistema, además, ha conseguido reducir la latencia de otros sistemas de traducción convencionales: apenas 1 segundo.
La tasa de error y la latencia se miden utilizando la prueba científica "switchboard-benchmark" estandarizada e internacionalmente reconocida. Este punto de referencia (definido por el National Institute of Standards and Technology (NIST) de EEUU) es ampliamente utilizado por los investigadores internacionales de IA en su competencia para construir una máquina que se acerca a los seres humanos en el reconocimiento del habla espontánea en condiciones comparables, o incluso superarlos.