Nuestros sueños respecto a la inteligencia artificial están inspirados por la ciencia ficción”. En su caso, por la futurista Star Trek. Al ingeniero Rohit Prasad le entusiasmaba que las máquinas hablasen con los humanos de tú a tú. Aquella fantasía infantil pasó a ser el motor de su carrera profesional. Y hay quien podría decir que con éxito: él es el ‘padre’ de la omnipresente Alexa.
Prasad es experto en reconocimiento de voz, comprensión del lenguaje natural y aprendizaje automático (machine learning). Tres especialidades que lo convirtieron en el candidato ideal para diseñar al asistente virtual de Amazon. Hoy, apenas seis después, su ‘criatura’ se comunica por voz con personas de 80 países. “Es la forma más natural de comunicación”, señala su creador durante su charla en el AI Summit, celebrado en el último Reinvent de Amazon Web Services (AWS) en Las Vegas.
Alexa no solo habla idiomas, sino que entiende al humano. Eso implica comprender los matices del lenguaje. “Ese es el gran reto”, reconoce Prasad. Un desafío que el experto desmenuza en cuatro facetas distintas.
La primera es la competencia. “Se está produciendo una democratización de la inteligencia artificial conversacional”, indica. Actualmente, solo Alexa cuenta con más de 50.000 funciones (‘skills’) distintas. Este éxito es el resultado de un momento único en la historia en el que programadores de todo el mundo avanzan por mejorar la tecnología disponible.
No solo eso. Al mismo tiempo, se está produciendo una reducción del ratio de error “por debajo del 25% en todo los idiomas”. ¿Cómo? “Alexa aprende de sus propias tareas y conseguimos transferir ese aprendizaje”, comenta. Ese es el segundo reto: que el ‘cerebro’ artificial de Amazon pueda aprender de sus propios errores.
El tercer gran objetivo que persigue el equipo liderado por Prasad es que la inteligencia artificial sea consciente del contexto. Para empezar, eso implica que tenga memoria del discurso. “Si le preguntas ‘¿cuál es el tiempo en Los Ángeles?’ y luego, ‘¿y mañana?’ Alexa debe ser capaz de saber que te refieres al tiempo en Los Ángeles”, dice.
El siguiente paso es que el asistente virtual pueda hacer interpretaciones contextuales como, por ejemplo, de los susurros. “Si un bebé está durmiendo, el año pasado Alexa hubiera contestado respondiendo con el mismo volumen que siempre. Ahora, lo hace en susurros”, explica. Para conseguirlo, los desarrolladores han aplicado modelos de aprendizaje profundo (deep learning). También se refiere al contexto más allá de las palabras. “Alexa aprende sonidos, de forma que mediante detección acústica puede saber, por ejemplo, si se ha roto un cristal en casa”.
Por último, el cuarto gran pilar sobre el que se asienta la estrategia de Prasad es la naturalidad. “El concepto no es el mismo para la inteligencia artificial que para los humanos”, destaca. “Necesita funcionar sus interrupciones, de forma continua”. Para conseguir esa fluidez, su equipo trabaja en varios frentes simultáneamente, como que Alexa pueda registrar más de una petición al mismo tiempo. Se trata de que sea capaz de gestionar más de una orden en una misma frase. “Por ejemplo, que haga la lista de la compra completa”.
En este intento por que el asistente virtual resulte más natural por el humano no puede faltar la inferencia. “Debe deducir qué quiere el usuario”, advierte. Y para ello, tiene que entender la ambigüedad. Un ejemplo claro: “Si decimos ‘Alexa, consigue un coche’, antes teníamos que especificar que se trataba de reservar, por ejemplo, un Uber. Ahora, Alexa busca entre las distintas opciones, Uber, Lift, taxis…”.
Concluye: “Nuestros sueños respecto a la inteligencia artificial se están convirtiendo en realidad”.