
Carlos Pérez, director de Alexa Américas Omicrono Nueva York
Carlos Pérez (Amazon): "Conversar con Alexa+ es como tener al tutor más inteligente del mundo sentado a tu lado"
"Conforme los modelos que estamos utilizando se vuelvan mejores, Alexa también será más inteligente" / "Es un sistema único en la industria, hasta ahora no hemos visto nada a esta escala" / "Queremos que nuestros clientes tengan acceso a esta experiencia sin necesidad de comprar hardware nuevo".
Más información: Amazon presenta Alexa+, su nuevo asistente con IA: más inteligente, versátil y mucho más útil en el día a día
"Alexa, ¿cuándo serás más inteligente?". El asistente virtual de Amazon, que lleva desde 2014 con nosotros, puede resultar frustrante, como bien reconocía Panos Panay, director de Dispositivos y Servicios del gigante del comercio online durante la presentación de Alexa+. Pues bien, ese paso adelante que se esperaba desde la llegada de ChatGPT y la eclosión de la inteligencia artificial generativa está a la vuelta de la esquina, al menos en Estados Unidos.
Después de la presentación y tras unas demos en las que los periodistas presentes pudimos ver (pero no tocar) distintas interacciones en tiempo real, en EL ESPAÑOL-Omicrono tuvimos la oportunidad de hablar sobre todo lo relacionado con este nuevo asistente mejorado con IA con Carlos Pérez, director de Alexa Américas.
El propio Pérez se encargó de explicar en qué se diferencia este asistente del que ya conocemos o los planes más inmediatos para su expansión internacional, ya que de momento su uso estará limitado al inglés y EEUU y queda tiempo para que podamos usarla en España. También exploramos junto al directivo de Amazon los desafíos tecnológicos a los que se enfrentó la compañía a la hora de desarrollar Alexa Plus, que han provocado numerosos retrasos y obstáculos de todo tipo, similares a los que está sufriendo Apple con su Siri renovada.
¿Qué novedades trae Alexa+ para los usuarios?
Lo que distingue esta experiencia es que no es solamente un modelo de LLM, es mucho más que eso. Es mucho más que un agente incluso. Lo que hemos hecho es una rearquitectura total de la experiencia de Alexa, tomando ventaja de las nuevas tecnologías de inteligencia artificial generativa. Además, la hemos conectado con cientos de APIs y miles de servicios que la gente utiliza en el día a día para conseguir una experiencia conversacional, superinteligente, personalizada, divertida, pero sobre todo fácil de usar para que todo el mundo pueda tener acceso a ella.
¿Cuándo podremos ver esta Alexa mejorada hablando en español y disponible en España?
Una de las cosas que hemos aprendido en los 10 años que llevamos con la Alexa original es que lo que nos distingue es ofrecer una experiencia que los usuarios perciben como realmente local y auténtica. Esto requiere ir más allá de traducir lo que dice el asistente a otro idioma. Esa adaptación a cada lugar incluye que el sistema esté conectado a los servicios que son importantes para los clientes en su día a día. Otra cuestión importante es, obviamente, las diferencias de regulación.
Esta tecnología es completamente nueva, es mucho más que un simple chatbot, y por eso nos estamos tomando el tiempo necesario para asegurarnos de que cuando la lancemos en otros países esté a la misma altura que lo que ofreceremos aquí en Estados Unidos. La intención es que Alexa+ esté disponible en todos los países donde hoy se puede usar la Alexa original. Ya tenemos a gente trabajando en la expansión, aunque todavía no podemos anunciar específicamente cuándo llegará. La idea es que los primeros países que la reciban además de EEUU lleguen antes de final de este mismo año.

Andy Jassy, CEO de Amazon, durante la presentación Omicrono
Cuando haces una petición a Alexa+ para que te reserve mesa en un restaurante, por ejemplo, ¿cómo hace para elegir entre servicios competidores, cómo va a gestionar por sí sola esa experiencia?
La idea es que Alexa+ se siga integrando con cada vez más servicios. Según la vayas usando, la IA aprenderá de tus preferencias y eso son factores que va a tomar en cuenta a la hora de elegir los servicios de forma automática.
Entonces, ¿el usuario también podrá elegir?
Claro, igual que haces ahora con los skills, cuando le dices: "quiero escuchar esta canción en Spotify", por ejemplo. Es muy similar a eso. En cuanto a los primeros usos de algunas de estas aplicaciones, llegará una notificación a tu app de Alexa para que puedas hacer esa integración inicial, donde figuran tus preferencias en términos de métodos de pago, etc.
Ha costado mucho llegar hasta aquí, con varios retrasos incluidos. ¿Cuáles han sido los principales desafíos tecnológicos para desarrollar esta Alexa mejorada?
Este es un sistema único en la industria, hasta ahora no hemos visto nada a esta escala. Poder conectar estos LLM con cientos de APIs para tener miles de servicios desde el día 1, es algo realmente extraordinario.
Muchos de estos chatbots que estamos viendo están empezando a tener algunas funcionalidades similares, pero la cantidad de cosas que puede hacer Alexa+ desde el primer día de manera natural no tiene precedentes.
El otro gran desafío es simplemente la escala en la que operamos, con más de 600 millones de dispositivos con Alexa en los hogares de nuestros clientes. El reto es diseñar este tipo de tecnología de forma que pueda escalar a esa magnitud, sabiendo que todo el mundo va a estar interactuando con ella, desde adultos hasta niños. Queremos que sea una experiencia responsable, que puedas confiar en la información que te proporcione Alexa+. Por eso nos hemos tomado el tiempo necesario para asegurarnos que todos estos aspectos estén cubiertos.
El reto es diseñar este tipo de tecnología de forma que pueda escalar a esa magnitud, sabiendo que todo el mundo va a estar interactuando con ella
De momento, Alexa+ sólo va a estar disponible en algunos dispositivos específicos, los Echo Show. ¿Cuándo está previsto que llegue al resto de altavoces de Amazon y otros dispositivos de terceros?
Esa es una de las cosas que nos tienen muy emocionados, porque estamos haciendo esta experiencia compatible con prácticamente todos los dispositivos que están en uso actualmente.
Nos estamos yendo hasta casi 7 años atrás, a la primera generación de Echo Dots, la primera generación del Echo Show... Es algo que va a permitir a nuestros clientes tener acceso a esta experiencia sin necesidad de comprar hardware nuevo. Eso también es algo bastante único en la industria, es difícil ver ejemplos donde una tecnología como la que estamos desarrollando sea compatible con hardware de hace 7 años.
Vamos a empezar invitando a usarla a los usuarios que tienen los Echo Show 8, 10, 15, 21, pero conforme vayamos avanzando vamos a ir extendiendo la disponibilidad al resto de los productos.
Todo lo que ha enseñado Amazon por ahora está basado en la interacción con altavoces Echo Show, con pantalla. ¿Se puede garantizar una conversación y petición de tareas fluida en dispositivos sin pantalla?
Desde luego, las pantallas ofrecen muchísimo valor adicional a la experiencia. Pero la visión que tenemos es que estamos desarrollando tecnología ambiental. Entonces, va a haber ciertas habitaciones de tu hogar en los que quieres tener acceso a la experiencia, pero a lo mejor no quieres tener necesariamente una pantalla.
Queremos ofrecer una variedad de opciones para nuestros clientes, para que puedan tener acceso a lo que necesitan en el formato que lo necesitan. En cualquier caso, nuestra visión es que cada vez haya más usuarios con Echo Show en sus hogares. Incluso está en el navegador de Internet o la app de Alexa en el móvil, la intención es que esta experiencia pueda ir contigo estés donde estés.
¿Cómo elige Alexa+ cuál es en cada caso el modelo más adecuado para resolver peticiones?
Alexa+ es agnóstica, es decir, que no depende de un único modelo de IA. Esto es lo que ha permitido que también responda de forma correcta a experiencias que tradicionalmente son determinísticas, como poner una alarma o un temporizador.
Gran parte del trabajo durante estos años ha sido calibrar la arquitectura para poder lograr esos casos de uso de forma rápida, sin latencia, para tener estas interacciones en tiempo real.

Carlos Pérez, director de Alexa Américas Omicrono Nueva York
Los modelos de IA siguen teniendo problemas con lo que llaman 'alucinaciones', resultados incorrectos o engañosos. ¿Cómo ha solventado Amazon este problema?
Es una de las cosas que más hemos cuidado durante el desarrollo de Alexa+. Hemos incluido diferentes sistemas para identificar estos problemas y cuidar el tipo de respuestas que genera Alexa. Esto incluye desde ingeniería de prompts, para asegurarnos que Alexa está usando información reciente y precisa, como hacer un doble check con la última información por si hay noticias nuevas. También hemos llevado a cabo pruebas adversarias, con un equipo que está tratando constantemente de romper estos modelos para poder asegurarse de que estén funcionando correctamente y poder actuar rápidamente para corregir algo si es necesario.
La intención es que tú tengas que estar preocupándote como cliente final de saber si puedes confiar o no en la información que estás recibiendo. Queremos quitar ese miedo que mucha gente tiene todavía, que es uno de los motivos por los que no han utilizado todavía este tipo de sistemas.
¿Habrá algún tipo de aviso para no tomar al 100% al pie de la letra todo lo que te diga?
Sabemos que todavía habrá algún que otro error, es algo normal con los modelos de inteligencia artificial generativa. Sin embargo, tenemos procesos y equipos justamente diseñados para poder identificarlos y corregirlos en el momento para que no se repitan.
En cuanto a la seguridad y privacidad, funciones como la de pedirle a Alexa que extraiga información de uno o varios documentos levantan ciertas dudas. ¿Cómo se realiza el procesamiento de esa información?
Queremos que puedas asociar ciertos archivos con tu cuenta y puedas tener acceso completo a la información que tú le mandas a Alexa. De hecho, una vez que tiene estos archivos, vas a poder entrar en la app de Alexa y controlar si quieres mantener o eliminar esos archivos, siempre podrás decidir el contexto que quieres que tenga la inteligencia artificial para ayudarte.

El Androide Libre
¿Y cómo funciona esa función de subir los archivos? ¿Cómo es el proceso?
Hay diferentes maneras. Lo vas a poder hacer a través de la app de Alexa, también puedes utilizar el navegador o mandar simplemente un correo Alexa@alexa.com. De esa forma tan sencilla, si mandas ese correo vamos a procesarlo como parte de tu perfil de tu cuenta.
A partir de ese momento, le podrás preguntar lo que quieras sobre ese documento, si es un cartel de un concierto, por ejemplo, cuál es la fecha o la dirección, meterlo en el calendario, etc.
Todos los servicios que ofrecerá Alexa Plus en EEUU no van a poder estar en España, porque dependen de acuerdos con terceros. Incluso si no permite tener estas funcionalidades, ¿qué cree que aporta esta nueva Alexa?
Lo primero y lo más importante es que todas las experiencias de la Alexa original van a ser mejoradas y vas a poder usar de forma más sencilla gracias al aspecto conversacional. Te voy a poner un ejemplo que he vivido yo mismo con mi hija en casa haciendo los deberes. El otro día llegué a casa y me dijo: "oye, papá, quiero aprender de rocas metamórficas".
Para eso necesitas un experto, ¿verdad? Por eso trajimos a Alexa a la conversación y empezamos a preguntarle "¿cómo se forman?", "¿cuál es la diferencia entre el mármol y esta otra piedra...?". Todo de forma supernatural, sin necesidad de sacar un ordenador o una tablet. Era como tener al tutor más inteligente del mundo sentado ahí con nosotros.

El Echo Show 21 con la nueva interfaz de Alexa+ Omicrono
Este tipo de experiencias con la Alexa anterior eran muy difíciles, porque eran muy transaccionales, tenías que pedir información que ya sabías prácticamente entera, no podías tener este proceso de descubrir nuevas cosas. También lo vemos con cosas como la música. Ahora puedes preguntarle a Alexa, "oye, ¿cómo se llama la canción que habla de rayos de sol de un grupo mexicano de los 90, que no me acuerdo? Y te dice "Rayando el Sol de Maná". Perfecto, pues, ahí va.
Luego, obviamente, vienen todos esos aspectos de detectar tus emociones y poderle dar una personalidad para que encuentres la experiencia todavía más agradable. También estoy convencido de que esta mejora nos va a permitir hacer que controlar la casa inteligente sea mucho más fácil para todo mundo. Simplemente vas a conversar con Alexa y ella te va a guiar a hacer una rutina, como si estuvieras hablando con un humano. Es un producto bastante diferente a la generación original de Alexa.
¿La implementación de la inteligencia artificial en esta Alexa mejorada va a permitir que sea más fácil de actualizar sin que el usuario lo perciba?
Sí, como dijo Panos Panay, sentíamos que la tecnología nos había limitado a la hora de concretar la visión que teníamos para Alexa. A partir de ahora vamos a poder hacer muchísimo más porque es una tecnología completamente diferente, una reestructuración total y nos estamos posicionando para poder seguir incorporando muchas más funcionalidades de manera más rápida. Alexa será mucho más inteligente conforme estos modelos fundacionales sigan mejorando.
Sentíamos que la tecnología nos había limitado a la hora de concretar la visión que teníamos para Alexa.
¿La app de Alexa en los móviles será capaz de hacer todas estas funciones, como grabar vídeo y analizarlo en tiempo real?
Sí, esa es la intención, que las cámaras puedan ayudar eventualmente en ese tipo de casos de uso. La app de Alexa la estamos rediseñando y ahora vamos a empezar a incorporar ciertos efectos para que la experiencia de chat sea todavía más sencilla y más rica.
La parte principal desde ese punto de vista es la nueva experiencia de navegador que vamos a a lanzar. La intención es que puedas continuar interactuando con Alexa en los diferentes formatos que sean más útiles para ti en cada momento. Si estás en un ambiente laboral, a lo mejor no quieres estar hablando con Alexa, pero puedes hacerle preguntas a través de tu ordenador.
Por ejemplo, algo que me pasaba muchas veces, estoy en una junta y llega mi hija del colegio y me está timbrando en el Ring. Le quiero abrir pero estoy reunido. La idea es que le puedas decir, "abre la casa, por favor", y lo haga. Es uno de los ejemplos donde estas nuevas interfaces pueden ayudar a crear todo este ecosistema.
El servicio será gratis para los usuarios de Prime. ¿Esto va a implicar una próxima subida de precio en la suscripción?
Ahora no tenemos ninguna información para compartir en términos de nuestra estrategia de precios de Prime. Creemos que es un gran valor, un gran adición para los usuarios de Prime, para que puedas aprovecharlo haciendo la lista de la compra, con todo el contenido de Prime Video o Prime Music.