Las alucinaciones son la pesadilla de la inteligencia artificial

Las empresas están ansiosas por capitalizar el poder de la IA generativa, pero se enfrentan a la cuestión de la confianza: ¿cómo crear una aplicación de IA generativa que proporcione respuestas precisas y no alucine? Esta disyuntiva ha atormentado al sector durante el último año, pero resulta que podemos aprender mucho de una tecnología que ya conocemos: los motores de búsqueda.

Observando lo que los motores de búsqueda hacen bien (y lo que no), podemos aprender a crear aplicaciones de IA generativa más fiables. Esto es importante porque la IA generativa puede aportar enormes mejoras en eficiencia, productividad y servicio al cliente, pero solo cuando las empresas puedan estar seguras de que sus aplicaciones de IA generativa proporcionan información fiable y precisa.

En algunos contextos, el nivel de precisión exigido a la IA es menor. Si estás creando un programa que decide qué anuncio mostrar a continuación en una página web, la precisión de la IA es valiosa. Pero si un cliente pregunta a tu chatbot de IA a cuánto asciende su factura este mes o un empleado pregunta cuántos días de permiso le quedan, no hay margen de error.

Los motores de búsqueda llevan mucho tiempo tratando de ofrecer respuestas precisas a partir de grandes cantidades de datos, y tienen éxito en algunas áreas y son más débiles en otras.

Tomando los mejores aspectos de la búsqueda y combinándolos con nuevos enfoques que se adaptan mejor a la IA generativa en los negocios, podemos resolver el problema de la confianza y liberar el poder de la IA generativa para el entorno laboral.

Separar el grano de la paja

Uno de los aspectos en los que los motores de búsqueda obtienen buenos resultados es en la criba de grandes volúmenes de información y la identificación de las fuentes de mayor calidad. Por ejemplo, al examinar el número y la calidad de los enlaces a una página web, los motores de búsqueda devuelven las páginas web que tienen más probabilidades de ser fiables. Los motores de búsqueda también favorecen los dominios que se sabe que son fiables, como los sitios web oficiales, o fuentes de noticias establecidas como la BBC.

En el ámbito empresarial, las aplicaciones de IA generativa pueden emular estas técnicas de clasificación para obtener resultados fiables. Deberían favorecer las fuentes de datos de la empresa a las que se ha accedido, buscado o compartido con más frecuencia. Y deben favorecer las fuentes que se sabe que son fiables, como los manuales de formación de la empresa o una base de datos de recursos humanos, mientras que desfavorecen las fuentes menos fiables.

Los LLM son un interlocutor, no un oráculo

Muchos de los grandes modelos lingüísticos (LLM) fundacionales se han entrenado en Internet, que como todos sabemos contiene información tanto fiable como poco fiable. Esto significa que son capaces de responder a preguntas sobre una gran variedad de temas, pero aún no han desarrollado los métodos de clasificación más maduros y sofisticados que utilizan los motores de búsqueda para afinar sus resultados. Esa es una de las razones por las que muchos LLM reputados pueden alucinar y ofrecer respuestas incorrectas.

Uno de los aprendizajes aquí es que los desarrolladores deben pensar en los LLM como un interlocutor lingüístico, más que como una fuente de verdad. En otras palabras, los LLM son buenos para comprender el lenguaje y formular respuestas, pero no deben utilizarse como fuente canónica de conocimiento. Para hacer frente a este problema, muchas empresas entrenan a sus LLM con sus propios datos corporativos y con conjuntos de datos verificados de terceros, minimizando la presencia de datos erróneos. Adoptando las técnicas de clasificación de los motores de búsqueda y favoreciendo las fuentes de datos de alta calidad, las aplicaciones para empresas basadas en IA resultan mucho más fiables.

La humildad de decir "no lo sé"

La búsqueda también ha mejorado bastante a la hora de entender el contexto para resolver consultas ambiguas. Por ejemplo, un término de búsqueda como "swift" puede tener múltiples significados: el autor, el lenguaje de programación, el sistema bancario, la sensación del pop, etc. Los motores de búsqueda tienen en cuenta factores como la ubicación geográfica y otros términos de la consulta para determinar la intención del usuario y ofrecer la respuesta más pertinente.

Sin embargo, cuando un motor de búsqueda no puede proporcionar la respuesta correcta, porque carece del contexto suficiente o no existe una página con la respuesta, intentará hacerlo de todos modos. Por ejemplo, si se pregunta a un motor de búsqueda: "¿Cómo será la economía dentro de 100 años?" o "¿Quién ganará la próxima Eurocopa?", es posible que no disponga de una respuesta fiable. Pero los motores de búsqueda se basan en la filosofía de que deben dar una respuesta en casi todos los casos, aunque carezcan de un alto grado de fiabilidad.

Esto es inaceptable para muchos casos de uso empresarial, por lo que las aplicaciones de IA generativa necesitan una capa entre la interfaz de búsqueda (o consulta) y el LLM que estudie los posibles contextos y determine si puede proporcionar una respuesta precisa o no. Si esta capa descubre que no puede proporcionar la respuesta con un alto grado de confianza, debe comunicárselo al usuario. Esto reduce en gran medida la probabilidad de una respuesta errónea, ayuda a generar confianza con el usuario y puede ofrecerle la opción de proporcionar un contexto adicional para que la aplicación IA generativa pueda producir un resultado fiable.

Esta capa entre la interfaz de usuario y el LLM también puede emplear una técnica llamada Retrieval Augmented Generation, o RAG, para consultar una fuente externa de datos de confianza que no está en el LLM.

Muestra tu trabajo

La explicabilidad es otra de las áreas débiles de los motores de búsqueda, pero una que las aplicaciones de IA generativa deben emplear para generar mayor confianza. Al igual que los profesores de secundaria piden a sus alumnos que muestren su trabajo y citen las fuentes, las aplicaciones de IA generativa deben hacer lo mismo. Al revelar las fuentes de información, los usuarios pueden ver de dónde procede la información y por qué deben confiar en ella. Algunos de los LLM públicos han empezado a ofrecer esta transparencia y debería ser un elemento fundamental de las herramientas de IA generativa utilizadas en los negocios.

A pesar de todos los esfuerzos, será difícil crear aplicaciones de IA que cometan muy pocos errores. Y, sin embargo, los beneficios son demasiado importantes como para quedarse al margen y esperar que los competidores no se adelanten. Esto hace que los usuarios empresariales tengan la responsabilidad de acercarse a las herramientas de IA con los ojos bien abiertos. Al igual que Internet ha cambiado la forma en que la gente se relaciona con las noticias y las fuentes de noticias, los usuarios empresariales deben desarrollar un escepticismo educado y aprender a buscar señales de IA fiable. Esto significa exigir transparencia a las aplicaciones de IA que utilizamos, buscar explicaciones y ser conscientes de los posibles sesgos.

Estamos en un viaje apasionante hacia una nueva clase de aplicaciones que transformarán nuestro trabajo y nuestras carreras de formas que aún no podemos prever. Pero para que sean valiosas en los negocios, estas aplicaciones deben ser fiables y dignas de confianza. Los motores de búsqueda sentaron algunas de las bases para obtener respuestas precisas a partir de grandes volúmenes de datos, pero se diseñaron pensando en casos de uso diferentes. Tomando lo mejor de la búsqueda y añadiendo nuevas técnicas para garantizar una mayor precisión, podemos liberar todo el potencial de la IA generativa en los negocios.

*** José María Alonso es Country Manager Spain & Portugal de Snowflake