Con la colaboración de

Tecnología

Aprendizaje por refuerzo: la inteligencia artificial que aprende "como un niño que empieza a andar"

Manuel Gallardo, director de Data Analytics e Inteligencia Artificial de Grupo Oesía, ensalza las virtudes y el potencial del 'aprendizaje por refuerzo' que fortalece los sistemas basados en Inteligencia Artificial.

15 septiembre, 2023 03:17

En los últimos años, la inteligencia artificial se ha situado como uno de los temas más recurrentes al hablar de la nueva tecnología que incorporan empresas en todo tipo de sectores. Se trata de un ecosistema con un potencial que cada día ofrece nuevas oportunidades, un futuro en el que la promesa de mayor eficiencia, de más precisión y de una gestión de recursos optimizada está llamada a cambiar el día a día de millones y millones de personas.

Eso es algo cuyas implicaciones ya están plenamente vigentes. A veces de una forma más evidente; otras, en ámbitos casi insospechados para el gran público. Pero lo cierto es que la inteligencia artificial y, a su estela, la preeminencia de los datos y las capacidades de aprendizaje autónomo asociadas ya están apuntando a un punto de inflexión a nivel global.

Grupo Oesía es una de estas compañías que están impulsando este cambio. Se trata de una "multinacional de capital 100% privado y española dedicada a la ingeniería industrial y digital", como explica su director de Data Analytics e Inteligencia Artificial, Manuel Gallardo. La firma lleva más de 45 años desarrollando productos de tecnología de vanguardia "con el objetivo de crear un mundo mejor, más eficiente seguro y sostenible, desarrollando e implementando soluciones tecnológicas punteras, especialmente para la industria de la Defensa, pero también destinadas a la transformación digital de las empresas y la Administración Pública".

Entre los principales clientes de la firma se encuentran, por ejemplo, Telefónica, Orange, La Caixa, KPMG, la ONCE, la Generalitat de Catalunya, la Xunta de Galicia o la Junta de Castilla y León, entre muchas otras. Empresas de considerable peso en la sociedad y economía españolas que ponen de relieve la solidez de las soluciones que pone sobre la mesa Grupo Oesía y que nos sirven para hablar con Gallardo sobre la actualidad de la compañía:

Manuel Gallardo, director de Data Analytics e Inteligencia Artificial.

Manuel Gallardo, director de Data Analytics e Inteligencia Artificial.

Pregunta.- Sobre la IA como herramienta en auge desde hace pocos años, le pediría que nos valorara en qué medida ha cambiado la actividad de una empresa como Grupo Oesía a medida que se ha ido implementando este nuevo paradigma.

Respuesta.- Efectivamente, desde hace unos años, la inteligencia artificial está revolucionando la manera en la que las empresas y las personas se relacionan entre sí. Ya la encontramos en el uso cotidiano de sistemas personales (asistentes virtuales, traductores, teclados predictivos) y en sistemas empresariales más complejos. Para Grupo Oesía la IA se presenta como un aliado estratégico para las empresas, y bajo esta concepción ofrecemos a nuestros clientes un amplio abanico de servicios basado en este tipo de tecnología. 

Bajo nuestro punto de vista, la IA es aplicable en cualquier sector empresarial. En contra de la creencia más difundida, no es necesario realizar grandes inversiones para adoptar y desplegar modelos de Inteligencia Artificial. Desde los casos de uso más sencillos hasta los más complejos, es posible mejorar la competitividad de las empresas mediante una adopción escalonada y asequible de la IA. El uso de la IA no está limitado a grandes empresas; las pymes también pueden beneficiarse de la automatización en sus cadenas de valor y mejorar la calidad del servicio, la rapidez de respuesta, y la adaptabilidad ante nuevas situaciones basándose en datos empresariales.

La inteligencia artificial está revolucionando la manera en la que las empresas y las personas se relacionan entre sí. Es aplicable en cualquier sector empresarial

Pregunta.- Dado que las posibilidades de la Inteligencia Artificial son tan grandes, ¿cómo es el proceso para adaptarla a cada área de actividad que tiene un grupo como Grupo Oesía?

Respuesta.- Adoptar herramientas de IA e implementar un enfoque de orientación al dato no es un proceso que se pueda improvisar; requiere emplear una metodología y seguir unos pasos que garanticen el éxito y proporcionen beneficios medibles para la organización.

El primer paso es analizar los procesos de negocio. En este punto, la colaboración entre el cliente y el equipo de consultoría especialista en IA resulta fundamental para identificar oportunidades concretas y medibles. De este análisis se obtiene un listado de casos de uso inicial para su implementación.

Una vez identificados los casos de uso se debe realizar un análisis del estado de la política y gobierno del dato de la empresa, y definir una estrategia para los datos necesarios para los casos establecidos: disponibilidad, ubicación, accesibilidad, existencia de políticas de actualización e ingesta, calidad del dato, etc. 

Por último, es necesaria la implementación paulatina de los casos de uso identificados, priorizando aquellos que supongan un menor coste de implantación y mayor beneficio para la empresa. Se garantiza así una adopción gradual y efectiva de la Inteligencia Artificial en los procesos de la compañía, al tiempo que se proporciona tiempo a la plantilla para ir asimilando el cambio cultural necesario para obtener el mayor beneficio de la IA.

Pregunta.- Y siguiendo el argumento previo, parece que lo que tienen en común los diferentes usos es el punto de partida: el dato como forma para entrenar y afinar los sistemas. 

Respuesta.- Efectivamente, disponer de los datos suficientes y adecuados resulta prioritario antes de poder iniciar el camino hacia la empresa orientada al dato. Una empresa orientada al dato, Data Driven, como se conoce en inglés, es aquella que realiza el análisis de situación y toma decisiones basándose en datos objetivos y no en “impresiones”, mejorando objetivamente la calidad de los análisis y por lo tanto tomando las mejores decisiones, tanto en el presente como de cara al futuro.

Es fundamental, por lo tanto, ser capaz de recopilar toda la información disponible y relevante para los objetivos marcados por la empresa, evitando los silos de información, de manera que se puedan buscar y establecer patrones entre todas las variables de la empresa de cara mejorar la calidad de las decisiones a tomar y la velocidad de respuesta.

Pregunta.- Relacionado con ello, ¿cómo se actúa allí donde no existe un bagaje de datos o de experiencia previos o, al menos, insuficiente para entrenar un modelo de IA?

Respuesta.- Es cierto que, en ocasiones, se presentan situaciones y sistemas de alta complejidad para los que no se dispone de conjuntos de datos para el entrenamiento del modelo debido a la infinidad de situaciones posibles y condiciones de funcionamiento variables que invalidan el entrenamiento supervisado tradicional, como por ejemplo, los sistemas de conducción autónoma de vehículos, pilotos inteligentes para aviones no tripulados, asistentes para la toma de decisiones en entornos variables de alta complejidad, etc.

En estos casos se utiliza una técnica de inteligencia artificial avanzada conocida como aprendizaje por refuerzo (Reinforcement Learning, RL, por sus siglas en inglés), que básicamente se basa en el autoaprendizaje del sistema mediante prueba y error: el sistema proporciona soluciones para interactuar con el entorno, y el entorno en el que opera proporciona una “recompensa” en función de lo adecuada que haya sido la solución al problema.

Pregunta.- Hablamos del concepto de ‘Aprendizaje por refuerzo’ y sus similitudes con el aprendizaje humano. ¿Podría desarrollarnos esta idea?

Respuesta.- En el fondo, el “aprendizaje por refuerzo” utiliza el mismo mecanismo que emplea un niño que no sabe andar y su objetivo es conseguir cruzar una habitación. ¿Cómo aprende? El niño prueba a levantarse, se cae (le duele, llora); se vuelve a levantar y lo vuelve a intentar…., pero esta vez con una pequeña variación que mejora su actuación anterior. Se vuelve a caer, pero le duele algo menos porque la caída ha sido más leve, y toma nota. Poco a poco va aprendiendo hasta que consigue quedarse de pie. A continuación, intenta dar un paso, se cae, y repite todo el ciclo hasta que al final aprende a andar.

En cada intento, el niño (el sistema) aprende algo nuevo que le hace estar más cerca de conseguir su objetivo. Cada caída es una “recompensa negativa” para el sistema, cada nuevo paso es una “recompensa positiva”, hasta que finalmente cruza la habitación entera, en cuyo caso recibe una “gran recompensa”: la satisfacción de haber conseguido su objetivo.

El 'aprendizaje por refuerzo' utiliza el mismo mecanismo que emplea un niño que no sabe andar y su objetivo es conseguir cruzar una habitación

Pregunta.- Se alude a un sistema de prueba/error con los equivalentes de recompensa/castigo. ¿Cómo se afinan o modulan estas metas para que la IA dé una respuesta adecuada y proporcional?

Respuesta.- Es algo relativamente sencillo. Para que la IA dé una respuesta adecuada y proporcional definimos una simulación del entorno en el que el sistema pueda probar y fallar. De esta manera, en cada “paso” dado por el sistema en el entorno, la simulación le dará una “recompensa” en función de si el nuevo paso le lleva más cerca de alcanzar el objetivo establecido o lo aleja de él. Cada “nuevo paso” (nueva decisión) que tome el sistema será “recompensado” o “castigado” en función de si la decisión tomada lo lleva a maximizar su recompensa o no (maximizar, matemáticamente hablando, es el equivalente a hallar la derivada de la función que representa la recompensa). Se repiten los pasos hasta que el sistema tome siempre la mejor decisión para la situación en la que se encuentra el sistema en cada momento, sin perder de vista la obtención del mejor resultado posible como tarea global.

Con el objetivo de que el sistema aprenda a buscar la mejor solución global, incluso postergando resultados intermedios que puedan parecer falsamente positivos, durante el entrenamiento del sistema se le debe permitir “divagar”, de manera que pueda explorar todos los estados en los que puede estar y aprender a generalizar las “recompensas” que obtiene para las acciones posibles a tomar en cada uno de los estados posibles del entorno.

Pregunta.- ¿En qué entornos se producen estos entrenamientos, real, virtual…?

Respuesta.- Normalmente este tipo de entrenamiento se realiza en 3 etapas diferenciadas.

En la primera fase el entrenamiento se realiza sobre simulaciones del entorno en el que va operar el sistema, garantizando de esta manera el entrenamiento seguro sin riesgos durante la fase de prueba y error del aprendizaje.

En una segunda fase, se sigue entrenando al sistema en un entorno real controlado bajo una supervisión estricta de los humanos, conocido como aprendizaje por refuerzo con feedback humano (RLHF, por sus siglas en inglés), que corrigen cualquier tipo de decisión del sistema que no se ajuste a los criterios de seguridad establecidos. Por último, en una tercera fase se permite al sistema actuar de manera “autónoma” en el entorno, si bien siempre deben existir alarmas que avisen de posibles desviaciones en los parámetros nominales del sistema, y la posibilidad de retomar el control manual del mismo en cualquier momento, sobre todo en sistemas considerados críticos.

Pregunta.- ¿Cómo se puede adaptar el sistema a un entorno en el que se enfrente a condiciones cambiantes, es posible que pueda hacerlo de manera autónoma?

Respuesta.- Hasta ahora, de forma implícita, hemos asumido que, ante una acción del sistema sobre el entorno, este siempre iba a dar una respuesta (una recompensa) igual; pero, ¿qué ocurre si la respuesta del entorno varía? (con una cierta consistencia, claro, es imposible aprender en un sistema completamente caótico).

La respuesta es que sí, un sistema de aprendizaje por refuerzo es capaz de afrontar situaciones en la que el entorno varía su comportamiento dentro de unos determinados regímenes de variación, por lo que un sistema de aprendizaje por refuerzo es capaz de adaptar su respuesta ante posibles degradaciones del entorno; por ejemplo, por el desgaste de las piezas del sistema a controlar, o por condiciones cambiantes en el entorno (IPC, tipos de interés, variaciones en la demanda, etc).

Un sistema de aprendizaje por refuerzo es capaz de adaptar su respuesta ante posibles degradaciones del entorno

Pregunta.- Hablamos de tecnología, pero quisiéramos también poner en valor el factor humano que hace posible esto. Por una parte, sobre cuál es su papel en todo este esquema de aprendizaje y, por otra, qué recursos tiene Oesía dedicados para el desarrollo de alguna de estas aplicaciones.

Respuesta.- Cuando hablamos del desarrollo de sistemas de Inteligencia Artificial Profunda es fundamental contar con un equipo humano y multidisciplinar altamente capacitado y con experiencia en diferentes campos de alta especialización de manera que se asegure el éxito de los proyectos.

La versatilidad de mercados en los que opera Grupo Oesía (simulación, defensa, industria, sanidad, ciberseguridad, banca, administraciones públicas, etc.), y la altísima exigencia de estos, es lo que nos ha permitido ser una de las pocas empresas en España con capacidad para abordar este tipo de desarrollos con garantía de éxito.

De hecho, el principal recurso con el que cuenta Grupo Oesía es su capital humano. Contamos con un Centro de Competencia de Data Analytics e Inteligencia Artificial en el que trabajan profesionales altamente cualificados. Gracias a ellos somos capaces de diseñar y desplegar infraestructuras de datos e inteligencia artificial avanzada para obtener los mejores resultados de la automatización de procesos, permitiendo a las empresas mejorar su competitividad y adoptar la cultura 'data driven'.