La IA médica de Google fracasa en sus primeras pruebas reales pese a su gran potencial
La IA de Google especializada en medicina ya se ha enfrentado a sus primeras pruebas reales, y distan mucho de ser fructíferas.
28 abril, 2020 13:47Noticias relacionadas
La Inteligencia Artificial, especialmente si hablamos de la que maneja Google, se ha convertido en todo un reclamo de venta y se ha glorificado hasta casi tenerla como una hacedora de milagros. Pero nada más lejos de la realidad; es una tecnología increíblemente prometedora, pero hasta la de Google tiene sus fallos.
Google Health, la división médica de Google, creó un modelo de 'deep learning' que e dedica a observar imágenes del ojo en busca de evidencias de retinopatía diabética, una de las principales causas de pérdida de visión en todo el mundo. Los investigadores de Google realizaron pruebas en clínicas rurales de Tailandia, y el resultado fue desasatroso.
A pesar de que el modelo contaba con una precisión teórica muy alta, la IA resultó ser todo un fracaso en las pruebas. Era poco práctica y frustró mucho al personal, ya que los resultados eran inconsistentes y se alejaban mucho de los resultados que la misma arrojó en pruebas previas.
La IA de Google no da la talla
Las lecciones que la IA tuvo que aprender son muy difíciles; la medicina contiene muchos factores que pueden propiciar que una Inteligencia Artificial, basada en entrenamientos, no de los resultados esperados. No obstante el realizar estas prácticas es necesario para comprobar la usabilidad de la IA en pruebas de campo reales.
El documento que la misma Google ha desvelado detalla el despliegue de esta herramienta, destinada a aumentar el proceso existente mediante el cual los pacientes de varias clínicas en Tailandia son examinados para detectar la retinopatía. Las enfermeras toman pacientes de uno en uno, toman fotos de sus ojos y los envían en lotes a los oftalmólogos. Una vez hecho esto, ellos evalúan las fotos y devuelven resultados, y tardan mucho; entre 4 y 5 semanas.
Por ende, la idea detrás de este modelo es proporcionar esta misma experiencia pero en segundos. Las pruebas internas desvelaban un 90% de precisión; las enfermeras hacían recomendaciones preliminares y los resultados convencionales que tardaban un mes de media se otorgaban con la IA en poco más de un minuto. Pero el estudio muestra que esto no es necesariamente así.
"Observamos un alto grado de variación en el proceso de detección ocular en las 11 clínicas de nuestro estudio. Los procesos de captura y clasificación de imágenes fueron consistentes en todas las clínicas, pero las enfermeras tenían un alto grado de autonomía sobre cómo organizaron el flujo de trabajo de detección.
El entorno y los lugares donde se realizaron los exámenes fueron muy variados. Solo 2 clínicas tenían una sala de detección dedicada que podían oscurecerse para garantizar que las pupilas de los pacientes fueran lo suficientemente grandes como para tomar una foto "de fondo" de alta calidad. Las imágenes enviadas al servidor no cumplían con los altos estándares del algoritmo".
El problema, como es fácil de imaginar, está en la variabilidad. "El sistema de aprendizaje tiene pautas estrictas con respecto a las imágenes que evaluará. Si una imagen tiene un poco de desenfoque o una área oscura, el sistema la rechazará. [...] Los altos estándares del sistema para la calidad de imagen están en desacuerdo con la consistencia y la calidad de imágenes que las enfermeras capturaban rutinariamente. Este desajuste causó frustración y trabajo adicional.
El proceso se complica
En general, el problema residía en que el proceso que se suponía que debía simplificarse se tornó complicado. Otros factores se unieron al problema; la conexión a Internet en las clínicas eran menos fiables y más lentas, y debido a que tenían que subir las imágenes al servidor, debían esperar a que estas se subieran en alta calidad. El sistema rechazaría las imágenes de baja calidad.
Las imágenes tardaban entre 60 y 90 segundos en cargarse. Puede parecer poco, pero recordemos que hay una cola de detección y este tiempo limita el número de pacientes que se pueden examinar en un día. Por si fuera poco, en una de las clínicas en la que se estaban llevando a cabo las pruebas se cayó la conexión, dejando Internet inactivo durante 2 horas. Los pacientes examinados pasaron de 200 a 100.
Una cosa llevó a la otra; en el intento de aprovechar esta tecnología, menos personas recibieron tratamiento y las enfermeras tuvieron que entretenerse buscando otras soluciones a nuevos problemas. De hecho, se llegó a aconsejar a los pacientes que no participaran en el estudio.
Pero algún caso tenía que salir bien, ¿no? Incluso los que mejores resultados dieron tuvieron problemas; muchos de los pacientes no estaban preparados para evaluaciones instantáneas y mucho menos establecer citas de seguimiento inmediatamente después del envío de las imágenes.
"Como resultado del diseño del protocolo del estudio prospectivo, y potencialmente la necesidad de hacer planes sobre el terreno para visitar el hospital de referencia, observamos a las enfermeras de las clínicas 4 y 5 disuadir a los pacientes de participar en el estudio prospectivo, por temor a que esto causara dificultades innecesarias".
"[Los pacientes] no están preocupados por la precisión, pero sí por cómo será la experiencia. ¿Perderé mi tiempo si tengo que ir al hospital?", cuenta una enfermera. "Les aseguro [a los pacientes] que no tienen que ir al hospital. Preguntan: '¿lleva más tiempo?', '¿voy a otro lado?'. Algunas personas no están listas para ir, así que no se unirán a la investigacioón.
No todos son malas noticias
No hay que desechar ya la idea de la IA. El problema no es que la IA no sea una buena herramienta, sino que la solución debe adaptarse al problema y al lugar. Los pacientes y las enfermeras apreciaron cuando el sistema funcionaba bien, a veces ayudando ad emostrar que se trataba de un problema grave y que debía abordarse pronto. Además, se reducía en ocasiones la dependencia de un recurso severamente limitado con es el de los oftalmólogos locales de la zona.
Sin embargo, los mismos autores del estudio dejaron claro que esta es una aplicación muy prematura. Los autores argumentan que "atender a las personas (sus motivaciones, valores, identidades profesionales) es vital a la hora de planificar estos despliegues". Por lo tanto, es fácil pensar que en las condiciones adecuadas y con un par de ajustes, el sistema podrá beneficiar mucho a los entornos en los que se aplique.