Cuando las cifras de contagios por COVID-19 pasaron de ser un goteo a una curva de crecimiento exponencial en España; cuando una población confinada se obsesionaba por modelos de predicción epidemiológica y gráficos de tendencias; Concha Bielza, catedrática del departamento de Inteligencia Artificial de la Escuela Técnica Superior de Ingenieros Informáticos de la Universidad Politécnica de Madrid, sentía que toda su carrera le había llevado hasta este momento. La pandemia traía consigo una avalancha de datos e informaciones que necesitaban métodos computacionales para extraer conocimiento científico de forma urgente.
Con experiencia en la aplicación del Machine Learning a la biomedicina, bioinformática, neurociencia o incluso el deporte, los investigadores del Computational Intelligence Group de la UPM se lanzaron a trabajar con los datos de la crisis sanitaria en España. Para su desolación, se encontraron con el caos: como se ha ido comprobando a lo largo de estos meses, no existen criterios unificados, y los problemas de recuento y consolidación son frecuentes. Comenzaba entonces un laborioso trabajo para la profesora Bielza de llamar puerta por puerta a los hospitales para pedirles acceso a su información clínica.
La perseverancia de la investigadora matemática ha dado sus frutos: impulsado a partir del dataset liberado por HM Hospitales, COVID Data Saves Lives, su proyecto de un modelo de predicción mediante inteligencia artificial de la evolución de un paciente según su pronóstico al ingreso y la eficacia para él de distintos tratamientos, ha recibido una de las Ayudas Especiales convocadas por la Fundación BBVA para equipos de investigación que abordan las distintas facetas de la pandemia. Tres de los principales hospitales de Madrid -el Ramón y Cajal, la Fundación Jiménez Díaz y el hospital Sanitas-La Zarzuela- suman ahora su experiencia acumulada en el tratamiento de la COVID-19.
¿Cómo fueron los primeros pasos del proyecto, en lo más crudo de la crisis sanitaria?
Nosotros tenemos experiencia analizando datos desde hace 25 años. No solo en medicina, también trabajamos en cosas tan variopintas como el fútbol. Ya a principios de marzo, queríamos hacer algo con los datos de la pandemia, pero nos costaba un montón encontrarlos. Dio la casualidad de que tenemos un exalumno chino, y él sí nos pudo proporcionar datos de un hospital cerca de Wuhan. Así que empezamos por información de China, cuando lo lógico hubiera sido trabajar sobre España y más concretamente Madrid, que estaba sufriendo tanto. Pero a los pocos días, nos dijo que no podíamos finalmente usarlos, porque iban a probar un nuevo tratamiento y lo querían publicar ellos. Eso es lo que pasa con los datos, que son como el petróleo...
Son muy valiosos.
Muy valiosos, sí. Nos pusimos entonces a hacer llamadas, pero eran días de muchísimo caos. Vimos entonces que HM Hospitales liberaba unos 2.000 datos clínicos de pacientes ingresados en sus centros sanitarios del 24 de febrero al 24 de abril. Hicimos una petición que nos aprobó su comité de data science,y empezamos a mirar qué información había. Al poco, surgió la convocatoria especial de Ayudas de la Fundación BBVA.
La Fundación Jiménez Díaz, el Hospital Ramón y Cajal o el de la Zarzuela también participan en el proyecto. ¿Cómo consiguieron 'reclutarlos'?
Cuando preparábamos la Ayuda de la Fundación BBVA, nos dijimos que con una sola base de datos no tenía sentido hacer un análisis. Más aún cuando está cambiando tantísimo el tratamiento de los pacientes según se va conociendo mejor la enfermedad. Nos interesaba analizar muchos más datos, y de distintos hospitales. Los tres, todos universitarios, accedieron a compartir sus datos y a colaborar en el proyecto aportando además su conocimiento de la práctica clínica. El proyecto empezó oficialmente el día nueve, y ahora una de las cosas más difíciles es conseguir que los datos sean homogéneos entre los tres hospitales. Para el segundo año, me encantaría poder contactar con más. En el pasado he trabajado con hospitales como el Gregorio Marañón, y no descarto contactarles. Hemos pedido a la Comunidad de Madrid que nos ayude a abrir puertas, lo que beneficiaría al proyecto.
¿Qué dificultades han encontrado para organizarse? De su lado, estaban confinados; del lado hospitalario, la saturación; y en medio, los problemas para unificar datos que estamos viendo en España.
De momento nos organizamos con reuniones virtuales y con el teléfono o correo electrónico. La Fundación Jiménez Díaz agrupa a cuatro hospitales, lo que es muy positivo. Se han comprometido con datos de 4.000 pacientes; el Ramón y Cajal, con otros 2.400; Sanitas-La Zarzuela, con 600... Así que espero llegar a los 10.000 pacientes si incluimos a los de HM Hospitales. Ése sería el volumen mínimo ideal, pero cuántos más, mejor. Aspiramos a seguir alimentando el modelo con datos durante los siguientes dos años de proyecto para cubrir más casuística y lograr una capacidad de generalización mayor. Algo interesante sería comparar los tratamientos que se usaban en el pico de la pandemia con lo que está ocurriendo ahora, ver qué dicen los datos sobre si se ha producido realmente un cambio.
¿Qué datos son los que necesitan que les proporcionen los hospitales?
Los objetivos pasan por la predicción de la intubación y la mortalidad, la estimación de la eficiencia del tratamiento, y, en realidad, cualquier pregunta que se nos ocurra hacerle al modelo. Necesitamos datos de edad, sexo; factores de riesgo como el tabaquismo, la diabetes, la hipertensión, eventos isquémicos, colesterol; si tiene cáncer, EPOC... En la base de datos de HM Hospitales teníamos los signos vitales en el momento del ingreso: temperatura, pulso, saturación... luego, tras pasar a UCI, todos los marcadores de la respuesta inflamatoria, la carga viral... Después, todos los tratamientos, que han sido muchísimos. Y el resultado final. Lo importante va a ser ver qué están recogiendo los hospitales y tratar de homogeneizar, aunque hay técnicas de aprendizaje automático que pueden imputar un valor faltante: por ejemplo, si unos han empezado a registrar síntomas como el dolor abdominal o la diarrea y otros no.
Lo que haría el 'machine learning' es computar todos los factores en el momento del ingreso, relacionarlos con diferentes tratamientos e inferir los probables resultados.
Sí, se puede decir así, poniendo el foco el resultado. El modelo no me va decir solo con qué probabilidad el paciente va a terminar falleciendo o intubado, que es importantísimo, sino que me va a mostrar en forma de grafo, como unos circulitos y unas flechas, qué relación tienen unos factores con otros. Es muy transparente y lo que está demandando la Inteligencia Artificial recientemente: Explainable Artificial Intelligence, Inteligencia Artificial Explicable. Hay modelos de 'caja negra' que solo te muestran el resultado, sin explicar por qué. Pero lo que nos aporta el que vamos a usar, el de las redes bayesianas, es la posibilidad de hacer preguntas súper específicas sobre un paciente determinado, y saber el por qué de la respuesta. Qué medicamentos se asocian a una alta mortalidad, qué factores conducen a un tratamiento exitoso, cuál es el perfil más probable de los fallecidos... son preguntas que podremos responder.
Y todo esto redundaría no solo en una mejor supervivencia y recuperación, sino en un menor tiempo de hospitalización, y en un menor colapso sanitario.
Claro, si el tratamiento es más eficaz, el alta se producirá antes y habrá una menor saturación hospitalaria. Pero otra cosa a la que doy mucha importancia es nuestra intención de poner a disposición de la comunidad médica nuestro modelo para que lo use desde una plataforma web. La idea es que un clínico rellene las variables de su paciente, y obtenga una respuesta según el resultado que busca.
¿Por qué no se han aplicado más este tipo tecnologías a la lucha contra la pandemia en España? Ni siquiera la app de rastreo ha llegado a despegar.
Pues eso me gustaría a mí saber. Yo, que me dedico a esto, desde el primer momento vi la oportunidad de mi vida para poder ayudar. Pero no había datos. Gracias a la ayuda de la Fundación BBVA, ahora el proyecto es visto de otra forma. Es una convocatoria muy competitiva, en mi área se han seleccionado cuatro de 150 proyectos. Y así se consigue un mayor compromiso: se dan cuenta de que vales la pena. Yo entiendo que en los hospitales ya tienen bastante con el día a día, pero tener la información de miles de pacientes es muchísimo mejor que lo que puede ver un médico a lo largo de su vida. Sobre el hecho de digitalizar y compartir los datos sanitarios, será una revolución, pero desde mi punto de vista ya vamos tarde si nos comparamos con otros paises de nuestro entorno.
Tras haber trabajado en tantos ámbitos, ¿tiene la sensación de que compartir anónimamente nuestros datos sanitarios nos produce más reparo que entregar otro tipo de información personal que sí damos libremente?
Es cuestión de cambiar la mentalidad: todos los días dejas en las redes un rastro de información del que descaradamente pueden sacar muchos rasgos de tu personalidad. ¿Por qué no lo hacemos en medicina? En el caso del coronavirus, la gente no quiere que la confinen, o que la señalen. En mi propia familia, que somos muchísimos primos, en un grupo de WhatsApp se habla de cualquier cosa, pero si hay un enfermo, cuesta decirlo. Me entero por otro lado. La gente tiene miedo, se sienten apestados, controlados por el Gobierno... en vez de pensar en lo que es necesario para frenar el virus, como hacen en otros países de la forma más natural. Igual que donas órganos, se debe concienciar para "donar" tus datos sobre el virus por el bien común. Se trata de poner un granito muy importante para frenar una pandemia mundial. Y hay muchas maneras de garantizar la privacidad. Ha podido haber casos de fallos de seguridad que hacen que la gente se ponga a la contra, pero hay que ser conscientes de que esto va a ayudar. Como no desarrollemos una conciencia social, no vamos a ningún lado.