Es bien sabido que una pandemia no sólo es un fenómeno sanitario. También es un fenómeno estadístico y, si tiene fuertes implicaciones sobre la actividad, como es el caso del Covid 19, además es un fenómeno económico y social. Es lógico, por tanto, que haya multitud de investigadores de muchas disciplinas interesadas en el análisis de la evolución de la pandemia.
Salvo algunas excepciones corporativistas, del tipo “este tema es nuestro, los intrusos no tenéis derecho a opinar”, en general se ha aceptado en todo el mundo que el análisis multidisciplinar enriquece el diagnóstico, el debate sobre las medidas y los diferentes escenarios de riesgo. Al fin y al cabo, todos los investigadores que utilizan herramientas analíticas y el conocimiento a partir del pasado son parte de la “Ciencia”. Lo son los matemáticos, los estadísticos y lo pretenden ser los economistas cuantitativos, aunque el apelativo de “ciencia social” no les ayuda.
Pensando en la dimensión estadística y económica de la pandemia, resulta evidente la importancia de disponer de una buena base de datos que permita un análisis de calidad. No sólo en lo que se refiere a los modelos predictivos sobre la evolución futura de la pandemia o sus posibles rebrotes, sino en los análisis que se harán a posteriori sobre la importancia de diferentes variables explicativas en su incidencia (temperatura, edad, nivel de renta, contaminación, densidad de población, costumbres sociales, etc.) y en el distinto impacto económico de los diferentes modelos de afrontar la pandemia en diferentes países.
Habrá cientos de tesis doctorales de todas las Universidades del planeta sobre esta pandemia. Y, para buena parte de ellas, será crucial disponer de una base de datos amplia, homogénea y de calidad. Los países con malas bases de datos se quedarán al margen de esos estudios y, por tanto, no gozarán de los resultados e implicaciones “científicas” que se deriven de las mismas.
Uno de esos casos será el español. Pese a un buen arranque, en la que el Centro de Coordinación de Alertas y Emergencias Sanitarias (CCAES) informaba de forma puntual y aséptica de la evolución de los casos en nuestro país, a medida que avanzaba la epidemia, la recogida y publicación de los datos se volvió caótica.
Es cierto que, al estar nuestro Sistema Nacional de Salud (SNS) descentralizado, la labor del CCAES no era tan sencilla como en modelos más centralizados. Pero no deja de resultar llamativo que, habiéndose declarado el estado de alarma el 15 de marzo, no es hasta mediados de abril cuando se publican un “formulario de notificación de casos probables o confirmados de infección por SARS-Cov-2” común y obligatorio para todas las CCAA. Es decir, cuando llevábamos ya un mes de epidemia y cerca de 200.000 casos, es cuando se decide “poner orden” a la información estadística de las CCAA.
Eso da una idea de la importancia de la estadística en el ranking de prioridades de nuestros responsables del sistema de emergencia sanitaria. Y, lejos de enderezarse el tema, a partir de esa fecha se empieza a desatar el caos estadístico, cuyos hitos más relevantes son los siguientes:
Duplicidad en el número de casos reportados. A partir del 19 de abril se dejan de reportar los casos detectados a partir de los análisis serológicos, y los datos sólo se refieren a los test PCR. Eso hace que empiecen a circular dos series distintas: la de las fuentes estadísticas internacionales, que buscan la comparación homogénea entre países, y la serie de “consumo interno”, con un nivel de casos inferior y un ritmo de crecimiento más pausado.
Muchos países que han hecho revisiones estadísticas afinando sus datos, eliminando duplicidades, etcétera, han echado hacia atrás sus series estadísticas, hasta el origen de la epidemia, presentando una serie completa y homogénea de la misma. Es el caso reciente del Reino Unido, y antes ocurrió con algún otro país. En el caso español no ha sido así. El investigador que en un futuro se acerque a los datos españoles tendrá que elegir entre una serie larga, pero que no es aceptada oficialmente a partir de abril, o la serie oficial, que arranca a mediados de abril cuando la pandemia ya llevaba varias semanas en fase de decrecimiento. Recordemos que el pico de la pandemia se produjo en España el 26 de marzo, con 9.181 casos nuevos en un solo día. Las discrepancias entre una y otra serie no son menores: en la serie internacional alcanzamos el viernes los 307.000 casos, y en las cifras domésticas los 260.000. No conozco ningún otro país en el que haya dos series diferentes de casos totales.
Discrepancias en el número de fallecidos. Probablemente esta sea la serie más complicada de elaborar, porque no es fácil asignar al Covid la causa del fallecimiento de una persona. Pero las discrepancias entre las cifras “oficiales”, 28.420, y las que reportan organismos públicos, como el Instituto de Salud Carlos III, a través de sus Sistema de Monitorización de la Mortalidad Diaria (MoMo) o el Instituto Nacional de Estadística (INE) son excesivas.
Así, hasta el 13 de julio, el Momo reportaba un exceso de mortalidad de 44.000 personas y el INE aventuraba una cifra similar. Estos datos serían más coherentes con la tasa de letalidad de España en comparación con otros países de nuestro entorno, que es significativamente superior (12-14% del total de casos reportados).
Ruptura de la regla de acumulación de los datos diarios. – En todos los países, como no puede ser de otra forma, se cumple que el número total de casos de cualquier día es igual al número de casos del día anterior más los casos nuevos de ese día. Esta es la regla de acumulación de cualquier stock: el incremento del stock, piénsese en un estanque de agua, es igual al flujo de entrada de nueva agua. Esto no ocurre con los datos Covid-19 españoles.
Por ejemplo, el pasado viernes el número oficial de nuevos casos fue 628. Sin embargo, la diferencia entre el stock de casos de ese día (260.255) y el publicado el día anterior (258.855) fue de 1.400 casos. Es decir, el incremento del stock fue más del doble del flujo registrado. Nótese que aquí no estamos hablando de dos fuentes estadísticas distintas o con metodología diversa. Estamos hablando de la misma serie oficial del Ministerio de Sanidad publicada diariamente.
Agujeros estadísticos en fin de semana. Este es un fenómeno relativamente reciente, del mes de julio. Pese al empeoramiento de la situación epidemiológica en las últimas semanas, las autoridades autonómicas y el CCAES han decidido no ofrecer datos durante el fin de semana. Creo que España es el único país en el que esto ocurre.
No entiendo el motivo, porque los datos existen y probablemente el Gobierno los conozca de forma reservada. No hacerlos públicos no resuelve ningún problema y puede crear incertidumbre. Pero lo más llamativo es que los datos no se facilitan a posteriori. Es decir, no se “rellenan” lo huecos del fin de semana. Los que estamos acostumbrados a manejar series estadísticas sabemos que, pese a que haya técnicas para hacerlo, no es conveniente que el usuario “rellene” por sí mismo esos huecos. La distorsión estadística que se puede introducir por un procedimiento u otro no es neutral para los resultados. Lo mínimo que se puede pedir es que esos datos se faciliten, aunque sea a posteriori.
En el gráfico presento la evolución de los datos diagnosticados en la última semana con inicio de síntomas en los últimos siete días. Es decir, de los 5.695 casos diagnosticados en la última semana, cuantos empezaron a tener síntomas en los últimos 7 días. En este caso, 1.313. El resto de los casos se consideran “antiguos” y no reflejan, según el CCAES, la verdadera evolución reciente de la pandemia en España.
Con agujeros o sin ellos, ignorando datos antiguos, incluyendo sólo los PCR y rompiendo la regla que relaciona flujos y stocks, el gráfico es bastante elocuente sobre la evolución reciente de la pandemia en España. Y es que, por mucho que se quieran ofrecer los “mejores datos posibles”, al final la realidad es la que es.