Cuatro lecciones del apagón de CrowdStrike-Microsoft

Aeropuertos, aerolíneas, hospitales, servicios de emergencia, bancos y redes de pago, administraciones públicas, gasolineras, supermercados, transportes, medios de comunicación… Suma y sigue la lista de servicios afectados por el apagón informático que hace una semana sumió en el caos a medio mundo. Y podría haber sido mucho peor.

La caída afectó a menos de un 1% de las máquinas Windows en todo el mundo: 8,5 millones de equipos aproximadamente, según Microsoft. ¿Qué habría pasado si el porcentaje hubiera sido mayor? ¿Y si hubiera afectado también a Mac y a Linux? ¿Cuál fue el problema real? ¿Qué se puede hacer para tratar de evitarlo y mitigar su impacto? ¿Qué ha hecho CrowdStrike al respecto?

Estas son las cuatro lecciones y principales aprendizajes que nos deja uno de los mayores apagones informáticos de la historia, si no el mayor:

Un problema evitable

La primera lección es que lo que pasó se podría haber evitado. Pero ¿qué pasó realmente? Lo que nos han contado es que el problema se debió a una actualización defectuosa de CrowdStrike Falcon, un antivirus de última generación ampliamente usado.

La presencia de un fichero corrupto provocó que los equipos Windows conectados que recibieron la actualización de forma automática colapsaran, al no ser capaces de leerlo. "Se quedaron en bucle en su ciclo de arranque, y apareció la conocida como ‘pantalla azul de la muerte’", explica Irene Cotillas, fundadora y CEO de Zyberia Cybersecurity.

¿Cómo es posible que algo así pase? ¿No se hacen pruebas antes de lanzar una actualización de este tipo? Sí, pero no siempre. Como explica Cotillas, CrowdStrike Falcon había pasado una certificación previa de Microsoft. Sin embargo, al lanzar actualizaciones se incluyen nuevas piezas de software que no necesitan certificarse.

Estas piezas aprovechan que Falcon tiene los permisos necesarios, para colarse dentro del núcleo del sistema operativo, llamado kernel. "Es como si voy a una discoteca con mis primos pequeños y todos ellos consiguen pasar usando mi DNI, a pesar de ser menores de edad", ejemplifica Rafa López, experto en ciberseguridad en Perception Point.

"El kernel es como las neuronas del cerebro: si las tocas y hay algún error, lo dejas en estado vegetativo", añade López. El problema -dice- es que haya proveedores que puedan llegar a ese núcleo, a las profundidades de la arquitectura del sistema. "Cualquier error a ese nivel es fulminante", afirma. De hecho, esta no es la primera vez que pasa: hace un mes le pasó algo parecido a Linux, aunque pasó inadvertido.

Si el riesgo era tan alto ¿por qué CrowdStrike no probó su actualización antes de lanzarla? El experto apunta que "se tuvieron que arriesgar porque descubrieron varias vulnerabilidades críticas en el sistema, y esas actualizaciones tenían como fin eliminarlas antes de que cualquier atacante pudiera aprovecharlas".

Una respuesta cuestionable

Otra pregunta que surge entonces es por qué permite Microsoft que terceras partes lleguen tan lejos, si es tan arriesgado. En declaraciones a The Wall Street Journal, un portavoz del gigante tecnológico culpó a la Comisión Europea de obligarle a hacerlo, a raíz de un acuerdo que ambas partes firmaron en 2009.

Un representante de la institución respondió a Euronews que corresponde a Microsoft adaptar su infraestructura de seguridad para responder a las amenazas de acuerdo con la legislación de competencia de la Unión Europea, que el incidente no se limitó a la UE, y que Microsoft nunca había planteado ninguna preocupación sobre la seguridad ni antes ni después del incidente. De hecho, en 13 años no ha habido ningún problema de este calado.

El experto Sergio de los Santos explica en LinkedIn que el acuerdo tenía como propósito promover la libre competencia. Microsoft había adquirido varios antivirus para prestar servicios de ciberseguridad con acceso directo a las tripas de Windows, una ventaja clara sobre sus competidores a la hora de proteger el sistema operativo. Por eso se acordó que la compañía debía permitir que el resto de la industria pudiera "ver" y "conocer" el sistema operativo tanto como las soluciones propias de Microsoft.

Captura del post del experto Sergio Santos en LinkedIn.

Esto no obliga a todos los antivirus a llegar al núcleo del sistema, simplemente les da la posibilidad de hacerlo. De hecho no todos lo hacen. Algunos buscan otras fórmulas e innovación propia para proteger el sistema, como explica De los Santos. López, por su parte, asegura que el gigante tecnológico debe revisar sus permisos y procesos para integrarse con el kernel.

El argumento de Microsoft se ve como una excusa en el sector. El profesor e investigador en ciberseguridad Ian Brown lo tacha de "absoluta tontería", y asegura que no hay ninguna buena razón por la cual este acuerdo no pudiera cumplirse "con los controles adecuados" por parte del gigante tecnológico.

"Hay que admirar a la gente de relaciones públicas de Microsoft por su cinismo... No están haciendo saber tan sutilmente a los medios que el VERDADERO malo en el apagón global del viernes no fue CrowdStrike, ni el mal diseño de seguridad de Windows, sino... ¡la Dirección General de Competencia de la Comisión Europea!", ironiza Brown en su blog.

Por su parte, CrowdStrike tuvo la brillante idea de ofrecer a sus socios una tarjeta de regalo de Uber Eats por valor de cerca de 9 euros como disculpa. Los cupones, además, fueron cancelados. Había tanta gente accediendo que Uber lo reconoció erróneamente como fraude y los bloqueó, según reporta TechCrunch.

Las críticas han sido unánimes. Una compensación de 9 euros no es que no sea proporcional al daño causado, es que es insultante. Una estrategia y una comunicación mal manejada que se les ha vuelto en contra.

Conclusión: la segunda lección aprendida es que es imprescindible la honestidad y la humildad a la hora de afrontar públicamente un suceso de este tipo. Los departamentos de relaciones públicas tienen que estar a la altura. En los momentos críticos, una empresa muestra su verdadera cara, y en comunicación de crisis la máxima es siempre sinceridad ante todo. Una máxima que se dice mucho, pero se practica poco.

Dependencia absoluta = vulnerabilidad absoluta

La tercera lección ya la conocíamos: poner todos los huevos en la misma cesta crea puntos de fallo únicos. Dependemos cada vez más de recursos centralizados en unos pocos grandes actores que controlan las aplicaciones de internet, la provisión de acceso y la infraestructura de servicio. Esto puede generar eficiencias, pero también serios problemas: cuando un componente crítico falla, puede tener un efecto dominó, como sucedió el pasado viernes.

La concentración de los servicios en internet y nuestra dependencia de unos pocos proveedores de software es una bomba de relojería. A ella se añade el empeño de conectarlo todo: las infraestructuras críticas, las empresas, las administraciones públicas, todo tipo de gadgets, los electrodomésticos, la ropa, las joyas… Esto abre la puerta a más ciberataques, y nos hace más vulnerables. Dependemos de internet para todo.

"El suceso acaecido el pasado viernes fue una señal inequívoca de nuestra dependencia total y absoluta de la tecnología y de que las empresas españolas no son tan robustas como imaginábamos", asegura Juan Carlos Galindo, investigador y perito tecnológico experto en ciberseguridad.

No solo las españolas. El suceso sacudió a alrededor de 125 de las 500 empresas más grandes de EEUU, las Fortune 500, con un impacto estimado de 5.000 millones de euros, según la aseguradora Parametrix. Son casi 40 millones de euros de media por empresa, aunque el impacto real ha sido desigual, concentrado sobre todo en el sector salud, banca, aerolíneas y minoristas.

No solo es una cuestión de pérdidas económicas, sino del efecto del tiempo de inactividad en los servicios esenciales afectados. López asegura que hay organizaciones "que aún lo están pasando mal".

Explica que Microsoft ha proporcionado una solución que se enchufa a los equipos afectados con USB y arregla el problema de forma automática, pero para quienes tienen decenas o cientos de miles de dispositivos afectados esto sigue implicando una enorme cantidad de trabajo manual. Además, el USB no siempre arranca de forma automática, lo que implica que en algunos casos son los usuarios quienes deben encargarse de todo el proceso.

¿Qué habría sucedido si el porcentaje de equipos Windows afectados hubiera sido del 100% en lugar del 1%, y si además el problema se hubiera replicado también en Mac y Linux? La situación habría pasado de caótica a apocalíptica.

Jen Easterly, directora de la Agencia de Seguridad de Infraestructura y Ciberseguridad de EEUU, señaló el "grave error" de CrowdStrike y el problema de que la infraestructura estadounidense sea vulnerable a "un frágil ecosistema de software que históricamente ha despriorizado la seguridad en favor de la velocidad de comercialización y otras características".

Post de un lector del libro de Esther Paniagua ‘Error 404. ¿Preparados para un mundo sin internet?’ respecto a este tema.

No me gusta decir "te lo dije", pero lo cierto es que ya advertí de todo esto en mi libro Error 404. ¿Preparados para un mundo sin internet? (Debate, 2021). Siempre digo que es una pregunta retórica: claro que no estamos preparados, como se demostró el 19 de julio. Algunos lectores compartieron en redes sociales diversas páginas del libro.

Lección cuatro: la ciberseguridad debe ser lo primero. O, al menos, estar entre las máximas prioridades de cualquier organización, institución o producto conectado, y también de los usuarios. El apagón informático que afectó a Windows fue histórico, pero ha habido muchos otros apagones masivos antes. Por otra parte, los ciberataques y los ciberdelitos crecen cada año a un ritmo vertiginoso.

Entonces, ¿por qué no nos protegemos y preparamos mejor para estas eventualidades? Le hemos visto las orejas al lobo disfrazado, pero a muchos les conviene ignorarlo y autoconvencerse de que es la abuela.

"Me sorprendió que los clientes finales de sectores tan críticos como la banca, aerolíneas y/o medios de comunicación, no tuvieran un plan de contingencia ante este tipo de situaciones finales, me refiero a una interrupción del servicio. No existía alternativa de operatividad en caso de emergencia crítica", asegura Galindo.

"Se mostró una debilidad absoluta de la que, a buen seguro, los ‘malotes’ habrán tomado buena nota”, continúa el experto. Alerta de que son muchas las señales que estamos recibiendo y "parece que a nadie con mando en plaza le importen". "¿A qué más tenemos que esperar para que la ciberseguridad esté en la agenda de los que mandan? Lo próximo puede ser cualquier cosa. El mal está ahí fuera", añade.

En efecto, los actores maliciosos han aprovechado las vulnerabilidades expuestas. Cotillas habla de clientes latinoamericanos que están recibiendo estafas de suplantación de identidad (phishing) que contienen un fichero adjunto denominado “crowdstrike-hotfix.zip” y que afirma solucionar el problema que causó el apagón.

"Si este fichero se ejecuta, permite a los ciberdelincuentes acceder al equipo de la víctima e inyectar malware (código malicioso) en las funciones principales de aplicaciones Windows", explica la perito informático y analista forense detrás de Zyberia Cybersecurity.

Tanto Cotillas como López se muestran también muy sorprendidos por la falta de preparación y de resiliencia ante un evento así. "Son imprescindibles unos planes robustos de continuidad de negocio y de recuperación de desastres", apunta el experto de Perception Point. "Se debe hacer uso de la diversidad tecnológica, las organizaciones deben sopesar los costes en gestión de sistemas y elegir un ecosistema de seguridad apropiado", indica Cotillas.

Pese a todo, hay que reconocerle a CrowdStrike una rápida respuesta al incidente. "En apenas 2 horas ya tenía la solución a su error fatal y se lo estaba comunicando a todos sus clientes, y estos a su vez a sus clientes finales", señala Galindo.

En cuanto a Microsoft y a los fabricantes en general, López sostiene que deberían avanzar hacia un modelo de integración más exigente, controles internos de seguridad más estrictos o que determinadas partes del sistema operativo (como el núcleo) sean líneas rojas.

Brown afirma también que esto es imprescindible "para lograr la resiliencia de las sociedades dependientes de la tecnología", aunque con un matiz: "Los monopolistas de los sistemas operativos no deberían tomar las decisiones finales sobre exactamente cómo serán esos controles, cuando tengan implicaciones para la competencia".

Otros actores, como la aseguradora Parametrix, han hecho notar su preocupación por que "tanto los reguladores como las aseguradoras cibernéticas no estén realmente preparadas para abordar las complejidades y riesgos de tales sistemas".

Queda mucho por hacer en materia de ciberseguridad y también de formación y sensibilización, es decir, de ciberhigiene. ¿Servirá este apagón para que por fin todo el ecosistema, desde pymes hasta grandes corporaciones, pasando por el sector público, el tercer sector y los usuarios finales, nos protejamos adecuadamente? ¿O nos volverá a comer el lobo?