El spam es un problema casi tan viejo como la propia Internet, y no importa lo mucho que se avance en este sentido, siempre habrá. Los atacantes y las compañías de ciberseguridad tienen una ‘carrera’ en la que se adelantan mutuamente de manera constante, desarrollando nuevos tipos de spam y nuevos métodos de detección en respuesta. Pese a eso, es muy probable que tu bandeja de entrada de Gmail aún reciba muchos correos indeseados.
Y es que las técnicas usadas por los ‘spammers’ son muy avanzadas, tanto, que es casi imposible que los filtros estén a la altura. Es muy fácil filtrar correos que tengan ciertas palabras o que provengan de ciertos servidores; pero es más difícil cuando el correo malicioso parece más ‘real’ que el verdadero.
Ahora, Google puede haber dado con un avance vital en la lucha contra el spam; según sus estudios, es capaz de mejorar la detección de spam en un 38% respecto a lo habitual, al mismo tiempo que reduce la cantidad de falsos positivos en un 19,4% y el procesamiento nada menos que en un 83%. ¿Es magia?
Gmail contra el spam
No, no es magia, es algo más inteligente. Google se ha centrado en una técnica usada por los ‘spammers’ para saltarse los filtros y hacerle creer al usuario que se trata de un correo legítimo: la modificación del texto para que parezca lo que no es. Muchos correos de spam ahora usan los homoglifos, caracteres que se parecen a otros; por ejemplo, usando el número ‘0’ para sustituir la letra ‘O’, que dependiendo del tipo de letra usado se parecen mucho a simple vista. También hay muchos caracteres especiales, como los usados en matemáticas, que parecen letras si no nos fijamos mucho, pero que en realidad no lo son. Otros métodos para saltarse los filtros incluyen los caracteres invisibles y el uso de palabras clave que son detectadas por los algoritmos. Algunos correos incluso meten faltas de ortografía a propósito, que el usuario corrige en su mente cuando está leyendo.
Para luchar contra estos ataques, Google usa un nuevo tipo de vectorizador de texto llamado RETVec, y que ha sido entrenado para detectar este tipo de técnicas, incluyendo la inserción y borrado de caracteres, los errores ortográficos, los homoglifos, la sustitución de letras por otras, y más. El modelo ha sido entrenado sobre un nuevo codificador de texto que es capaz de codificar todos los caracteres y funciona con más de 100 idiomas diferentes, incluido el español.
La clave está en que este modelo no se basa en una lista de millones de palabras que comprobar, un proceso demasiado exigente y que era lo que se usaba hasta ahora; en vez de eso, RETVec sólo usa 200.000 parámetros porque funciona de manera parecida a como leen los humanos. Usando aprendizaje automático, se basa en la “similitud” de las palabras y no en las letras que realmente están escritas en el correo. Gracias a esto, no hace falta un gran servidor para ejecutarlo, y de hecho, Google ha liberado el código fuente de RETVec para que cualquiera lo pueda usar en sus propios servidores; por ejemplo, para luchar contra el spam en los comentarios de las páginas web.
El efecto de RETVec ya se ha notado en algunas cuentas de Gmail, ya que Google lleva probando el modelo durante un año, pero es ahora que empezará a llegar a todas las cuentas.