Un nuevo y estrambótico centro de datos: el ADN

En nuestro mundo inundado de datos, determinar dónde y cómo almacenarlos, de manera eficiente y económicamente viable, es un problema que se va agigantando. Una de las soluciones aparentemente más exóticas podría resultar una de las mejores: archivar la información en moléculas de ADN, una muy considerable alternativa a los grandes centros de datos que tanta expectación generan por el alto valor de la inversión que se promete.

Cuando la mayoría de nosotros pensamos en el ADN, pensamos en vida, no en ordenadores. Pero la realidad es que el ADN, en sí mismo, es un código de cuatro letras que transmite información sobre un organismo. Las moléculas de ADN están formadas por cuatro tipos de bases, o nucleótidos, cada uno identificado por una letra: adenina (A), timina (T), guanina (G) y citosina (C). Son la base de todo el código del ADN y proporcionan el manual de instrucciones para construir todos los seres vivos de la Tierra.

La síntesis de ADN es una tecnología bastante conocida y empleada en medicina, industria farmacéutica y desarrollo de biocombustibles, por ejemplo. La técnica organiza las bases en diversas configuraciones que se enroscan en una cadena retorcida, una alrededor de la otra (la conocida doble hélice) para formar la molécula. La disposición de estas letras en secuencias crea un código que le dice al organismo cómo formarse.

Al sintetizar moléculas de ADN (es decir, crearlas desde cero), los investigadores han descubierto que pueden especificar o escribir largas cadenas con las citadas letras y luego leer esas secuencias. El proceso es análogo a cómo un ordenador almacena información binaria. A partir de ahí, no fue difícil codificar un archivo binario de ordenador en una molécula. Por tanto, se puede escribir, codificar, y luego se puede leer, descodificar.

La evidencia nos dicta que el conjunto de datos que manejamos crece exponencialmente con el tiempo. Se trata de paquetes tan grandes y complejos que ninguna de las herramientas de gestión de datos tradicionales puede almacenarlos o procesarlos. Al menos, de una manera eficiente, dado que su afluencia puede ser impredecible, ya que los conjuntos de datos son diversos y pueden estar estructurados o no estructurados.

En la película Jurassic Park, científicos extraían ADN que había estado conservado en ámbar durante millones de años. Y lo usaron para crear una población de dinosaurios extintos. Quién sabe si inspirados por esa película, un par de investigadores postdoctorales del Instituto Tecnológico de Massachussets han desarrollado un polímero vítreo, muy similar al ámbar, que podría usarse para el almacenamiento a largo plazo de ADN, ya sean genomas humanos completos o archivos digitales como fotografías.

Los resultados de esa investigación se publicaron el pasado 12 de junio en el Journal of the American Chemical Society. Pero ya hace tiempo que los científicos demostraron que el ADN bien encapsulado con una sal permanece estable durante décadas a temperatura ambiente y es muy probable que puede durar mucho más en el entorno controlado de un centro de datos. El ADN contiene sorpresas enormemente competitivas. Por ejemplo, que no requiere mantenimiento y que sus archivos almacenados se copian fácilmente a un costo insignificante.

El ADN responde a la clave del problema. Puede almacenar una cantidad asombrosa de información en un volumen casi inconcebiblemente pequeño. Se estima que la humanidad generará 33 zettabytes de datos para el año 2025, es decir, mil trillones de bytes. El ADN puede comprimir toda esa información en una pelota de ping-pong, con espacio de sobra.

Tomo prestado dos ejemplos de un artículo firmado en Scientific American por dos investigadores del Laboratorio Nacional de Los Álamos: los 74 millones de millones de bytes de información que reúne la Biblioteca del Congreso podrían almacenarse en un archivo de ADN del tamaño de una semilla de amapola. Y si partimos esa semilla por la mitad, podríamos almacenar todos los datos que almacena Facebook.

La mayoría de los métodos actuales para almacenar ADN requieren temperaturas de congelación, por lo que consumen una gran cantidad de energía y no son viables en muchas partes del mundo. No es el caso de España, que reúne condiciones ideales para estos centros de datos. En cambio, este nuevo polímero similar al ámbar abre un nuevo camino, puesto que puede almacenar ADN a temperatura ambiente y, al mismo tiempo, proteger las moléculas de los daños causados por el calor o el agua. El almacén podría ubicarse en cualquier lugar.

Actualmente, el método de almacenamiento en frío a largo plazo que prevalece –data de la década de 1950–, escribe los datos en rollos de cinta magnética del tamaño de una pizza. Si los comparamos, el almacenamiento de ADN es potencialmente menos costoso, más eficiente energéticamente y más duradero. Hoy parece auténtica ciencia ficción.

La tecnología de almacenamiento de ADN ya existe, pero para que sea viable, los investigadores deben superar obstáculos relacionados con la integración de diferentes tecnologías. Los investigadores de Los Álamos han alumbrado un software, llamado Adaptive DNA Storage Codex (ADS Codex), que es capaz de traducir archivos de datos del lenguaje binario de ceros y unos que entienden las computadoras al código de cuatro letras que entiende la biología, es decir, el ADN.

En conclusión, el ADN es una tecnología muy prometedora para saciar el voraz apetito mundial por el almacenamiento de datos. Sólo que requiere nuevas herramientas y nuevas formas de aplicar las conocidas. Pero que nadie se sorprenda si un día los archivos más valiosos del mundo encuentran un nuevo hogar en una colección de moléculas del tamaño de una semilla de amapola. Ni tampoco si logramos almacenarlos a largo plazo, encapsulando el ADN en polímeros que recuerdan al ámbar sintético. Son los nuevos centros de datos.