
Rainer W. Kaese, director senior de Desarrollo de negocio de HDD de Toshiba Electronics Europe.
La inteligencia artificial (IA) se basa en datos: datos en cantidades enormes que deben recopilarse de manera fiable y ponerse a disposición para el entrenamiento y el análisis. Desde un punto de vista económico, esto sólo es posible utilizando discos duros, los cuales cubren los requerimientos de alto rendimiento de la IA mejor de lo que a menudo se espera.
Hoy día la IA está transformando muchas industrias. Ayuda a automatizar procesos y a tomar mejores decisiones, pero sólo puede hacerlo si se le suministran suficientes datos. Cuanto mayores son los volúmenes de datos, mejor pueden los modelos de IA aprender, reconocer patrones y detectar anomalías. Esta es la razón por la que las empresas cada vez acumulan cantidades más grandes de datos, impulsadas por el deseo de obtener un conocimiento valioso en áreas completamente nuevas mediante el acceso a fuentes de datos adicionales.
Pero ¿cómo puede gestionarse el enorme y rápidamente creciente flujo de datos? El desafío requiere arquitecturas de almacenamiento que ofrezcan cientos de Terabytes o incluso -dependiendo de la empresa- varios Petabytes de espacio de almacenamiento, que puedan además ampliarse fácilmente si es necesario. Después de todo, los datos no deberían fluir al vacío en algún momento, de modo que se pierdan para el entrenamiento de modelos de IA o análisis de IA.
Los discos duros son el medio de almacenamiento elegido en estas arquitecturas escalables, ya que son la única forma de proporcionar las capacidades requeridas de una forma económica. La memoria flash sigue siendo entre cinco y ocho veces más cara por unidad de capacidad y, por tanto, sólo se utiliza en áreas seleccionadas como, por ejemplo, la caché o en sistemas de alto rendimiento. Sin embargo, en la mayoría de los casos y para la mayoría de los datos de IA, los discos duros son suficientes. De hecho, ofrecen un rendimiento significativamente mejor de lo que las empresas a menudo suponen, especialmente cuando se combinan.
Más rápido de lo esperado
Cuando se almacenan grandes cantidades de datos, la escritura secuencial es particularmente importante. Esta es una disciplina clave de los discos duros y en la que han mejorado en los últimos años gracias a optimizaciones del firmware como la planificación más inteligente de las rutinas de prueba. Los modelos actuales alcanzan alrededor de 300 MB/s, frente a los menos de 200 MB/s de hace 10 años. El rendimiento de los accesos de lectura aleatorios, que son importantes para recuperar y proporcionar datos para los análisis, también ha aumentado considerablemente durante este período, dese alrededor de 100 IOPS a más de 200 IOPS.
Estos valores de rendimiento, por supuesto, están muy lejos de los de los actuales SSD. Sin embargo, dado que se trata de muchos Terabytes o Petabytes de datos, en las arquitecturas de almacenamiento modernas de todos modos se necesitan varios discos duros para procesar las operaciones de escritura y lectura en paralelo. El rendimiento crece enormemente con un número cada vez mayor de discos duros: un único sistema de almacenamiento con varias docenas de discos puede alcanzar fácilmente más de 15 GB/s y 15.000 IOPS.
Los fabricantes de discos duros también trabajamos estrechamente con los proveedores de controladores y sistemas de almacenamiento para encontrar opciones de optimización, desarrollar arquitecturas de referencia y elaborar mejores prácticas para las empresas que utilizan estas soluciones. En la práctica, los valores de rendimiento dependen no sólo del propio hardware, sino también de su configuración.
Las pruebas realizadas han demostrado que un sistema con 60 discos duros en una configuración RAID60/RAID-Z2 (es decir, varios grupos de discos duros en paralelo, cada uno con doble redundancia) como almacenamiento de datos para aplicaciones de IA ofrece un rendimiento de lectura/escritura secuencial de hasta 10 GB/s en red y tiene, además, cierta agilidad con 9.000 IOPS de escritura y 30.000 de lectura.
En última instancia, depende de la aplicación específica y de los requisitos de rendimiento asociados a qué equipo y configuración de hardware son los más adecuados para capturar datos y ponerlos a disposición de la IA.
Capacidades de almacenamiento crecientes
Gracias a su desarrollo continuo, los discos duros han mantenido su ventaja en precio sobre los SSD en los últimos años, y seguirán haciéndolo en el futuro previsible. En el pasado, el relleno de helio y los discos más delgados, entre otras cosas, garantizaban que la capacidad de las unidades aumentara en aproximadamente 2 TB por año, mientras que los costes se mantenían iguales; ahora son los nuevos procesos de grabación MAMR y HAMR.
MAMR son las siglas de Grabación Magnética Asistida por Microondas y utiliza microondas para enfocar el flujo magnético en el cabezal de grabación. Esto significa que se requiere menos energía magnética y el cabezal de grabación puede ser más pequeño. Un cabezal de escritura más pequeño significa bits y pistas de datos escritos de forma más densa escritos y, por tanto, mayor capacidad de almacenamiento. En la próxima generación de MAMR, las microondas también activarán el material magnético de los discos, de modo que se necesitará aún menos energía magnética.
MAMR ya se utiliza en los modelos actuales de HDD actuales y permite capacidades de hasta 24 TB por unidad; en combinación con Shingled Magnetic Recording (SMR), pueden lograrse hasta 28 TB. Se espera que en los próximos años que MAMR aumente la capacidad de los discos duros de 30 a 40 TB antes de que la grabación magnética asistida por calor (HAMR) tome gradualmente el control gradualmente. HAMR aún requiere trabajo de desarrollo, por ejemplo, en términos de fiabilidad y costes de la nueva tecnología, pero ya ha demostrado su potencial para mayores capacidades en prototipos.
HAMR utiliza un láser de campo cercano para calentar el material magnético de los discos, de modo que pueda utilizarse menos energía magnética para escribir; lo que da como resultado cabezales de escritura más pequeños y una mayor densidad de datos, como ocurre con MAMR. Esto significa que, en los próximos años, los discos duros seguirán estando bien posicionados para absorber de forma fiable y económica la creciente cantidad de datos generados por sensores, máquinas y seres humanos, y ponerlos a disposición con un alto rendimiento tanto para el entrenamiento de modelos de IA como para su uso en aplicaciones de IA.
***Rainer W. Kaese es director senior de Desarrollo de negocio de HDD de Toshiba Electronics Europe GmbH.