Para dar vida a su proyecto más ambicioso, el metaverso, la compañía de Mark Zuckerberg requiere del superordenador más potente jamás construido. De esta necesidad nace RCS (AI Research SuperCluster), una inmensa máquina destinada al desarrollo de modelos de inteligencia artificial y herramientas de realidad aumentada, cuyo rendimiento pretende superar al de superordenadores como Fugaku en Japón o Marenostrum en España.
Internet está cambiando, mutando hacia un universo virtual en el que poder realizar todo tipo de actividades hasta ahora restringidas a la vida real, como disfrutar de un concierto desde casa gracias a aplicaciones de realidad virtual y aumentada, o conversar con distintas personas en varios idiomas usando sistemas de traducción instantánea. Para la mayoría de estas acciones, los procesos de computación y los modelos de IA necesarios son cada vez más pesados, entrenados a base de millones de parámetros.
Meta lleva desarrollando sistemas de inteligencia artificial y otras tecnologías desde hace años. En los últimos meses, se ha hablado del uso que hacen de sistemas de reconocimiento facial en sus redes sociales y su papel en el metaverso (no exenta de escándalos). También sus investigadores han creado un método para animar dibujos infantiles, y siguen trabajando en gafas y guantes con los que ver y manipular objetos virtuales.
Todos estos proyectos, aspiran a dejar atrás la etapa en la que se les conocía como Facebook y lideraban el ranking de redes sociales, para adentrarse en una nueva era más compleja donde la inteligencia artificial y las aplicaciones para el metaverso son su máxima. Y para conseguirlo, han decidido crear una nueva máquina 20 veces más rápida que su primera infraestructura nacida en 2017, el nuevo superordenador se llama RCS y ya está en funcionamiento, pero todavía no ha demostrado de lo que es capaz.
Dando vida al metaverso
"A principios de 2020, decidimos que la mejor manera de acelerar el progreso era diseñar un nuevo ordenador desde cero para aprovechar los actuales procesadores y la tecnología de interconexión de redes" explican en el anuncio. RCS se fraguó en plena pandemia, con el equipo trabajando a distancia y con los problemas de suministro que ha ocasionado las sucesivas cuarentenas.
El nuevo superordenador debía ser capaz de entrenar modelos inteligentes con más de un billón de parámetros, un conjunto de datos tan grande como un exabyte, que para quién no se haga una idea, sería como un vídeo de alta calidad de 36.000 años de duración. Al fin y al cabo, esta es la década de modelos como GPT-3 que se han entrenado con 175.000 millones de parámetros, que se dice rápido.
La estructura de 16.000 tarjetas gráficas que compondrá a finales de 2022 el total de RCS, desafiará a los superordenadores más potentes del ranking actual y servirá para realizar todos los procesos computacionales que requiere actualmente crear, por ejemplo, modelos de procesamiento de lenguaje natural (PNL) que traduzcan cientos de idiomas en tiempo real, así como reconocimiento de voz y análisis simultáneo de texto, imágenes y vídeos.
Aunque por supuesto, uno de los principales objetivos de este mega-ordenador será desarrollar herramientas de realidad aumentada, cruciales para la puesta en marcha del metaverso que aspira a liderar la compañía. Imagina un espacio virtual en el que poder conversar mediante avatares con personas de todos los puntos del planeta (o con bots más realistas), cada uno con sus idiomas, acentos y dialectos, una nueva torre de babel digital donde la comunicación depende de la inteligencia artificial.
Hacia los 5 exaflops
Con estas aspiraciones, Meta ha construido ya la primera fase de RCS y terminará la segunda este año, momento en el que su superordenador estará listo para competir por el primer puesto del ranking mundial. La máquina ha sido diseñada desde cero, "Tuvimos que escribir nuevas reglas en torno a nuestro diseños de centros de datos, incluidos su refrigeración, alimentación, diseño de bastidores, cableado y redes (incluyendo un plano de control completamente nuevo), entre otras consideraciones importantes." explican en el comunicado, Kevin Lee y Shubho Sengupta del equipo AI Research de Meta.
El nuevo superordenador está formado por 760 sistemas NVIDIA DGX A100, lo que se traduce en hasta 6.080 tarjetas gráficas unidas en una gran infraestructura que se comunican a través de NVIDIA Quantum 200 Gb/s InfiniBand. Además del conjunto de GPUs y la red que distribuye a todos los nodos el trabajo, este centro de computación depende de un imponente entramado de almacenamiento donde guardar y organizar toda la información que RCS procesa.
La rapidez en el sistema de almacenamiento también es crucial, por lo que Meta describe una infraestructura en tres niveles, cada cual más rápido que el anterior:
primero hay 175 petabytes de Pure Storage FlashArray, después 46 petabytes de almacenamiento en caché en los sistemas Penguin Computing Altus y, por último, 10 petabytes de Pure Storage FlashBlade. Este último es el nivel que se comunica con las GPUs.
El resultado, según los cálculos de Meta, es un rendimiento que permite conseguir en tres semanas lo que antes llevaba nueve semanas de entrenamiento para modelos de IA. Según avanza la segunda fase de construcción, RCS adquirirá mayor tamaño hasta conseguir una red InfiniBand que conecte 16.000 GPU . Con esta cifra, Meta espera que a finales de 2022, el nuevo RCS "será la supercomputadora de IA más rápida del mundo, con un rendimiento de casi 5 exaflops de computación de precisión mixta".
Para poner estos datos en contesto, según la web Stackscale, en noviembre de 2021 el superordenador más potente del mundo es Fugaku, con un rendimiento de 442 petaflops, lo que equivale a 4 exaflops (un trillón de flops u operaciones de coma flotante por segundo).
Usarán datos reales
Poner en pie la primera fase de RCS ha sido más difícil de los que esperaban. Los nuevos protocolos de seguridad impuestos por el coronavirus en todo el mundo ralentizaron el proceso, el equipo debía trabajar a distancia y debieron hacer frente a los problemas en el suministro de obleas y otros materiales que a día de hoy, la industria sigue sufriendo.
Junto a estas complicaciones, la coordinación de los diferentes equipos y partners, así como el diseño desde cero, la compañía se enfrentó a otro reto, proteger los datos de RCS, un detalle por el que la empresa de Mark Zuckerberg ha sido muy criticada en otras ocasiones. A diferencia de su infraestructura de computación previa, RCS, quiere usar datos del mundo real para entrenar a sus modelos de AI. No menciona la empresa de donde saldrían esos datos, aunque es fácil suponer que sería de sus plataformas y de internet, datos que serán anonimizados, como se explica más abajo.
"RSC ha sido diseñado desde cero con privacidad y seguridad en mente, para que los investigadores de Meta puedan entrenar modelos de forma segura usando datos generados que no se descifran hasta justo antes del entrenamiento" aseguran. Esto se consigue aislando el superordenador de internet, sin conexiones entrantes o salientes directas, y el tráfico puede fluir solo desde los centros de datos de producción de Meta.
Tras este primer muro de contención, la ruta de los datos entre el almacenamiento y las GPU se encriptan de extremo a extremo, pero antes de que la información se importe a RCS se revisa que haya sido anonimizada anonimizado correctamente. por último, las claves del cifrado se eliminan regularmente para bloquear el acceso a datos antiguos, incluso si el ataque se produce en las mismas instalaciones.
También te puede interesar...
- La IA de Google ahora es capaz de aprender reglas por si sola, y servirá para mejorar YouTube
- Sony patenta una IA capaz de cambiar la dificultad del juego en tiempo real
- Crea un "Jesucristo artificial" basado en la Biblia, y sus enseñanzas dan miedo