Conecta con nosotros

Noticias

Microsoft presenta su primera ‘superfábrica de IA’

Publicado el

superfábrica de IA de Microsoft

Microsoft ha presentado su primera superfábrica de IA. Una instalación que conecta grandes centros de datos en Wisconsin y Atlanta a través de una red de fibra dedicada diseñada para la transferencia de datos de entrenamiento a alta velocidad.

Las grandes tecnológicas se han embarcado en la batalla por dominar la IA mundial y la creación de nueva infraestructura es un paso fundamental ante las necesidades insaciables de esta tecnología, en componentes como aceleradoras, en redes de alto rendimiento o en suministro energético.

La primera superfábrica de IA de Microsoft

Microsoft explica que este diseño de infraestructura admitirá grandes cargas de trabajo de IA que difieren de las tareas más pequeñas y aisladas comunes en los entornos de nube. «Se trata de construir una red distribuida que pueda actuar como una supercomputadora virtual para abordar los mayores desafíos del mundo», explica Alistair Speirs, director general de Microsoft para la infraestructura de Azure.

«La razón por la que la llamamos superfábrica de IA es que ejecuta una tarea compleja en millones de dispositivos… no se trata solo de un único sitio que entrena un modelo de IA, sino de una red de sitios que dan soporte a esa tarea». El sistema AI WAN transporta información a través de miles de kilómetros utilizando fibra dedicada, parte de nueva construcción y parte reutilizada de adquisiciones anteriores.

Los protocolos y la arquitectura de red se han ajustado para acortar las rutas y mantener el flujo de datos con una demora mínima. Microsoft afirma que esto permite que sitios remotos cooperen en el mismo proceso de entrenamiento de modelos casi en tiempo real, aportando cada ubicación su parte de la capacidad de cómputo. El objetivo es mantener una actividad continua en un gran número de GPUs aceleradoras para que ninguna unidad se detenga mientras espera resultados de otra ubicación.

«Liderar en IA no se trata solo de agregar más GPU, sino de construir la infraestructura que las haga funcionar juntas como un solo sistema”, explica Scott Guthrie, vicepresidente ejecutivo de Cloud + AI de Microsoft. Para ello, la compañía utiliza la disposición Fairwater para dar soporte a los sistemas de rack de alto rendimiento, incluidas las unidades NVIDIA GB200 NVL72 diseñadas para escalar a clústeres muy grandes de GPU Blackwell.

La empresa combina este hardware con sistemas de refrigeración líquida que envían el fluido caliente fuera del edificio y lo devuelven a temperaturas más bajas. Este sistema de refrigeración operativo prácticamente no utiliza agua nueva, salvo la reposición periódica necesaria para el control químico, lo que soluciona otro grave problema de los centros de datos modernos: el consumo de agua.

La empresa presenta esta superfábrica de IA como sitio diseñados específicamente para el entrenamiento de herramientas avanzadas de IA, citando el creciente número de parámetros y los conjuntos de datos de entrenamiento más grandes como presiones clave que impulsan la expansión.

La planta de Atlanta reproduce el diseño de Wisconsin, lo que proporciona una arquitectura coherente en varias regiones a medida que se ponen en marcha más instalaciones. Y serán necesarias bastantes más: «La cantidad de infraestructura necesaria ahora para entrenar estos modelos no es solo un centro de datos, ni dos, sino muchos más», aseguran.

Lo más leído