Noticias
OpenFlex Data24 4000 Series NVMe-oF con SSDs Kioxia: buen rendimiento a escala en IA
El aumento de la complejidad y el escalado de las cargas de trabajo procedentes de la IA nos ha obligado a crear y a utilizar soluciones cada vez más potentes. Western Digital ha dado un importante paso adelante en este sentido con OpenFlex Data24 4000 Series NVMe-oF, una plataforma de almacenamiento equipada con unidades SSD NVMe KIOXIA CM7-V Series y el servidor de datos de IA PEAK:AIO.
Esta plataforma ha demostrado una alta escalabilidad y una gran facilidad de uso, todo ello sin tener que renunciar a un elevado nivel de rendimiento en tareas relacionadas con la IA. Para demostrarlo, esta plataforma ha validado sus resultados de rendimiento bajo MLPerf Storage V2, un benchmark que se considera como el estándar de oro del sector para la evaluación comparativa de rendimiento de soluciones de almacenamiento bajo IA.
Los resultados obtenidos demuestran que esta arquitectura no solo ofrece un alto rendimiento a escala, sino que además es capaz de mantener un alto grado de eficiencia y de economía con una implementación práctica, y sin una capa de almacenamiento definido por software (SDS).
MLPerf Storage utiliza nodos de cliente de GPU, es decir, sistemas que simulan el comportamiento de un servidor de IA que accede al almacenamiento durante el entrenamiento o la inferencia para generar los patrones de carga de E/S típicos de las cargas de trabajo de GPU del mundo real, para evaluar el rendimiento que una plataforma de almacenamiento es capaz de ofrecer en escenarios de IA distribuidos a través de múltiples clientes de GPU concurrentes.
Las pruebas de entrenamiento de IA utilizadas en la suite de almacenamiento MLPerf miden la eficacia con la que el sistema sirve a las cargas de trabajo de IA que estresan diferentes aspectos de la E/S de almacenamiento, incluidos el rendimiento y la concurrencia, en varios modelos de aprendizaje profundo. Hay dos puntos de referencia de carga de trabajo clave utilizados para MLPerf:
Cargas de trabajo 3D U-Net
Se utiliza un modelo de aprendizaje profundo basado en imágenes médicas y segmentación volumétrica. Supone una carga mucho mayor para los sistemas de almacenamiento debido a sus grandes conjuntos de datos de entrada en 3D y a sus intensos patrones de lectura de flujo de datos. Como tal, es un punto de referencia más estricto para demostrar un rendimiento sostenido de gran ancho de banda y baja latencia en flujos de trabajo de IA multinodo. En este modelo:
OpenFlex Data24 de Western Digital logró un rendimiento de lectura sostenido de 106,5 GB/s, saturando 36 GPUs NVIDIA H100 simuladas en tres nodos cliente físicos, lo que demuestra la capacidad de la EBOF para manejar con facilidad tareas de entrenamiento de alto paralelismo y uso intensivo de ancho de banda.
Con el servidor de datos de IA PEAK:AIO, OpenFlex Data24 fue capaz de alcanzar los 64,9 GB/s, saturando 22 GPUs NVIDIA H100 simuladas desde un único servidor principal y un único nodo cliente.
Cargas de trabajo ResNet50
Esta es una red neuronal convolucional muy utilizada para la clasificación de imágenes. Sirve como punto de referencia para el rendimiento de entrenamiento, ya que representa una combinación equilibrada de movimiento de datos y cálculo. Con patrones de E/S tanto aleatorios como secuenciales, y utilizando lecturas de imágenes de tamaño medio, resulta útil para evaluar la capacidad de un sistema para gestionar accesos de alta frecuencia a archivos más pequeños y ciclos de iteración rápidos. En este modelo:
OpenFlex Data24 de Western Digital ofreció un rendimiento óptimo en 186 GPUs NVIDIA H100 simuladas y tres nodos cliente, con una extraordinaria relación GPU/unidad que refleja el uso eficiente de los soportes físicos por parte de la plataforma.
Con el servidor de datos de IA PEAK:AIO, OpenFlex Data24 fue capaz de saturar 52 GPUs NVIDIA H100 simuladas desde un único servidor principal y un único nodo cliente.
OpenFlex Data24 utiliza adaptadores de red Western Digital RapidFlex, lo que significa que nos permite conectar hasta 12 hosts sin tener que recurrir a un conmutador. Kurt Chan, vice president and general manager, Western Digital Platforms Business, comentó:
“Estos resultados validan la arquitectura desagregada de Western Digital como un potente habilitador y piedra angular de la infraestructura de IA de próxima generación, que maximiza la utilización de la GPU al tiempo que minimiza la huella, la complejidad y el coste total de propiedad. La plataforma de almacenamiento NVMe-oF OpenFlex Data24 Serie 4000 ofrece un rendimiento cercano a la saturación en los exigentes benchmarks de IA, tanto de forma independiente como con un único dispositivo PEAK:AIO AI Data Server, lo que se traduce en una obtención de resultados más rápida y una reducción de la expansión de la infraestructura”.
-
A FondoHace 5 díasPíldora roja o píldora azul
-
NoticiasHace 18 horasQNAP estrena la segunda beta abierta de QuTS hero h6.0
-
NoticiasHace 7 díasASUS presenta el portátil para empresas, ExpertBook B3 G2
-
NoticiasHace 5 díasNextcloud Hub 26 Winter: más facilidades para migración y mejoras en rendimiento y colaboración


