Noticias

El superordenador Frontier logra entrenar un modelo de lenguaje de un billón de parámetros con 3.072 GPUs

Publicado el

9 enero, 2024

por

El superordenador Frontier ha logrado, de la mano de un equipo de investigadores, reducir de manera significativa el número de GPUs que hacen falta para entrenar un modelo grande de lenguaje, con una gran cantidad de parámetros. Para demostrarlo, los investigadores encargados de su operación, en el Laboratorio Nacional Oak Ridge de Estados Unidos, han publicado un artículo en el que ofrecen detalles de cómo han conseguido entrenar uno, con un billón de parámetros, en el superordenador Frontier, utilizando solo 3.072 de sus 37.888 GPUs.

¿Qué quiere decir esto? Pues que los investigadores de dicho laboratorio consiguieron entrenar un modelo de una envergadura muy similar a la de GPT-4 solo con un 8% aproximadamente de la potencia de computación de Frontier.

El equipo de investigadores ha conseguido también entrenar otro, de 175.000 millones de parámetros, con 1.024 de las GPUs del superordenador. Sin duda, un avance notable en un campo que hasta ahora hace necesario contar con ingentes recursos de computación y memoria para el entrenamiento de modelos grandes de lenguaje.

Para lograrlo, los investigadores trabajaron con técnicas de entrenamiento de datos en paralelo, con el objetivo de reducir la comunicación entre capas de nodos y gestionar las limitaciones de memoria. También trabajaron en la eficiencia de las GPUs en cuanto a computación. Esto llevó a los investigadores a utilizar un sistema llamado «ajuste de hiperparámetro» para descubrir las estrategias más eficientes para la entrenamiento de modelos grandes de lenguaje, y conseguir distribuir el entrenamiento del modelo de manera más eficiente.

Según los resultados, los rendimientos de las GPUs llegaron al 31,96% con el modelo de un billón de parámetros, y al 36,14% para el de 175.000 millones de parámetros. Además, para ambos modelos, los investigadores consiguieron un 100% de eficiencia en escalado débil y de un 89% en escalado fuerte en el modelo de 175.000 millones de parámetros y del 87% en el del modelo de un billón de parámetros.

Eso sí, lo que no detalla el modelo es cuánto tiempo tardaron en entrenar el modelo utilizando las GPUs mencionadas del superordenador Frontier, que en noviembre de 2023 consiguió el primer puesto en la lista de los 500 superordenadores más potentes del mundo.

Categorías relacionadas:entrenamiento de modelos Frontier Modelos grandes de lenguaje Supercomputación

A continuación

Grupo Aire consolida su presencia en Canarias con la integración de Idecnet

No te pierdas

Europa quiere construir el primer centro de datos en el espacio

Celia Valdeolmillos

Redactora de tecnología con más de 15 años de experiencia, salté del papel a la Red y ya no me muevo de ella. Inquieta y curiosa por naturaleza, siempre estoy al día de lo que pasa en el sector.

A FondoHace 5 días

Píldora roja o píldora azul

NoticiasHace 5 horas

QNAP estrena la segunda beta abierta de QuTS hero h6.0

NoticiasHace 6 días

ASUS presenta el portátil para empresas, ExpertBook B3 G2

EntrevistasHace 5 días

«Es crucial conectar la IA a conocimiento interno y a los flujos reales de trabajo»

MuyComputerPRO

El superordenador Frontier logra entrenar un modelo de lenguaje de un billón de parámetros con 3.072 GPUs

Noticias

El superordenador Frontier logra entrenar un modelo de lenguaje de un billón de parámetros con 3.072 GPUs

Western Digital recupera la marca G-Drive para las unidades de almacenamiento externo Sandisk Professional

Telefónica, Vithas y la UFV utilizarán computación cuántica para crear fármacos contra el cáncer

La bolsa sigue en pánico por la IA. Víctima: el mercado de la ciberseguridad

El malware como servicio amplía objetivos apoyado por la IA

QNAP estrena la segunda beta abierta de QuTS hero h6.0

AMETIC anuncia el Primer Foro Europeo de Innovación y Emprendimiento

ESIC y la formación que anticipa el futuro: cómo convertirse en el profesional que las empresas buscan en la era de los datos

285.000 millones evaporados o por qué tu modelo de licencias puede morir

IA Agéntica: el 77% de proyectos fracasa al escalar

La UE abre una investigación a X por las imágenes explícitas generadas con Grok AI

El caso IBM o cómo sobrevivir al meteorito de la agéntica

Día Europeo de la Protección de datos 2026: medidas a adoptar por empresas y usuarios

Western Digital recupera la marca G-Drive para las unidades de almacenamiento externo Sandisk Professional

Microsoft presenta Rho-alpha, primer modelo de robótica para IA física

«Por primera vez es la tecnología la que se adapta a nosotros»

Intel centrará el suministro de chips en servidores para IA

Dell amplía sus gamas de portátiles Pro Education y Chromebook para educación

Reevo ha comprado Hispasec, un histórico de la ciberseguridad en España

Lo más leído

MuyComputerPRO

El superordenador Frontier logra entrenar un modelo de lenguaje de un billón de parámetros con 3.072 GPUs

También te puede gustar

Western Digital recupera la marca G-Drive para las unidades de almacenamiento externo Sandisk Professional

Telefónica, Vithas y la UFV utilizarán computación cuántica para crear fármacos contra el cáncer

La bolsa sigue en pánico por la IA. Víctima: el mercado de la ciberseguridad

El malware como servicio amplía objetivos apoyado por la IA

QNAP estrena la segunda beta abierta de QuTS hero h6.0

AMETIC anuncia el Primer Foro Europeo de Innovación y Emprendimiento

ESIC y la formación que anticipa el futuro: cómo convertirse en el profesional que las empresas buscan en la era de los datos

285.000 millones evaporados o por qué tu modelo de licencias puede morir

IA Agéntica: el 77% de proyectos fracasa al escalar

La UE abre una investigación a X por las imágenes explícitas generadas con Grok AI

El caso IBM o cómo sobrevivir al meteorito de la agéntica

Día Europeo de la Protección de datos 2026: medidas a adoptar por empresas y usuarios

Western Digital recupera la marca G-Drive para las unidades de almacenamiento externo Sandisk Professional

Microsoft presenta Rho-alpha, primer modelo de robótica para IA física

«Por primera vez es la tecnología la que se adapta a nosotros»

Intel centrará el suministro de chips en servidores para IA

Dell amplía sus gamas de portátiles Pro Education y Chromebook para educación

Reevo ha comprado Hispasec, un histórico de la ciberseguridad en España

Lo más leído