Conecta con nosotros

Noticias

Red Hat lanza la comunidad llm-d para impulsar la inferencia distribuida de IA generativa a escala

Publicado el

Red Hat lanza la comunidad llm-d para impulsar la inferencia distribuida de IA generativa a escala

Red Hat ha anunciado el lanzamiento de la comunidad llm-d, un proyecto open source que aborda una de las necesidades que tendrá la IA generativa en el futuro: la inferencia a gran escala. Con tecnologías de inferencia para la IA generativa a gran escala, llm-d cuenta con arquitectura nariva de kubernetes, inferencia distribuida basada en vLLM y un enrutamiento de red inteligente con conciencia de IA. De esta forma, las nubes de inferencia de los LLM podrán cumplir con los objetivos de nivel de servicio de producción.

La comunidad llm-d permite a Red Hat y a sus socios amplificar el poder de vLLM para superar las limitaciones que supone un solo servidor, así como desbloquear la producción a escala para la inferencia de IA. Gracias a la orquestación de kubernetes, llm-d integra capacidades de inferencia avanzadas en las infraestructuras de TI empresariales existentes. Esta plataforma unificada permite a los equipos de TI responder a las demandas de servicio de las cargas de trabajo críticas para el negocio.

vLLM, que se ha convertido en el servidor de inferencia de facto estándar de código abierto, ofrece soporte de modelos desde el día o para modelos de vanguardia emergentes, así como soporte para diversos aceleradores, entre los que están las Unidades de procesamiento de Tensor (TPU) de Google Cloud.

llm-d también ofrece desagregación de prefill y decode para separar las fases de contexto de entrada y generación de tokens de IA en operaciones discretas, donde luego pueden distribuirse entre varios servidores. Además, dispone de descarga de caché KV (key-value), basada en LMCache, que pasa la carga de memoria de caché KV de la memoria de la GPU a un almacenamiento estándar, como la memoria de la CPU o el almacenamiento en red.

Cuenta con clusteres y controladores basados en Kubernetes para una programación más eficiente de recursos de cómputo y almacenamiento a medida que varían las demandas de trabajo, manteniendo el rendimiento y con menos latencia. También con enrutamiento de red consciente de la IA, para programa solicitudes entrantes a servidores y aceleradores que tienen más probabilidaes de tener cachés «calientes» de cálculos de inferencia previos.

Aparte de esto, la comunidad incluye APIs de comunicación de alto rendimiento para una transferencia de datos más rápida y eficiente entre servidores, con soporte para NVIDIA Inference Xfer Library (NIXL).

Este proyecto ya cuenta con el apoyo de diversos proveedores de modelos de IA generativa, desarrolladores de aceleradores de IA y plataformas de nube de IA. Entre sus colaboradores fundamentales están CoreWeave, Google Cloud, IBM Research y NVIDIA. Entre sus socios figuran AMD, Cisco, Hugging Face, Intel, Lambda y Mistral AI.

La comunidad llm-d cuenta además con el apoyo de los fundadores del Sky Computing Lab de la Universidad de California, de los creadores de vLLM, y del LMCache Lab de la Universidad de Chicago, artífices de LMCache.

Redactora de tecnología con más de 15 años de experiencia, salté del papel a la Red y ya no me muevo de ella. Inquieta y curiosa por naturaleza, siempre estoy al día de lo que pasa en el sector.

Lo más leído