A Fondo

Red Hat AI Inference Server democratiza la IA generativa en la nube híbrida

Publicado el

21 mayo, 2025

por

Red Hat AI Inference Server es el nuevo servidor empresarial de inferencia que llega para hacer realidad la visión de Red Hat de ejecutar cualquier modelo de IA generativa en cualquier acelerador de IA en cualquier entorno de nube. Ha sido presentado en el Red Hat Summit que la compañía está celebrando esta semana acompañando a la presentación del Red Hat Enterprise Linux 10, la estrella del evento.

Red Hat AI Inference Server se integra como una nueva oferta dentro del ecosistema Red Hat AI, nace del potente proyecto comunitario vLLM y se optimiza con la integración de las tecnologías Neural Magic por parte de Red Hat, ofreciendo mayor velocidad, eficiencia en el uso de aceleradores y rentabilidad en la nube híbrida. El servidor se puede desplegar de manera independiente o como un componente integrado de Red Hat Enterprise Linux AI (RHEL AI) y Red Hat OpenShift AI.

Red Hat AI Inference Server: IA generativa en nube híbrida

Red Hat explica que la inferencia es el motor de ejecución crítico de la IA, donde los modelos pre-entrenados convierten los datos en aplicaciones prácticas. Es el punto clave de la interacción del usuario, que exige respuestas rápidas y precisas, como explica Joe Fernandes, vicepresidente y manager general de la AI Business Unit en Red Hat:

«La inferencia es donde la verdadera promesa de la IA generativa se hace realidad, donde las interacciones del usuario se responden con rapidez y precisión gracias a un modelo determinado, pero esto debe hacerse de forma eficaz y rentable. Red Hat AI Inference Server está diseñado para satisfacer la demanda de inferencia de alto rendimiento y con capacidad de respuesta a escala, manteniendo bajas las necesidades de recursos y proporcionando una capa de inferencia común que admita cualquier modelo, que se ejecute en cualquier acelerador en cualquier entorno».

Y es que a medida que los modelos de IA generativa se vuelven cada vez más complejos y los despliegues en producción aumentan, la inferencia puede convertirse en un cuello de botella importante, consumiendo rápidamente recursos de hardware y amenazando con paralizar la capacidad de respuesta y aumentar los costes operativos.

Los servidores de inferencia robustos ya no son un lujo, sino una necesidad para desbloquear el verdadero potencial de la IA a escala y superar las complejidades subyacentes de una manera más fácil. El nuevo servidor de Red Hat aborda directamente estos desafíos directamente, proponiendo una solución de inferencia abierta diseñada para un alto rendimiento y equipada con herramientas líderes de compresión y optimización de modelos.

Esta innovación permite a las organizaciones aprovechar al máximo el poder transformador de la IA generativa al ofrecer experiencias de usuario mucho más receptivas y libertad sin precedentes en su elección de aceleradores de IA, modelos y entornos de TI.

En cualquier entorno de despliegue, Red Hat AI Inference Server proporciona a los usuarios una distribución reforzada y soportada de vLLM, además de:

Herramientas inteligentes de compresión LLM para reducir drásticamente el tamaño de los modelos de IA tanto fundacionales como ajustados, minimizando el consumo de cómputo y, al mismo tiempo, preservando y potencialmente mejorando la precisión del modelo.
Un repositorio de modelos optimizado, alojado en la organización Red Hat AI en Hugging Face, que ofrece acceso instantáneo a una colección validada y optimizada de modelos de IA líderes listos para el despliegue de inferencia, lo que ayuda a acelerar la eficiencia entre 2 y 4 veces sin comprometer la precisión del modelo.
Soporte empresarial de Red Hat con décadas de experiencia en llevar proyectos comunitarios a entornos de producción.
Soporte de terceros para una mayor flexibilidad de despliegue, lo que permite que Red Hat AI Inference Server se despliegue en plataformas Linux y Kubernetes que no son de Red Hat, siguiendo la Política de Soporte de Terceros de Red Hat.

vLLM: clave para innovar en inferencia

Red Hat AI Inference Server está basado en el proyecto vLLM, líder en la industria, que fue iniciado por la Universidad de California, Berkeley a mediados de 2023. Este proyecto de comunidad ofrece inferencia de IA generativa de alto rendimiento, soporte para contextos de entrada extensos, aceleración multi-GPU de modelos, soporte para procesamiento por lotes continuo, entre otros.

El amplio soporte de vLLM para modelos disponibles públicamente, junto con su integración desde el Día 0 de modelos líderes como DeepSeek, Gemma, Llama, Llama Nemotron, Mistral, Phi, entre otros, así como modelos de razonamiento abiertos y de aplicación empresarial como Llama Nemotron, lo posiciona como un estándar de facto para la futura innovación en inferencia de IA. La creciente aceptación de vLLM por parte de los principales proveedores de modelos consolida su papel clave en la configuración del futuro de la IA generativa.

La visión de Red Hat

El futuro de la IA «debe estar definido por oportunidades ilimitadas, y no por las limitaciones impuestas por los silos de infraestructura», asegura el gigante del Open Source, que ve un futuro donde las organizaciones puedan desplegar cualquier modelo, en cualquier acelerador, a través de cualquier nube, ofreciendo una experiencia de usuario excepcional y más consistente sin costes exorbitantes.

Para desbloquear el verdadero potencial de las inversiones en IA generativa, las empresas necesitan una plataforma de inferencia universal: «un estándar para una innovación en IA más fluida y de alto rendimiento, tanto ahora como en el futuro».

Así como Red Hat fue pionera en su propuesta de empresa abierta al transformar Linux en la base de la TI moderna, ahora está preparada para diseñar el futuro de la inferencia de IA. El potencial de vLLM es el de un eje central para la inferencia de IA generativa estandarizada, y Red Hat se compromete a crear un ecosistema próspero en torno no solo a la comunidad vLLM, sino también a llm-d para la inferencia distribuida a escala.

La visión de Red Hat es clara: independientemente del modelo de IA, el acelerador subyacente o el entorno de implementación, la compañía tiene la intención de convertir a vLLM en el estándar abierto definitivo para la inferencia en la nueva nube híbrida.

Más información:

Red Hat AI Inference Server
Red Hat Summit
Conferencia: ‘La nube híbrida evoluciona para impulsar la innovación empresarial’. En YouTube hoy desde las 14 a las 15,30H.