Entrevistas

«Gran parte de la innovación en IA hoy proviene del código abierto»

Steven Huels

General Manager, AI Business Unit

Red Hat

Publicado el

30 marzo, 2026

por

Gustavo De Porcellinis

Steven Huels es Vicepresidente de IA en Red Hat y uno de los creadores originales de la estrategia de inteligencia artificial de la compañía. Desde su posición, lidera la evolución que ha llevado a Red Hat de la filosofía de «cualquier aplicación en cualquier lugar» a «cualquier modelo de IA en cualquier acelerador y cualquier nube». Su trabajo se centra en ayudar a las empresas a dar el salto desde los pilotos de IA hasta la producción de misión crítica a gran escala. Hemos conversado largamente con él sobre inferencia distribuida, modelos pequeños, IA agéntica, regulación y los retos reales de escalar la inteligencia artificial en el entorno empresarial.

De «cualquier aplicación» a «cualquier modelo»

[MCPRO] Red Hat ha pasado de la filosofía de «cualquier carga de trabajo, cualquier aplicación, en cualquier lugar» a «cualquier modelo, cualquier acelerador, cualquier nube». ¿Cómo define esa evolución la estrategia de IA de Red Hat hoy?

[Steven Huels] Fui uno de los creadores originales de la estrategia de IA de Red Hat, ayudé a lanzar el producto y fui director general durante un par de años; ahora dirijo la ingeniería de IA. Mi homólogo actual es Joe Fernandes, quien era el director general de OpenShift antes de asumir este rol. Él aportó muchos de esos matices de la plataforma OpenShift a la IA. Toda la idea de «cualquier aplicación, cualquier nube» fue en gran parte suya. El puente hacia «cualquier acelerador» ha sido una transición muy buena para nosotros y resuena bien con la audiencia que usa nuestros productos hoy en día, ya que nuestros productos de IA se ejecutan sobre Kubernetes.

Cuando observas el crecimiento en torno a la inferencia y los agentes como consumidores de la misma, los agentes no son más que aplicaciones. Creo que muchos clientes tienen miedo de lo que significa la adopción de la IA, si están preparados o si tendrán éxito. Intentamos reforzarles que, si ya gestionan aplicaciones a escala en Kubernetes, están bien posicionados para hacer lo mismo con los agentes. Desde una perspectiva de plataforma de IA, podemos darles todas las herramientas necesarias, al igual que hicimos en el cambio a contenedores, para ayudarles a escalar la inferencia, monitorizar todos sus modelos y cumplir los requisitos regulatorios, dándoles toda esa opcionalidad entre nubes y aceleradores.

La inferencia como eje de la producción

[MCPRO] Red Hat pone la inferencia en el centro de su propuesta. ¿Por qué la fase de «ejecución» de la IA (lo rápido y eficiente que responde un modelo) es más crítica para el éxito empresarial que el propio modelo?

[Steven Huels] Hay casos de uso donde esa velocidad es lo que más importa, como en aplicaciones de trading, donde tener una inferencia de baja latencia es vital. Uno de los núcleos donde realmente hemos innovado es en torno a llm-d y la inferencia distribuida. Uno de los retos centrales de los clientes es que los aceleradores son caros y difíciles de conseguir. En un entorno de inferencia monolítico, cargas el modelo en esas GPUs y, lo use alguien o no, esos recursos se consumen y no están disponibles para otros procesos.

Con nuestra inferencia distribuida, puedes gestionar múltiples modelos en distintos tipos de GPUs, obteniendo un mayor rendimiento y maximizando tu inversión en esos costosos aceleradores. Hemos hecho optimizaciones en la propia capa de inferencia y en los modelos que entregamos para asegurar respuestas rentables y rápidas. Esto es crítico a medida que escalas, ya que los agentes a menudo se vuelven muy comunicativos y necesitas respuestas instantáneas. Los clientes más avanzados están empezando a usar modelos más pequeños muy ajustados a casos de uso concretos: la petición inicial de planificación va a un modelo grande, pero las posteriores son muy dirigidas. Todo eso debes poder manejarlo eficientemente en la capa de inferencia.

[MCPRO] Red Hat AI Inference Server está basado en vLLM y mejorado con tecnología de Neural Magic. ¿Qué cambia realmente tener una capa de inferencia lista para producción y con soporte para las organizaciones que intentan pasar del piloto a producción?

[Steven Huels] Obtienes resiliencia, escala y distribución. Adquirimos Neural Magic y somos el principal proveedor corporativo en la comunidad vLLM. A escala de producción, necesitas opcionalidad entre aceleradores recientes. Sobre vLLM, proporcionamos modelos populares preoptimizados y los cuantizamos. Con el vLLM distribuido puedes tener caché distribuida, prefill y decodificación a gran escala. La capa final que hemos añadido es nuestra capa de «modelo como servicio», que da a los usuarios y desarrolladores una experiencia similar a la nube mediante endpoints. La estrecha integración de todos estos componentes en una plataforma escalable es la diferencia entre el fracaso y el éxito. Los clientes pueden descargar el código abierto de vLLM, pero mantener su ciclo de vida y gestionarlo a gran escala requiere mucho más que simplemente descargar componentes de código abierto.

[MCPRO] llm-d está diseñado para distribuir cargas de trabajo de IA a través de múltiples clústeres de computación acelerada. ¿Qué cuello de botella específico resuelve que un enfoque tradicional de clúster único no puede solucionar?

[Steven Huels] A estas alturas, todo está diseñado pensando en lo agéntico, que será nuestro principal consumidor. Hemos implementado cosas en esa capa en torno a caché y prefill distribuidos. Tener la capacidad de almacenar los tokens en caché para que solicitudes similares obtengan respuestas mucho más rápidas será una gran ventaja en ese entorno. También hay un enrutamiento más inteligente: si alojas múltiples modelos, basado en las peticiones que recibes, puedes enviarlas a los recursos menos utilizados, maximizando la utilización y sin hacer cola en los nodos. Además, hemos optimizado el uso bajo el capó distribuyendo el uso de la CPU para el prefill y de la GPU para la decodificación. Así estás aprovechando todo el hardware disponible de la máquina, no solo las GPUs.

Portafolio y el caso de los SLMs

[MCPRO] Red Hat AI es un portafolio con varios productos: Enterprise, Inference Server, OpenShift AI, RHEL AI… ¿Cómo debe pensar una empresa sobre cuál es el punto de entrada correcto para ella?

[Steven Huels] Red Hat AI es el paraguas bajo el que están todas nuestras ofertas de IA. OpenShift AI es la plataforma que contiene todas nuestras tecnologías, y Red Hat AI Enterprise también incluye OpenShift. Cuando observas los elementos centrales de OpenShift AI, tienes la plataforma de inferencia, la plataforma de entrenamiento de datos y modelos, la plataforma agéntica y todos los componentes de operaciones. Para las empresas que buscan implementar IA a gran escala, ese es el punto de entrada correcto, porque incluye el panorama completo. Sin embargo, hay casos en los que los clientes solo buscan optimizar la capa de inferencia, y ahí es donde entra Red Hat Inference Server. Si eres un proveedor de nube y ofreces modelos como servicio, probablemente solo mires la opción de Inference Server. Si eres una empresa a gran escala que centraliza el entrenamiento de modelos pero necesita hacer inferencia distribuida remotamente en varias ubicaciones, Inference Server es el componente que desplegarías. No hemos diseñado la suite de productos pensando en niveles de entrada versus avanzados; la hemos enfocado en los casos de uso de cómo los clientes desplegarán la IA en toda la empresa.

[MCPRO] Hay un fuerte impulso en Red Hat en torno a los Modelos de Lenguaje Pequeños. En un mercado todavía obsesionado con los modelos más grandes, ¿cómo se defiende el caso de los SLMs, especialmente para los casos de uso agénticos?

[Steven Huels] Suele ser un desafío porque no reciben tanta publicidad como los grandes, probablemente porque no generan tantos ingresos por consumo de tokens para las grandes tecnológicas. Las organizaciones más grandes ya han empezado a interiorizar que en cualquier caso de uso tendrán una fase inicial de planificación, que delegará tareas a múltiples subagentes, y luego habrá una reagrupación de datos para la respuesta final. Han visto los costes de usar modelos grandes en cada punto, y normalmente han diseñado sus subagentes para estar muy enfocados. Si un subagente solo se dedica a recuperar y resumir información de una cuenta de cliente, es muy fácil convencerles de usar un SLM altamente ajustado a sus necesidades.

No necesitas un modelo gigante para aprender el catálogo de productos de tu empresa. Hoy nos reunimos con clientes que sienten que sus facturas con modelos grandes se están disparando y les damos las capacidades —como LoRA, QLoRA o el ajuste de prompts— en la plataforma para ayudarles a optimizar esto. Y hay otro argumento muy potente: al principio del tuning se creía que no debías dañar la puntuación de evaluación general del modelo. Ahora la gente acepta que si tomas un SLM y le pides que haga algo muy específico, no te importan las demás dimensiones de evaluación. Si te aseguras de que la pregunta que recibe esté bien formateada, te da respuestas precisas, sin alucinaciones. Darte cuenta de que no necesitas un modelo equilibrado para tareas específicas ha sido un gran avance.

Alianza con NVIDIA y casos de uso reales

[MCPRO] La alianza AI Factory con NVIDIA es un compromiso muy significativo. ¿Qué desbloquea esa colaboración para los clientes que ninguna de las dos compañías podría ofrecer de forma independiente?

[Steven Huels] Llevamos trabajando con NVIDIA mucho tiempo. Creamos la primera alianza allá por 2017, mucho antes de que se convirtieran en el gigante que son ahora. El gran cambio actual es que los clientes quieren ejecutar modelos de IA generativa en sus propios centros de datos, y NVIDIA proporciona la mayoría de esas GPUs. Los clientes se benefician obteniendo soporte desde el día cero para los últimos aceleradores. Para NVIDIA, esto les ayuda porque ahora tienen una plataforma empresarial donde los clientes pueden implementar y obtener valor inmediato de sus GPUs; si nadie puede usarlas, no tiene sentido comprarlas.

Cuando miras lo que hacemos con la AI Factory, Red Hat tiene muchos clientes que usan GPUs de NVIDIA y compran a los mismos fabricantes. Poder ofrecerles una plataforma unificada que NVIDIA respalda y Red Hat soporta les da mucha confianza en su inversión. NVIDIA ha tenido un éxito extremo vendiendo a los hiperescalares, y ahora quieren enviar más GPUs a las empresas. Dado que Red Hat tiene una presencia fantástica en el sector empresarial, les ofrecemos la rampa de acceso fácil para que los clientes tengan confianza al ejecutar estas GPUs en sus centros de datos.

[MCPRO] La Junta de Comunidades de Castilla-La Mancha está usando IA sobre infraestructura Red Hat. ¿Qué enseña un despliegue en el sector público como ese sobre los requisitos reales para una IA digna de confianza?

[Steven Huels] Hemos hecho algo similar en Sudamérica, ayudando a procesar peticiones civiles en el gobierno para optimizarlas y acelerarlas. En este tipo de despliegues la confiabilidad no es opcional: existen implicaciones legales. A principios de este año anunciamos la adquisición de Chatterbox Labs. Siempre hemos trabajado en la explicabilidad y seguridad de la IA. Al poner modelos en producción, vas a tener que gestionar su ciclo de vida y saber que estás obteniendo resultados consistentes sin sesgos. Con Chatterbox, integramos tecnología para establecer guardarraíles en la IA generativa.

Tienen taxonomías listas para usar que evalúan y hacen red teaming al modelo, devolviendo una puntuación fácil de interpretar para saber si alucina o falla. Además, puedes ampliar esa taxonomía, generar tus propios prompts con datos sintéticos para expandir la cobertura, y guardar ese conjunto de evaluación. Puedes volver a ejecutar estas pruebas con el tiempo para auditar el historial y asegurarte de que cumples con los requisitos de seguridad. Lo que siempre me ha impresionado al trabajar con empresas europeas es que son extremadamente innovadoras. Trabajan activamente contigo para mapear la tecnología a su marco regulatorio, ayudándonos a evolucionar nuestra hoja de ruta.

[MCPRO] Turkish Airlines e Hitachi son organizaciones muy distintas, pero ambas eligieron OpenShift AI. ¿Qué desafío común le dice eso que las empresas de diferentes sectores están intentando resolver?

[Steven Huels] Turkish Airlines fue uno de nuestros primeros clientes beta cuando lanzamos allá por 2021. Empezaron buscando una plataforma de IA predictiva para optimizar precios del combustible o asientos en vuelos. A partir de ahí, vieron el éxito y ahora lo han ampliado a sus casos de uso de IA generativa, como chatbots de atención al cliente. Esto demuestra que tenemos una plataforma que escala y combina bien ambas disciplinas. Hitachi empezó de manera similar para dar consistencia a sus investigadores en el dominio de IA predictiva. Luego crecieron hacia la IA generativa ofreciendo modelos como servicio a su organización, para que no todo el mundo tuviera que levantar su propio modelo de lenguaje. El patrón común es ese: empezar en IA predictiva, ganar confianza y escalar hacia IA generativa sobre la misma plataforma.

[MCPRO] ¿Cómo están dando forma los sectores regulados como la banca o los seguros a la hoja de ruta de Red Hat AI?

[Steven Huels] La repetibilidad, la transparencia y la auditabilidad son las preocupaciones clave. Hacemos un seguimiento exhaustivo de los experimentos: capturamos los cambios en parámetros, configuraciones de RAG y las relacionamos con el artefacto lanzado. Si pones eso en producción, podemos rastrear todas las inferencias y los prompts. Ahora, en la capa agéntica, estamos añadiendo el rastreo de agentes para ver cómo interactúan y trazar toda la red. Todo se versiona y se gestiona en su ciclo de vida, lo cual es clave para operar en entornos altamente regulados.

Open source, IA agéntica y el futuro

[MCPRO] El código abierto siempre ha sido el ADN de Red Hat. En un mercado donde muchos proveedores de IA están cerrando sus stacks, ¿cómo se defiende la apertura como ventaja competitiva y no solo como filosofía?

[Steven Huels] Creo que encaja muy bien. Aunque OpenAI y otros hacen cosas increíbles, gran parte de la innovación en IA hoy proviene del código abierto. Jensen Huang de NVIDIA confirmó recientemente que invertirán más en modelos de pesos abiertos. La historia ha demostrado consistentemente que el modelo de código abierto resulta en un software más seguro, mejor comprendido y adaptado a las necesidades de la industria. El mayor desafío para el código abierto ahora mismo es que, dado que todo el mundo tiene acceso a la IA para generación de código, ¿cómo mantienen el ritmo?

Cuando consideras cuántas personas pueden hacer commits con código generado por IA frente a cuántos humanos están disponibles para mantenerlo y revisarlo, presenta un desafío enorme. Algunas comunidades, como MLflow, han abrazado la IA fuertemente en su desarrollo y les va muy bien. Otras son más escépticas. La generación de código seguirá mejorando. Habrá dolores de crecimiento, pero creo firmemente que el código abierto prevalecerá.

[MCPRO] Ahora que llm-d es oficialmente un proyecto Sandbox de la CNCF, ¿siente que Red Hat ha «entregado las llaves» a la comunidad, o que acaba de empezar a pilotar el próximo gran cambio en la IA nativa de Kubernetes?

[Steven Huels] Creo que esa comunidad es extremadamente saludable. Desde que lanzamos llm-d, reunimos a un grupo inicial de colaboradores muy sólido con Google y NVIDIA, y ahora se está expandiendo atrayendo a más proveedores de nube. Expresamos nuestras opiniones, pero existe una visión compartida que no necesita ser controlada por una sola entidad.

NVIDIA

[MCPRO] Con tecnologías como el KV CacheTurboQuant de Google empujando la eficiencia de la inferencia al límite, ¿crees que estamos ganando finalmente la guerra contra el «impuesto de la GPU» para los agentes empresariales?

[Steven Huels] Hace poco lanzamos soporte general para IA generativa en CPUs en colaboración con AMD e Intel. Obviamente no vas a ejecutar un modelo de 600.000 millones de parámetros ahí, pero para ciertos casos de uso optimizados es una opción totalmente viable para descargar tareas a hardware accesible. Si tuviéramos que reequipar cada centro de datos con aceleradores carísimos y muy escasos, la IA estaría limitada a un grupo muy pequeño. Por eso esta tendencia hacia la opcionalidad y el hardware de menor coste es una inevitabilidad.

[MCPRO] Startups como AMI Labs están captando miles de millones para construir una IA «sin alucinaciones» mediante arquitecturas distintas a los transformadores. Desde tu perspectiva de infraestructura, ¿cuánto de esa fiabilidad depende del modelo frente a tener una capa de orquestación sólida y observable como la que estáis construyendo?

[Steven Huels] Tiene todo el sentido. Conozco otra startup en San Francisco que también tiene un enfoque matemático diferente. Podríamos estar tocando los límites superiores de lo que las actuales redes neuronales y convolucionales son capaces de hacer. Si vamos a lograr recorrer esa «última milla» de la IA, tendrán que aparecer nuevas técnicas, porque los métodos actuales no escalarán hasta allí.

[MCPRO] Red Hat ya está trabajando en la integración de MCP, Llama Stack e inferencia distribuida para soportar la IA agéntica. ¿Dónde está hoy en los despliegues empresariales y qué falta para que sea verdaderamente production-ready a gran escala?

[Steven Huels] Todos saben que deben abrazarla con entusiasmo. El problema es que no tienen claro qué significa exactamente el modelo de infraestructura: si es un proceso de larga ejecución que toma peticiones de un endpoint, o si es un conjunto codificado de reglas que se invocan dinámicamente y se desechan. Lo que sí es claro es que ya está cambiando el negocio del SaaS. Históricamente construimos sistemas intermedios con interfaces complejas —como Jira— para facilitar la comunicación entre organizaciones y mantener el control. Con la IA agéntica, ya nunca entro a esas herramientas; simplemente le digo a los agentes que actualicen esos registros. Cuando toda esa complejidad se codifica en agentes autónomos, se reduce drásticamente la necesidad de esos sistemas intermediarios.

[MCPRO] Si nos sentáramos aquí dentro de 18 meses, ¿crees que la industria seguirá hablando de «qué modelo es el mejor», o la conversación habrá girado completamente hacia quién tiene la AI Factory más eficiente?

[Steven Huels] Con los años perdí mi habilidad para programar en detalle. Si tenía una idea, teníamos que contratar ingenieros para construirla. Con la IA, ahora puedo hacer mi visión realidad sin tener que pasar por complejas capas de ingeniería. Acorta enormemente el ciclo desde la idea hasta la realidad y pone un valor enorme en los individuos que son expertos en el dominio del negocio. Permitirá a las empresas probar muchas más cosas de forma ágil, resultando en implementaciones mucho mejores. La conversación no será sobre qué modelo es el mejor, sino sobre quién puede llevar sus ideas a producción más rápido y con más confianza.