A Fondo

Token fever: cuando la IA empresarial se complica y encarece de verdad

Publicado el

16 abril, 2026

por

Voy a hablar de algo de lo que a nadie le gusta hablar en tiempos de euforia tecnológica: del ticket, de la factura de la felicidad. Todos tenemos claro que la IA ha llegado no solamente para quedarse sino para revolucionar los procesos y la productividad empresarial. Quedan en el aire muchas incógnitas, pero una de las más importantes es poder sacarle partido sin romper nada y sin gastar una fortuna. Y este último punto, el de la inversión, está revelándose todo un desafío, no solamente por problemas de gobernanza y gestión del consumo de tokens en los proyectos sino por el cambio del modelo de pago que están adoptando poco a poco los proveedores IA. En muchos casos empresas grandes y pequeñas han puesto en marcha proyectos muy ambiciosos que se han encontrado barreras más o menos inesperadas.

El 9 de abril de 2026 en una charla del evento IA HumanX, Praveen Neppalli Naga, CTO de Uber, confirmó un problema que empieza a aparecer de forma presistente en los proyectos de Inteligencia Artificial de las compañías: su empresa agotó el presupuesto anual de inteligencia artificial en solo cuatro meses. La causa fue el uso masivo y con un gobierno poco eficiente de agentes como Claude Code. La compañía, que gastó 3.400 millones de dólares en I+D durante 2025, se ha visto obligada a volver a la mesa de diseño, según las palabras del propio directivo, para buscar nuevas estrategias para los proyectos.

Tras incentivar internamente una adopción agresiva mediante tablas de clasificación de ingenieros que dispararon el uso de tokens sin filtros de eficiencia. A pesar de que el 11% de su código backend ya es generado por agentes, Uber ejemplifica un bloqueo presupuestario donde la IA deja de ser una palanca de ahorro para convertirse en un motor de gasto fuera de control. La fiebre por experimentar sin freno, alentada en muchos casos por las propias compañías, puede terminar por impactar al presupuesto de IT de forma importante.

Esta no es una anécdota curiosa de un unicornio tecnológico. Es la señal evidente de que la adopción empresarial de la Inteligencia Artificial ha encontrado un obstáculo importante que ya tiene nombre: Token Fever, las graves complicaciones presupuestarias que acechan a cualquier organización que haya desplegado IA generativa sin una arquitectura de control del gasto de inferencia, análisis de rentabilidad de los proyectos y en general una gobernanza para ellos. Vamos a analizar la situación paso a paso.

El estado real de la adopción

La IA generativa ha alcanzado una masa crítica de adopción empresarial en un tiempo relativamente corto, pero los datos de rendimiento y eficiencia operativa ya son otra cosa y en general no acompañan al ritmo del gasto. Es un fenómeno que no es nuevo y que ha ocurrido con otros avances tecnológicos en el pasado (como el Cloud) pero en este caso la diferencia es bastante más notable y su efecto sobre la estructura misma de las empresas es mayor. La brecha entre lo que la IA puede hacer y la preparación real de las organizaciones para gestionarla es quizás el riesgo estratégico más subestimado de 2026.

El AI Index Report 2026 de Stanford HAI documenta que la adopción organizacional de IA ha alcanzado el 88% de las empresas encuestadas, convirtiendo a la IA generativa en la tecnología de mayor penetración empresarial en menos de tres años, superando en velocidad de adopción tanto al ordenador personal como a Internet. Sin embargo, la misma investigación revela que las ganancias de productividad demostradas se concentran en tareas muy concretas y estructuradas: un 26% de mejora en desarrollo de software, un 15% en soporte a clientes y un 50% en producción de contenidos de marketing. Fuera de esos entornos controlados, la evidencia macroeconómica de impacto real es, según el propio informe, «temprana y mixta». Dicho de otra forma: el 88% de adopción no significa el 88% de retorno. Significa que el 88% de las organizaciones está pagando por una tecnología cuyo TCO real aún no ha calculado con rigor.

Un modelo que cambia: del SaaS al coste variable

Uno de los elementos que ha evolucionado y genera una nube de incertidumbre es el pricing. La IA generativa ha dejado de ser un gasto mensual prácticamente fijo (modelo de licencia controlado) para convertirse en un coste de infraestructura tan volátil como la electricidad. Esta transición invalida los modelos de presupuestación tradicionales y exige una reingeniería financiera inmediata en las áreas de IT. Hasta 2024, los departamentos de IT compraban licencias de herramientas de IA con tarifas planas: un coste fijo, un centro de coste claro, un retorno estimable. Los proveedores han eliminado esos planes ilimitados para cuentas Enterprise, introduciendo niveles «Ultra» y facturación dinámica por consumo de tokens, según documenta el análisis de IJONIS sobre precios de herramientas de codificación con IA en 2026.

Open Telco AI

El resultado es que el gasto en IA es ahora probabilístico: un prompt mal diseñado, un bucle de un agente sin límites de iteración o un contexto excesivo puede generar millones de tokens inútiles en cuestión de segundos. Esto es lo que distingue radicalmente la gestión financiera de la IA frente a la gestión del cloud tradicional: ningún servidor olvidado en AWS consume recursos de forma exponencial por un error de lógica. Un agente de IA mal configurado, sí. El análisis de Mariano Amartino en Denken Über lo ilustra con un dato demoledor: un suscriptor de Claude Max pagando 100 dólares al mes fue capaz de generar más de 5.600 dólares en costes equivalentes de API en un solo ciclo de facturación, una relación de subsidio de 25 a 1. Esto explica por qué Anthropic, OpenAI, GitHub Copilot y Windsurf han abandonado simultáneamente los planes de tarifa plana: el modelo de negocio de las suscripciones planas dependía de que los usuarios ligeros subsidiasen a los usuarios intensivos. Los agentes de IA han destruido esa curva de distribución.

El caso Uber no es el único

El caso de Uber, que agotó su presupuesto anual de IA en cuatro meses, no es una excepción. Es el primer caso documentado públicamente de un fenómeno que los equipos de ingeniería llevan trimestres reportando en privado. El problema tiene nombre técnico: «token tsunami», el colapso económico provocado por agentes autónomos que entran en bucles sin límite de iteración y queman presupuesto sin producir ningún output que lo justifique. Amazon convocó reuniones de emergencia internas porque el gasto en inferencia desbordó las previsiones de la «Arquitectura Frugal» que Werner Vogels lleva años promoviendo como dogma operativo (aunque también promoviera la proliferación de proyectos basados en IA).

Más despidos en Amazon: en esta ocasión será 16.000 los afectados

Hay evidencia pública de que algunas empresas están viendo cómo el gasto en herramientas y cargas agenticas de IA crece más rápido de lo previsto. Uber ha sido citado recientemente como caso de presupuesto anual de IA desbordado por el uso de AI coding, y Gartner advierte que más del 40% de los proyectos de IA agéntica serán cancelados a finales de 2027 por costes crecientes, valor de negocio poco claro y controles de riesgo inadecuados. Gartner también señala que los modelos agénticos pueden consumir entre 5 y 30 veces más tokens por tarea que un chatbot estándar, lo que ayuda a explicar por qué la caída del precio por token no siempre reduce la factura total.

AI FinOps: más complejo que Cloud FinOps

El AI FinOps no es una extensión natural del Cloud FinOps tradicional: es una disciplina completamente nueva que gestiona recursos probabilísticos en lugar de deterministas. Las métricas de optimización del cloud (como el «rightsizing» de instancias) son insuficientes y potencialmente engañosas cuando se aplican a la inferencia de modelos de lenguaje. El State of FinOps 2026 Report de la FinOps Foundation confirma que el 98% de los equipos de FinOps ya gestionan el gasto en IA como su prioridad número uno, por encima de la optimización del cloud convencional. La razón es sencilla: mientras que el Cloud FinOps tradicional persigue instancias olvidadas y recursos sobredimensionados (problemas con solución técnica clara), el AI FinOps debe atacar ineficiencias mucho más complejas e inversiones más difíciles de dimensionar con antelación.

En un entorno de agentes de IA, la unidad de gasto ya no es el coste por hora de servidor sino el coste por respuesta útil frente al coste de la respuesta incorrecta o «alucinada». Esta nueva métrica, a la que podemos llamar «Economía de la Inferencia», obliga a los CIOs a replantear sus cuadros de mando de IT desde cero. Frameworks como ITIL 4 y COBIT ofrecen la base de gobierno necesaria, pero requieren extensiones específicas para cubrir la gestión del ciclo de vida de prompts, los límites de iteración de agentes y la auditabilidad del gasto en inferencia, aspectos que ninguno de los dos marcos contemplaba en sus versiones originales y que están provocando verdaderos quebraderos de cabeza a los responsables.

La presión sobre el gasto en infraestructura no proviene solo de los clientes empresariales: el propio AI Index Report 2026 de Stanford HAI documenta que los principales proveedores de modelos frontera están alcanzando escalas de ingresos históricamente rápidas, pero sus costes de infraestructura también marcan récords ante el crecimiento exponencial del uso personal además de empresarial. OpenAI proyecta entre 17.000 y 25.000 millones de dólares en consumo de efectivo para 2026, mientras Google registró más de 150.000 millones de dólares en gasto de capital en 2025. Esa presión de costes se traslada, inevitablemente, a la factura de los clientes empresariales mediante el fin de los subsidios de adopción. ¿Qué pasará entonces con los modelos de uso gratuito o de bajo coste para uso personal? Es algo que veremos pronto una vez creada la dependencia. ¿Dejaríamos de usar Google si nos cobrara 10 céntimos cada búsqueda?

La mayor amenaza para la competitividad de una organización ya no es solamente adoptar IA tarde, sino adoptar IA mal y creer que se está adoptando bien. El mercado está lleno de empresas que han marcado la casilla sin haber transformado ni un solo flujo de trabajo. El análisis publicado por Simon Willison sobre la tesis de Steve Yegge expone lo que Yegge denomina «The Great Siloing»: la industria tecnológica lleva más de 18 meses sin rotación significativa de talento debido a la congelación de contrataciones generalizada. El resultado es que no entra perspectiva externa que permita a las organizaciones calibrar dónde están realmente en la curva de adopción de IA. Como señaló el propio Yegge en su publicación en X que desató el debate, Google, con toda su capacidad técnica, presenta un perfil de adopción interna de la Inteligencia Artificial comparable al fabricante de tractores John Deere.

El patrón es sistemático y tiene una distribución que muchos CIOs reconocerán: un 20% de usuarios avanzados que operan con agentes de forma nativa, un 20% de resistentes activos al cambio, y un 60% de usuarios que emplean el chat de IA para tareas básicas sin optimizar ningún proceso. La investigación publicada por MIT Sloan Management Review sobre el estudio realizado con consultores de Boston Consulting Group aporta una taxonomía precisa a esta realidad: el 27% de los trabajadores del conocimiento actúa como «self-automator», delegando el trabajo completo al modelo sin iterar ni contrastar. Estos perfiles, según la profesora Kate Kellogg del MIT Sloan, no solo generan outputs de menor calidad, sino que no desarrollan ninguna habilidad nueva en el proceso. Son el segmento que más tokens consume y el que menos retorno genera: el pasivo perfecto en cualquier estrategia de AI ROI.

RAG como antídoto

El 60% de las empresas despliega herramientas de IA generativa sin aplicar técnicas de optimización de inferencia. Esto no es un problema técnico, es un problema de gobierno. Y tiene un impacto directo en el gasto total de la función de IT. La diferencia entre una organización que controla su gasto en IA y una que no, reside principalmente en tres decisiones técnicas con consecuencias financieras directas. La primera es la implementación de RAG (Retrieval-Augmented Generation), una técnica que consiste en proporcionar al modelo solo la información relevante de cada consulta, reduciendo drásticamente el consumo de tokens. La segunda es el ajuste fino de modelos especializados para tareas repetitivas concretas, lo que permite usar modelos más pequeños y baratos sin sacrificar calidad.

La tercera es el establecimiento de límites de iteración y presupuestos de tokens por agente, equivalentes a los límites de gasto que cualquier organización aplica a sus tarjetas corporativas. Sin estas tres medidas, comprar acceso a modelos de IA de última generación es equivalente a dar a cada empleado una tarjeta de empresa sin límite y sin política de gastos. El artículo del MIT Sloan añade una dimensión crítica a esta ecuación de gobierno: los consultores que operaron como «centauros» (usando la IA de forma dirigida y experta) obtuvieron los resultados más precisos en sus recomendaciones de negocio, precisamente porque combinaron su criterio propio con la herramienta, en lugar de delegarlo. El modelo de gobierno de IA más eficiente en términos de calidad de output y consumo de tokens no es el de máxima automatización, sino el de integración experta y supervisada. Esto tiene implicaciones directas para el diseño de workflows agentificados: los agentes sin supervisión humana experta en los nodos críticos no solo cuestan más, generan peores resultados.

Oracle Fusion Agentic Applications: de los agentes sueltos a las aplicaciones agénticas

IA como coartada para recortes

Anunciar reducciones de plantilla citando «eficiencias de IA» cuando no existe una reingeniería de procesos documentada es una estrategia de comunicación financiera que engaña a los inversores en el corto plazo, pero destruye la competitividad real en el medio plazo. Esto además de la paradoja que el aumento de coste por el cambio de facturación y de licencias de uso además de ineficiencias y desgobernanzas comentadas en este artículo pueden acabar por superar los costes del personal del que se ha prescindido. El análisis de Turing Post sobre el efecto del «hiring freeze» en la mediocridad organizacional concluye que las empresas que recortan talento senior antes de completar la transición a flujos de trabajo agentificados no ganan eficiencia.

Los datos del AI Index Report 2026 de Stanford HAI respaldan esta advertencia desde el ángulo laboral: el empleo de desarrolladores de software entre 22 y 25 años ha caído casi un 20% respecto a 2024, y un tercio de las organizaciones encuestadas espera reducir su plantilla durante el próximo año, especialmente en operaciones de servicio, cadena de suministro e ingeniería de software. Al mismo tiempo, la demanda global de talento especializado en IA supera la oferta en una ratio de 3,2 a 1, con más de 1,6 millones de posiciones abiertas y solo 518.000 candidatos cualificados disponibles según datos de Second Talent 2026. El riesgo concreto es este: las empresas que recorten talento senior en nombre de la IA se encontrarán sin la capacidad humana de distinguir un output correcto de un agente de uno incorrecto. Y según el IDC, esa ineficiencia tiene un coste estimado de 5,5 billones de dólares en pérdidas globales de productividad para 2026.

Hoja de ruta para el CIO

La ventana de actuación es estrecha. El primer paso es auditar el consumo actual de tokens por herramienta, por equipo y por caso de uso antes de que finalice el trimestre en curso, usando los principios del framework de FinOps para IA de la FinOps Foundation. El segundo es establecer presupuestos de inferencia (límites de tokens) por departamento, con la misma o incluso mayor disciplina con la que se gestionan los presupuestos de cloud. El tercero es identificar los procesos de mayor consumo y evaluarlos para implementar RAG o migrar a modelos especializados más pequeños, reduciendo el coste por tarea útil sin reducir la calidad del output.

El cuarto es aplicar la taxonomía del MIT Sloan, ciborgs, centauros y «self-automators», al propio inventario de usuarios de IA de la organización para identificar qué perfiles generan retorno real y cuáles generan únicamente gasto. El quinto y más urgente es tratar la escasez de talento en AI FinOps como un riesgo operativo de primer nivel: los perfiles capaces de combinar conocimiento de modelos de lenguaje con disciplina financiera de infraestructura son hoy más escasos y más estratégicos que los arquitectos de cloud lo fueron en 2015. Comprar tokens para que los equipos sigan trabajando exactamente igual que en 2022, pero con una interfaz de chat delante, es la forma más cara y más rápida de agotar el presupuesto de innovación de una década entera.

Categorías relacionadas:agentes de IA Despidos por IA Economía de la inferencia Estrategia empresarial IA Gasto en tokens Gestión de costes IA Gobernanza de IA Hiring Freeze IA IA FinOps Inferencia probabilística Optimización LLM Presupuesto IT Principales RAG Steve Yegge TCO de IA transformación digital Uber AI

A continuación

Zscaler y OpenAI, ciberseguridad e IA en plataformas de confianza a gran escala

No te pierdas

La IA en 2026: más capacidad y alcance, ya sin brecha entre los modelos de EEUU y China

Gustavo De Porcellinis

Huawei asegura que será capaz de fabricar chips de última generación para 2031

NoticiasHace 6 días

Huawei asegura que será capaz de fabricar chips de última generación para 2031

España: puesto 21 en adopción cloud en la UE, pero por encima de la media en ERP y potencia de cómputo

NoticiasHace 6 días

España: puesto 21 en adopción cloud en la UE, pero por encima de la media en ERP y potencia de cómputo

NoticiasHace 6 días

CORSAIR PRO, nueva línea de hardware empresarial para IA

El Gobierno aprueba el proyecto de su Ley de IA

NoticiasHace 6 días

El Gobierno aprueba el proyecto de su Ley de IA

MuyComputerPRO

Token fever: cuando la IA empresarial se complica y encarece de verdad

A Fondo