A Fondo

La IA empresarial ya tiene un problema: las facturas

Publicado el

8 junio, 2026

por

Si la actualización o transformación digital es un conjunto de proyectos complejo para el que hay que tener en cuenta muchos aspectos, entre ellos el financiero, con la Inteligencia Artificial este punto se está convirtiendo en crucial La inteligencia artificial funciona, sí, pero la factura no siempre cuadra y ajustar los recursos humanos sin tener en cuenta esta variable puede llevar a desagradables sorpresas. Durante los últimos dos años, la prioridad fue adoptar, probar, integrar y demostrar que la organización no se quedaba fuera de la ola. Ahora llega la segunda parte, bastante menos vistosa pero mucho más importante: saber cuánto cuesta realmente esa adopción y qué retorno está generando.

En MuyComputerPRO ya analizamos este fenómeno bajo el concepto de Token Fever: la transición de una IA entendida como licencia de productividad a una IA entendida como infraestructura de consumo variable. El cambio no es menor. En el modelo SaaS clásico, el coste era relativamente previsible. En el modelo de IA generativa y, sobre todo, en el de agentes, el gasto depende de prompts, contexto, iteraciones, llamadas a herramientas, modelos utilizados y límites de ejecución. Dicho de otra forma: hay demasiados frentes como para dejarlos sin una gobernanza eficaz.

Snowflake anuncia Cortex AI para servicios financieros

Sridhar Ramaswamy, consejero delegado de Snowflake, lo expresó de forma muy clara durante la conferencia anual de la compañía en San Francisco. Según recogió Applied AI, la newsletter de The Information, el directivo reconoció que Snowflake está preocupada por cuánto está gastando en inferencia de IA en sus equipos internos. No hablamos precisamente de una empresa ajena al ecosistema. Snowflake es una de las grandes plataformas de datos empresariales y uno de los clientes relevantes de proveedores como Anthropic y OpenAI. Su crítica al llamado tokenmaxxing (usar muchos tokens como si eso demostrara productividad) apunta directamente al corazón del problema. En declaraciones recogidas por Moneycontrol, Ramaswamy lo calificó como “una idea terrible”. La tesis es sencilla: la IA tiene que ayudar a ganar dinero, ahorrar dinero, reducir riesgo o mejorar procesos. Consumir más tokens no demuestra ninguna de esas cosas.

Del entusiasmo mágico al gobierno del gasto

La primera etapa de la IA generativa en la empresa estuvo dominada por una métrica cómoda: la adopción sin más. Cuántos empleados usan Copilot, cuántos desarrolladores trabajan con asistentes de código, cuántos departamentos han probado modelos de lenguaje, cuántos procesos tienen un piloto en marcha. Era una métrica útil para empezar, pero insuficiente para dirigir. La segunda etapa exige otro tipo de preguntas. ¿Qué tareas se han automatizado de verdad? ¿Qué procesos han reducido su coste unitario? ¿Dónde se ha mejorado la calidad? ¿Qué uso de IA genera ahorro verificable y cuál simplemente desplaza el trabajo de una pantalla a otra con más gasto de cómputo?

El informe The State of AI: Global Survey 2025 de McKinsey sitúa la adopción de IA en el 88% de las organizaciones encuestadas, pero también recuerda que muchas compañías siguen teniendo dificultades para pasar de pilotos a impacto escalado. La diferencia entre usar IA y capturar valor con IA es, probablemente, la frontera empresarial más importante de 2026. El AI Index Report 2026 de Stanford HAI refuerza esa lectura desde otra perspectiva: la adopción se está extendiendo a una velocidad histórica, pero la evidencia sobre productividad y retorno sigue siendo desigual. No porque la tecnología no tenga potencial, sino porque el potencial no paga facturas. Lo que paga facturas es el rediseño del trabajo, la integración con procesos y la medición rigurosa del resultado.

La buena noticia es que algunas organizaciones ya han dejado atrás la fase de experimentación sin freno. Según The Information, varias empresas están aplicando estrategias concretas para contener el gasto sin renunciar a los beneficios de la IA generativa. No hay una única receta, pero sí un patrón común: cada caso de uso debe tener el modelo, el coste y el nivel de control adecuados. Uno de los errores más habituales consiste en utilizar siempre el modelo más potente disponible. Es cómodo, pero financieramente absurdo. Resumir un correo, clasificar incidencias o buscar información interna no exige la misma capacidad que generar código complejo, analizar riesgos regulatorios o razonar sobre una arquitectura de sistemas.

La impredecibilidad, la característica más destacada de la ciberseguridad para 2026

Snowflake y Palo Alto Networks están aplicando lógicas de enrutamiento para enviar cada tarea al modelo más adecuado. Snowflake lo ha integrado en su herramienta de codificación CoCo mediante un sistema que selecciona el modelo según el trabajo a realizar. Es una decisión técnica, pero también financiera: cada consulta debe consumir la capacidad que necesita, no la capacidad máxima que el proveedor pone en el escaparate.

Otro caso es el de UiPath, que ha trabajado en reducir el volumen de tokens que los modelos consumen antes de ejecutar tareas repetidas. Scott Roberts, CISO de la compañía, explicó que algunas instrucciones iniciales llegaron a consumir alrededor de 150.000 tokens por “calentamiento” y que, tras optimizarlas, se redujeron hasta unos 3.000 tokens en determinados casos. Esto ilustra una realidad que muchos equipos todavía subestiman: la ingeniería de prompts no es solo una disciplina de calidad de respuesta. También es una disciplina de coste. Un prompt largo, redundante o mal estructurado puede convertirse en una fuga presupuestaria si se ejecuta miles de veces al día.

Zscaler aplica una política de acceso diferenciado según el perfil profesional. Los ingenieros de software pueden necesitar modelos más avanzados para tareas de desarrollo, depuración o análisis técnico. Otros equipos pueden trabajar con modelos más ligeros para usos administrativos, legales o de marketing. La idea es sencilla: no todos los usuarios necesitan el mismo motor para llegar a destino. En cloud esto se entendió hace años. Nadie asigna por defecto la instancia más cara a todos los workloads. Con la IA generativa debería ocurrir lo mismo.

Saber cuándo no usar IA

Es quizás el elemento de sentido común que mejor muestra la madurez de una empresa en su proceso de adopción tecnológica. Hablamos del sentido común: a veces la mejor decisión es no usar IA. Novo Nordisk analizó determinados datos de ensayos clínicos con Claude, de Anthropic, y concluyó que Microsoft Excel, sin funciones de IA, era más barato, más fiable y más preciso para esa tarea concreta. La conclusión no es que Excel sea mejor que Claude. La conclusión es que una empresa madura no convierte la IA en religión. La convierte en herramienta. Y las herramientas se eligen según el trabajo, el coste, el riesgo y la fiabilidad.

Los fallos que provoca el autocorrector en Excel: un dolor de cabeza para la genómica

Otra buena lección es la de dimensionar y luego negociar con el proveedor. Otra muestra de sentido común. Mars eligió Gemini, de Google, como asistente de IA para unos 62.000 empleados tras acordar una tarifa plana por usuario en lugar de un modelo puramente basado en consumo. A esa escala, la diferencia entre coste fijo y coste variable puede ser la diferencia entre un despliegue gobernable y una sorpresa presupuestaria permanente. También hay compañías que están optando por contratos anuales con margen de salida para no quedar atrapadas en plataformas cuyo coste pueda crecer más rápido que el valor que generan. Es una postura sensata. En IA empresarial, comprometerse demasiado pronto con un proveedor puede ser tan peligroso como no comprometerse con ninguno.

El verdadero multiplicador de gasto son los agentes

El debate sobre tokens se vuelve mucho más serio cuando entran en escena los agentes de IA. Un chatbot responde a una instrucción. Un agente puede planificar, consultar sistemas, llamar a herramientas, iterar, corregirse, volver a ejecutar una tarea y consumir tokens en cada paso. Si no existen límites claros, un agente puede convertir un error de diseño en una cascada de gasto. Por eso el gobierno de agentes se está convirtiendo en una prioridad. Las actualizaciones de abril de 2026 de Microsoft Copilot Studio apuntan precisamente en esa dirección: más visibilidad, más gobierno operativo y un estimador de uso ampliado para anticipar consumo antes de escalar despliegues.

La documentación de Copilot Studio en Microsoft Learn insiste en esa misma lógica: evaluar agentes, automatizar pruebas, estimar consumo de créditos y llevar estos controles al ciclo de vida operativo. La IA generativa empieza a gestionarse como lo que realmente es: infraestructura crítica de negocio, no una simple herramienta de productividad.

La regulación ya forma parte del coste

El gobierno económico de la IA no puede separarse del gobierno legal y de seguridad. En Europa, cualquier despliegue empresarial relevante debe mirar ya al Reglamento (UE) 2024/1689, conocido como AI Act. La norma entró en vigor el 1 de agosto de 2024 y se aplica de forma escalonada, con un enfoque basado en riesgo. Para los CIO, CISO y responsables jurídicos, esto significa que la IA desplegada en procesos sensibles (recursos humanos, crédito, salud, infraestructuras críticas o decisiones con impacto sobre derechos) exige trazabilidad, supervisión humana, documentación y controles proporcionados al riesgo.

Pongamos como ejemplo la GDPR. El Reglamento General de Protección de Datos, Reglamento (UE) 2016/679, sigue siendo plenamente aplicable cuando los datos personales se introducen en herramientas de IA. La minimización de datos, la base jurídica, las evaluaciones de impacto y los derechos de los interesados no desaparecen porque el tratamiento se haga mediante un modelo de lenguaje. La protección de datos empresariales en soluciones como Microsoft 365 Copilot y las políticas de privacidad de Microsoft 365 Copilot Chat deben leerse dentro de este marco. No basta con que el proveedor prometa seguridad. La empresa usuaria debe saber qué datos entran, con qué permisos, bajo qué políticas de retención y con qué capacidad de auditoría.

Marcos para ordenar el riesgo

La buena gobernanza necesita algo más que buenas intenciones. Necesita marcos reconocidos, responsabilidades claras y procesos repetibles. Aquí hay tres referencias que deberían estar ya en la mesa de cualquier organización que use IA en serio.

NIST AI RMF y perfil GenAI

El NIST AI Risk Management Framework ofrece una estructura para identificar, medir, gestionar y monitorizar riesgos de IA. Su perfil específico para IA generativa, NIST AI 600-1, adapta ese marco a riesgos como alucinaciones, sesgos, fuga de información, generación de contenido dañino o fallos de supervisión. No es una norma europea ni una obligación legal directa para todas las empresas, pero se está consolidando como una referencia práctica para demostrar madurez ante consejos de administración, clientes y reguladores.

ISO/IEC 42001: el sistema de gestión

La norma ISO/IEC 42001:2023 especifica los requisitos para establecer, implementar, mantener y mejorar un sistema de gestión de inteligencia artificial. Para organizaciones que ya trabajan con ISO 27001, continuidad de negocio, calidad o compliance, su valor está en integrar la IA dentro de una lógica conocida: políticas, roles, riesgos, auditorías y mejora continua.

OWASP LLM Top 10

La seguridad de aplicaciones basadas en modelos de lenguaje exige mirar más allá de la ciberseguridad tradicional. El OWASP GenAI Security Project y su Top 10 para aplicaciones LLM documentan riesgos como inyección de prompts, manejo inseguro de salidas, fuga de datos, denegación de servicio sobre modelos, vulnerabilidades en la cadena de suministro y exceso de agencia. En un entorno de agentes, este último punto es especialmente relevante. Dar a un sistema capacidad para actuar sin definir límites, permisos y supervisión equivale a automatizar también el riesgo.

FinOps para IA: medir el coste por resultado

La disciplina que mejor conecta coste, uso y negocio es FinOps. La FinOps Foundation ya ha desarrollado un marco específico para IA que adapta principios conocidos del cloud —visibilidad, atribución, optimización, presupuestos y responsabilidad compartida— a un gasto mucho más volátil. En IA generativa, las métricas relevantes ya no son solo coste por servidor, coste por licencia o coste por usuario. Hay que medir coste por llamada, coste por token, coste por tarea completada, coste por respuesta útil y retorno ajustado por calidad. Un output barato pero incorrecto puede salir carísimo si genera revisión manual, error operativo o riesgo legal.

FinOps

La guía de la FinOps Foundation sobre cómo construir un rastreador de costes y uso de IA generativa va exactamente en esa dirección: visibilidad por equipo, proveedor, caso de uso y patrón de consumo. Sin esa capa de observabilidad financiera, cualquier estrategia de IA empresarial se mueve a ciegas.

Cinco decisiones que conviene tomar ya

El debate sobre el tokenmaxxing no es una anécdota de Silicon Valley. Según Business Insider, empresas como Amazon y Uber están revisando cómo miden y controlan el uso de IA precisamente porque el consumo, por sí solo, se ha convertido en una mala señal de éxito.

Auditar el consumo real: La primera decisión es medir. Qué herramientas consumen más, qué equipos generan más gasto, qué casos de uso justifican ese gasto y cuáles no tienen retorno claro. Sin esta fotografía, cualquier optimización será intuitiva y, por tanto, insuficiente.

Asignar presupuestos de inferencia: Los departamentos necesitan límites de gasto igual que los tienen en cloud, software o servicios profesionales. Los presupuestos de tokens, créditos o llamadas API deben asignarse por equipo, proyecto y caso de uso. Y deben tener reglas claras para ampliarse.

Aplicar enrutamiento de modelos: No todas las tareas deben ejecutarse con el modelo más caro. La arquitectura debe decidir cuándo usar un modelo pequeño, cuándo recurrir a uno de frontera, cuándo usar modelos abiertos y cuándo resolver el problema con software tradicional.

Limitar agentes antes de desplegarlos: Todo agente debería tener límites de iteración, permisos mínimos, trazabilidad, evaluación previa y mecanismos de parada. Un agente sin control no es productividad autónoma. Es gasto autónomo.

Medir resultados, no tokens: La métrica final no puede ser cuántos tokens se han consumido ni cuántos empleados han usado una herramienta. La métrica debe ser cuánto dinero se ha ahorrado, qué ingresos se han generado, qué riesgo se ha reducido o qué proceso ha mejorado de forma verificable.

Conclusión: La IA no se gobierna sola

La inteligencia artificial empresarial está entrando en una fase menos espectacular y mucho más decisiva. La fase en la que deja de bastar con enseñar demos, lanzar pilotos o presumir de adopción interna. Ahora hay que demostrar valor, controlar el gasto, reducir riesgos y escalar con disciplina. El tokenmaxxing ha sido útil como síntoma. Nos ha recordado que una empresa puede estar usando mucha IA y, aun así, no estar creando valor. Incluso puede estar haciendo lo contrario: automatizar ineficiencias, multiplicar costes y perder visibilidad sobre procesos críticos.

La pregunta correcta ya no es si la IA funciona. La pregunta correcta es dónde funciona, cuánto cuesta, quién la gobierna y qué resultado produce. Las empresas que sepan responder a esas cuatro preguntas estarán construyendo una ventaja competitiva. Las que no, estarán simplemente pagando por tokens.