Opinión
La inferencia de la IA determina la ventaja competitiva de las organizaciones
La Inteligencia Artificial está impulsando el gasto de TI a nivel global. A pesar de la cautela que muestran los mercados a consecuencia de la incertidumbre económica y geopolítica, se espera que el gasto en TI aumente en todo el mundo gracias a las inversiones en tecnologías relacionadas con la IA. Europa no se ha quedado atrás en esta tendencia global y se prevé que incremente en un 21% sus gastos de TI relacionados con la IA compensando la ralentización que se está produciendo en otras áreas del sector, según Gartner.
Desde el lanzamiento de ChatGPT en noviembre de 2022, las empresas a nivel global han iniciado una carrera en la adopción de la IA. En este proceso, las organizaciones han transitado por diversas etapas, desde la fascinación inicial hasta la búsqueda pragmática de una ventaja competitiva. Para lograrlo, un primer dilema crucial ha sido discernir la mejor propuesta tecnológica. Si usar los grandes modelos de lenguaje (LLM, por sus siglas en inglés), que por lo general están desarrollados por los gigantes tecnológicos, y están entrenados con miles de millones de parámetros. O decantarse por los pequeños modelos de lenguaje (SLM, por sus siglas en inglés), que se pueden entrenar con información especializada del área de interés de la empresa, e incluso con datos exclusivos de la propia organización.
En esta primera aproximación, se ha tenido en cuenta la fase de entrenamiento de la IA, que se refiere al aprendizaje del modelo. Esta fase depende de la cantidad de conocimiento que se le proporcioné al modelo de IA, de los algoritmos de aprendizaje y de los parámetros que se establecen para que responda a las preguntas que se le hace. Al ser entrenados con miles de millones de parámetros, los LLM necesitan una gran cantidad de recursos informáticos, ya que deben procesar mucha información para llegar a una respuesta. Este gran volumen de datos hace posible que la IA pueda responder a una amplia variedad de cuestiones, sin embargo, la falta de entrenamiento puede llevar al modelo a que dé respuestas incorrectas, lo que se conoce como alucinaciones.
En cambio, los SLM al ser entrenado con menos datos demanda una menor cantidad de recursos informáticos, tanto para su entrenamiento como para su implementación, lo que hace posible que tenga un rendimiento mucho más ligero y rápido. Estas características hacen que disminuya el coste de la infraestructura, y facilita que puedan ser perfeccionados con mayor rapidez.
A medida que se ha ido adoptando estos modelos de IA en las organizaciones, se ha observado que el verdadero valor diferencial de una IA no solo radica en la capacidad de entrenarla con los datos que le interesa a la organización, sino principalmente en tener control sobre la fase de la inferencia, que es el proceso mediante el cual el modelo entrenado realiza predicciones cuando se le hace una consulta que desconocía.

Y es que el ciclo de vida de cualquier modelo de IA está marcado por estas dos fases, de entrenamiento y de inferencia, que determinarán el valor diferencial de una IA. Para que quede clara la diferencia entre estas dos fases vamos a hacer una analogía con los profesionales de la medicina. Los médicos tienen que estudiar la carrera, hacer el MIR y ejercer la profesión sería el equivalente a la fase de entrenamiento de la IA.
Una vez formados, los médicos están capacitados para diagnosticar a un paciente según sus síntomas, aunque no los haya visto antes, y para dar este diagnóstico, el médico no tiene que volver a la facultad de medicina (entrenamiento), sino que tiene la capacidad a evaluar los innumerables patrones que ha visto a lo largo de su trayectoria para hacer un diagnóstico. A este proceso, en IA se le conoce como inferencia, que es la respuesta basada en la experiencia y el conocimiento. La inferencia de IA funciona casi exactamente de la misma manera, la IA no piensa como un humano, pero encuentra computacionalmente el mejor y más probable resultado.
La fase de entrenamiento es un elemento importante, pero el verdadero valor de la IA radica en la fase de inferencia, ya que es el motor de análisis de la IA, es decir aquel proceso a través del cual se ejecuta la IA. Dependiendo de su diseño, eficiencia y escalabilidad, las empresas podrán desmarcarse de sus competidores. Tal es su relevancia, que según Gartner1, “para 2028, a medida que el mercado madure, más del 80% de los aceleradores de cargas de trabajo de los centros de datos se implementarán específicamente para la inferencia, en lugar de para su uso en entrenamiento”.
Esta fase de inferencia a menudo se ve limitada por los grandes volúmenes de datos que se deben procesar, ya que su uso supone costes muchas veces prohibitivos y una mayor latencia. Gartner ha advertido de la importancia de entender la complejidad del coste de la IA. El desconocimiento sobre cómo pueden escalar los costes de IA, pueden suponer un error del 500% al 1.000% en los cálculos de costes, asegura Gartner, que coloca los gastos en IA como una de sus principales amenazas para esta tecnología junto con las alucinaciones y las vulnerabilidades de seguridad.
Lo cierto es que la fase de entrenamiento representa un coste de capital, que requiere de una importante inversión, pero al no ser una actividad recurrente, no va a suponer un gasto frecuente para la compañía. En cambio, la fase de inferencia se convierte en un coste operativo, es decir en un gasto por consumo, que dependerá del uso que le de la empresa a la IA.
Por ello, es importante las iniciativas que están buscando abordar esta problemática para acercar la IA a más organizaciones, haciendo que la inferencia de IA generativa escalable sea cada vez más accesible. La Universidad de California, Berkeley, por ejemplo, ha impulsado el desarrollo del proyecto open source vLLM, un motor de inferencia que se ha consolidado como el estándar de facto proporcionando tecnologías que ayudan a ofrecer capacidades de inferencia eficientes, fiables y estables.
Las características de vLLM han hecho posible realizar las inferencias con una notable reducción de recursos facilitando así la producción a gran escala de la inferencia de IA. Esto se logra gracias a su capacidad para optimizar la memoria de la GPU, reducir el espacio de memoria necesario para ejecutar los modelos, dividir las tareas de procesamiento entre varias GPU, crear texto más rápido al usar un modelo más pequeño que predice los tokens y otro de mayor tamaño que los valida, y mejorar la eficiencia de los modelos de transformador.
A la iniciativa del vLLM se suma el proyecto open source llm-d, que potencia el poder de vLLM, que usa la orquestación de Kubernetes para integrar las funciones de inferencia avanzadas directamente en las infraestructuras de TI empresariales. Esta plataforma unificada empodera a los equipos de TI, permitiéndoles escalar y orquestar las diversas demandas de las cargas de trabajo críticas de inferencia a través de hardware distribuido. Simultáneamente, implementa técnicas innovadoras que maximizan la eficiencia y reducen drásticamente el coste total de propiedad (TCO) de los aceleradores de IA de alto rendimiento
La optimización de la inferencia no es solo una cuestión técnica o de costes, sino una estrategia empresarial clave. Porque, en última instancia, el futuro de la IA no está definido por los modelos; está definido por lo que se hace con ellos a través de la inferencia.
1″Análisis de pronósticos: Semiconductores de IA a nivel mundial”, Alan Priestley, Gartner, 2 de agosto de 2024. ID G00818912 GARTNER es una marca registrada y una marca de servicio de Gartner, Inc. o sus filiales en EE. UU. e internacionalmente y se utiliza aquí con autorización. Todos los derechos reservados.

Por Miguel Ángel Díaz, OpenShift Country Leader, Spain & Portugal, Red Hat
-
NoticiasHace 7 díasEl despliegue de la IA se enfrenta a un grave problema de suministro de energía
-
NoticiasHace 7 díasGlobant desarrollará un programa de IA agéntica para LaLiga
-
Notas de prensaHace 6 díasEvolutio presenta la red QUEEN para la era poscuántica
-
NoticiasHace 7 díasLenovo avanza cómo serán los centros de datos del futuro en Europa

