Noticias

Deepseek Engram, ¿una solución a la crisis de las memorias?

Publicado el

20 enero, 2026

por

Deepseek Engram es un nuevo método de entrenamiento de modelos de inteligencia artificial diseñado para desacoplar el almacenamiento de memoria de los procesos computacionales. Se espera que este método creado en colaboración con la Universidad de Pekín, reduzca la dependencia de las costosas memorias HBM usadas para la inferencia y el entrenamiento de la IA.

Los modelos de lenguaje grande tradicionales (LLM) requieren una memoria de gran ancho de banda para la recuperación de conocimiento y el cálculo básico, lo que crea un cuello de botella tanto en el rendimiento como en los costes. Este cuello de botella de HBM es ampliamente reconocido como una razón clave por la que los precios de la DRAM y la NAND usadas en equipos cliente hayan subido exponencialmente en los últimos meses.

DeepSeek, la startup china de inteligencia artificial, ya provocó un terremoto económico, bursátil, tecnológico y geoestratégico, al demostrar que se pueden entrenar y usar modelos de IA de manera muchísimo más eficiente y económica. Y en ello están.

Cómo funciona Deepseek Engram

Los investigadores chinos explican que los modelos existentes desperdician profundidad secuencial en operaciones triviales, que de otro modo podrían respaldar un razonamiento de nivel superior y aseguran que el Deepseek Engram permite que los modelos “busquen” información esencial de manera eficiente sin sobrecargar la memoria de la GPU, liberando capacidad para tareas de razonamiento más complejas.

El sistema se probó en un modelo de 27.000 millones de parámetros y mostró mejoras mensurables en comparación con los puntos de referencia estándar de la industria. Al realizar la recuperación de conocimiento a través de N-gramas hash, Engram proporciona acceso a la memoria estática independiente del contexto actual.

Después, la información recuperada se ajusta mediante un mecanismo de control sensible al contexto para alinearse con el estado oculto del modelo. Este diseño permite que éstos manejen entradas de contexto largas de manera más eficiente y admite la precarga a nivel de sistema con una sobrecarga de rendimiento mínima.

El método Engram complementa otros enfoques eficientes en términos de hardware, incluidas soluciones como los aceleradores de inferencia de IA de Phison. También funciona junto con los estándares emergentes CXL (Compute Express Link), que apuntan a superar los cuellos de botella de la memoria de la GPU en cargas de trabajo de IA a gran escala.

Engram minimiza la cantidad de memoria de alta velocidad requerida mediante el uso de búsquedas de información estática, lo que hace que el uso de la memoria sea más eficiente. Las pruebas muestran que reasignar alrededor del 20-25% del presupuesto de parámetros dispersos a Engram produce un mejor rendimiento que los modelos MoE puros, manteniendo ganancias estables en diferentes escalas.

Esta técnica puede aliviar la presión sobre el costoso hardware de memoria, particularmente en regiones como China, donde el acceso a HBM está rezagado respecto de competidores como Samsung, SK Hynix y Micron. La validación temprana de Engram sugiere que los modelos pueden ampliar la escala de parámetros y la capacidad de razonamiento al tiempo que gestionan las demandas de memoria de manera más eficiente. Se espera que este enfoque pueda reducir los costes astronómicos para infraestructura de IA y aliviar así el resto de mercados electrónicos colapsados por la falta de suministro.