Magma se basa en tecnología de LLM del tipo que se alimenta a partir de tokens que se pasan a una red neuronal, y se diferencia de os modelos de lenguaje y visión convencionales superando lo que se conoce como inteligencia verbal para incluir también la conocida como inteligencia espacial, que permite tanto planificar como ejecutar acciones. Esto unido a su entrenamiento mezclando imágenes, vídeos, datos de robótica e interacciones de interfaz de usuario; lo convierten en un agente multimodal real.

Las funciones que permiten a Microsoft Magma controlar robots

Este modelo cuenta, por otra parte, con dos componentes técnicos distintivos. El primero de ellos es Set-of-Mark, que identifica objetos que se pueden manipular generando etiquetas numéricas a elementos interactivos, como botones en los que se puede pulsar en una interfaz de usuario, o objetos que se pueden coger y agarrar en un espacio de trabajo co robots. El segundo es Trace-of-Mark, que es capaz de aprender patrones de movimiento a partir de datos en vídeos.

Según Microsoft, estas dos funciones permiten que el modelo pueda realizar tareas como moverse por interfaces de usuario, o dirigir brazos robóticos para agarrar objetos. En cuanto a sus variantes, la compañía asegura que los resultados que ha obtenido Magma-8B en varios bancos de pruebas en cuanto a los tipos de tareas mencionados, son bastante buenos, superando incluso los obtenidos por modelos como OpenVLA en cuanto a vision-lenguaje-acción, en diversas tareas de manipulación robótica.

Eso sí, como sucede con todos los modelos de IA, Magma no es perfecto, y todavía tiene limitaciones técnicas en la toma de decisiones complejas que deben realizarse paso a paso y que necesiten realizar varios pasos a lo largo del tiempo. Microsoft asegura que sigue trabajando para mejorar estas funciones, y que está investigando para conseguirlo.

Mientras tanto, el código de inferencia y entrenamiento de Microsoft Magma ya está disponible en Github, lo que permitirá a investigadores externos trabajar basándose en él. Si Magma cumple las promesas que han hecho de él desde Microsoft, podría llevar a los asistentes de IA de la compañía más allá de las interacciones de texto limitadas, y permitirles operar software de manera autónoma, además de la ejecución de tareas del mundo real a través de la robótica.