Noticias

Microsoft presenta Rho-alpha, primer modelo de robótica para IA física

Publicado el

26 enero, 2026

por

Los robots han funcionado de manera confiable durante mucho tiempo dentro de entornos industriales estrictamente controlados con entornos predecibles y desviaciones limitadas, pero fuera de eso, a menudo tienen dificultades.

Microsoft cree que los sistemas pueden funcionar más allá de las líneas de montaje respondiendo a condiciones cambiantes en lugar de seguir guiones rígidos y para ello ha anunciado Rho-alpha, el primer modelo robótico derivado de su serie de lenguaje de visión Phi, que promete argumentando que los robots necesitan mejores formas de ver y comprender instrucciones.

Para qué está diseñado Rho-alfa

Microsoft vincula el modelo con lo que se denomina ampliamente IA física, donde se espera que los modelos de software guíen a las máquinas a través de situaciones menos estructuradas. Combina lenguaje, percepción y acción, lo que reduce la dependencia de líneas de producción o instrucciones fijas.

Rho-alpha traduce comandos de lenguaje natural en señales de control robótico y se centra en tareas de manipulación bimanual, que requieren coordinación entre dos brazos robóticos y un control detallado. Microsoft caracteriza al sistema como una extensión de los enfoques VLA típicos al expandir tanto la percepción como las entradas de aprendizaje.

«La aparición de modelos de visión-lenguaje-acción (VLA) para sistemas físicos está permitiendo que los sistemas perciban, razonen y actúen con mayor autonomía junto con los humanos en entornos mucho menos estructurados», afirmó Ashley Llorens, vicepresidente corporativo y director general de Microsoft Research Accelerator.

Rho-alfa incluye detección táctil junto con visión, con modalidades de detección adicionales como la fuerza, que es un desarrollo continuo. Estas decisiones de diseño sugieren un intento de reducir la brecha entre la inteligencia simulada y la interacción física, aunque su eficacia (y su utilidad real como con todo lo de la IA) aún está bajo evaluación.

Una parte central del enfoque de Microsoft se basa en la simulación para abordar datos robóticos a gran escala limitados, en particular datos que involucran el tacto. Las trayectorias sintéticas se generan a través del aprendizaje de refuerzo dentro del framework de código abierto NVIDIA Isaac Sim y luego se combinan con demostraciones físicas de conjuntos de datos comerciales y abiertos.

Microsoft también enfatiza la intervención correctiva humana durante la implementación, permitiendo a los operadores intervenir utilizando dispositivos de teleoperación y brindar retroalimentación que el sistema puede aprender con el tiempo. Este ciclo de entrenamiento combina simulación, datos del mundo real y corrección humana, lo que refleja una creciente dependencia de las herramientas de IA para compensar los escasos conjuntos de datos incorporados.