Noticias
AIR prueba la facilidad para superar los controles de seguridad de un Agent Skill falso
Los Agent Skill son un formato estandarizado y ligero que amplía las capacidades de los agentes de IA proporcionando herramientas, conocimientos y flujos de trabajo especializados. Generalmente, este tipo de habilidades consisten en un archivo skill.md que incluyen metadatos e instrucciones que le indican al agente cómo realizar una tarea específica. También pueden incluir scripts, materiales de referencia, plantillas y otros recursos, proporcionando el contexto necesario del que a veces carecen los agentes para realizar un trabajo real de forma fiable.
Desarrollados originalmente por Anthropic, fueron publicados como estándar abierto y hoy son compatibles con una gran cantidad de herramientas de IA y clientes de agentes. Sin embargo, como todo lo que involucra a la inteligencia artificial, los aspectos de ciberseguridad son un caballo de batalla todavía no resuelto.
Agent Skill falso, una vía de ataque
La firma de seguridad AIR creó un Agent Skill falso, lo promocionó a través de un popular mercado de habilidades y un anuncio en Instagram, y logró alcanzar a 26.000 agentes, incluidos algunos en cuentas corporativas. Por supuesto, la carga útil era inofensiva por diseño y únicamente recopilaba la dirección de correo electrónico del usuario.
Pero el resultado fue preocupante. Todos los escáneres de seguridad de Skill que la empresa utilizó para probarlo lo consideraron seguro. El objetivo era demostrar que ninguna de las señales en las que la gente se apoya para confiar en una habilidad la detectaba: ni los escáneres, ni las estrellas de GitHub, ni la reputación del código abierto.
La habilidad, denominada brand-landingpage, afirmaba crear una página de destino utilizando la herramienta de diseño Stitch de Google, dirigida directamente a usuarios no técnicos. Para darle credibilidad, AIR buscó dos señales de confianza: estrellas de GitHub y un veredicto de escaneo limpio. Para obtener las estrellas, abrió una solicitud de extracción a un repositorio de mercado de habilidades con aproximadamente 36.000 estrellas y 156 habilidades.
La solicitud de extracción se fusionó unos días después, por lo que la habilidad heredó el número de instancias del repositorio. Después, lanzó un anuncio en Instagram dirigido a profesionales del marketing, vendedores y diseñadores, quienes la instalaron y la pusieron en funcionamiento.
Para la demostración, solo se enviaba la dirección del usuario a AIR, que era como la empresa contabilizaba los agentes a los que llegaba. Pero un operador real podría haber utilizado ese punto de acceso para leer archivos, transferir datos o acceder a sistemas internos, limitado únicamente por el alcance del agente.
AIR no es el primero en demostrar esto. Hace unas semanas Trail of Bits eludió el detector de habilidades maliciosas de ClawHub, el escáner de Cisco y los tres escáneres conectados a skills.sh. Su conclusión fue contundente: un escáner verifica un paquete fijo, mientras que un atacante puede seguir modificando la carga útil hasta que pase la prueba. Las campañas maliciosas reales, las conocidas y las que no se conocen, han utilizado el mismo truco durante meses, manteniendo la habilidad enviada limpia y alojando la carga útil en un sitio que el agente solo descarga durante la instalación.
El problema es estructural: el escaneo se realiza una sola vez, pero la página a la que apunta la habilidad puede modificarse posteriormente. La propia documentación de Anthropic ya advierte que las habilidades que acceden a URL externas tienen riesgo precisamente por este motivo, ya que el contenido puede cambiar después de que la habilidad haya sido verificada.
-
NoticiasHace 7 díasZscaler amplía su plataforma Zero Trust Exchange para proteger la IA agéntica
-
A FondoHace 7 díasEl caso Oracle: cómo la IA agéntica obliga al mercado del SaaS a revisar su modelo
-
OpiniónHace 6 díasCinco momentos clave que determinarán el éxito o el fracaso de sus iniciativas de IA en 2026
-
EntrevistasHace 6 días«La refrigeración con agua caliente ya es el estándar para IA»


