Noticias
Los desarrolladores open source se hartan de los rastreadores web de IA

Los bots de rastreo web que «trabajan» para sistemas de IA están causando no pocos problemas a los desarrolladores open source y a los propietarios de páginas web. Pero sobre todo a los primeros, porque por la naturaleza de sus desarrollos, tienden a compartir más contenidos en sus páginas y repositorios. Con el consiguiente perjuicio, porque también tienen menos recursos para infraestructura que las empresas que se dedican al desarrollo de productos y servicios que no son de código abierto.
Por eso hay cada vez más desarrolladores de software open source que se cansan de que estos bots, en busca de contenido para el entrenamiento de sistemas de IA, atasquen su página y en ocasiones la echen abajo por la cantidad de peticiones que realizan. También quieren proteger sus desarrollos.
No pocos están pasando a la acción, según Ars Technica, y no solo se limitan a indicar qué páginas no quieren que rastreen en sus archivos robots.txt, porque no sirve de nada. Estos ficheros se crearon para los bots de los motores de búsqueda, y suelen incluir las páginas que sus propietarios no quieren que se indexen. Pero los bots que que rastrean para recopilar contenidos para la IA suelen ignorar las instrucciones indicadas en dichos ficheros. Sencillamente, se lo quedan todo.
Desarrolladores open source contra rastreadores de IA
Uno de los desarrolladores de software libre que ha pasado a la acción es Xe Iaso. El pasado mes de enero Xe describió cómo AmazonBot acedía una y otra vez a la web de su servidor de Git, hasta el punto de ocasionarle apagones de la página por denegación de servicio (DDoS). Este tipo de servidores suelen albergar multitud de proyectos con licencia open source, con el objetivo de que todos los que lo deseen puedan descargar su código o contribuir a él.
Este bot ignoraba el archivo robots.txt de Iaso, se escondía detrás de diversas direcciones IP, y pretendía ser otro tipo de usuario. Es lo que suelen hacer, según Iaso: mentir, cambiar sus datos y utilizar IPs residenciales como proxies.
Una vez en el sitio, se dedican a recoger su contenido hasta que las páginas se caen por el atasco de peticiones, y ni aún así dejan de hacerlo. Hacen click en todos los enlaces una y otra vez y abren las mismas páginas sin parara. Algunos son tan potentes e insistentes que hacen click varias veces en el mismo enlace en un solo segundo.
Por eso, Iaso tomó la decisión de contraatacar, y para ello desarrolló una herramienta a la que ha llamado Anubis: un proxy inverso que comprueba antes de dar acceso a una petición a un servidor de Git que detrás de ella no hay un bot. Si no supera la prueba a la que le somete, no deja acceder al servidor a la petición.
Es decir, bloquea los bots, pero deja avanzar las peticiones realizadas por humanos. Si una petición web supera la prueba a la que se la somete, y se considera que proviene de un humano, aparece una imagen de anime que anuncia el éxito. Si es un bot, se deniega su petición de acceso y no puede acceder a los contenidos de la página.
Iaso compartió el proyecto Anubis en GitHub hace unos días, y su popularidad se ha extendido como la pólvora ente la comunidad dedicada al software open source. Ya cuenta con más de 2.000 estrellas, 20 contribuidores y alrededor de 40 forks.
Problemas crecientes para los desarrolladores
Los problemas de Iaso con estos bots no son los únicos. Hay decenas de casos. Por ejemplo, el CEO de SourceHut, Drew DeVault, explica que pasa entre el 20% y el 100% de su tiempo de trabajo durante la semana mitigando los efectos de rastreadores de modelos grandes de lenguaje a escala. Además, asegura que cada semana tiene, por este motivo, docenas de interrupciones de servicio de sus webs.
Denis Schubert, que mantiene infraestructura para la red social Diaspora, describió la situación que se está viviendo con estos bots como «un ataque de denegación de servicio a toda Internet«, después de descubrir que las empresas de IA suponían el 70% de todas las peticiones web a sus servicios.
Los costes de esta voracidad de los bots son tanto técnicos como financieros. Según Schubert, el bloqueo de los rastreadores de IA que realizó hizo descender su tráfico en un 75%, pasando de 800 GB por día a 200 GB. Esto hizo que su proyecto pudiese ahorrar aproximadamente 1.500 dólares al mes en costes de ancho de banda.
Pero no solo eso. Además de consumir ancho de banda, los rastreadores suelen atacar a veces a puntos caros, como páginas de logs de git, y commits de los repositorios, añadiendo estrés a recursos ya limitados. Otros proyectos open source empezaron a recibir ya en diciembre de 2023 informes de bugs generador por IA, que en principio parecen legítimos, pero que contienen vulnerabilidades inventadas, haciendo que los desarrolladores perdiesen mucho tiempo comprobándolas para nada.
Martin Owens, del proyecto Inkscape, destacó en Mastodon que sus problemas no eran por los ataques de DDoS que suelen sufrir algunas veces, sino «de varias empresas que han empezado a ignorar nuestra configuración de rastreo y han empezado a mentir sobre la información de su navegación«. Esto hizo que empezase a desarrollar una lista de bloqueo de estos bots, que describe como prodigiosa, y que hace que «si trabajas para una gran empresa que se dedica a la IA, es posible que no puedas acceder a nuestra web«.
El desarrollador Jonathan Corvet, que además tiene una web de noticias del sector, señala en Mastodon que su página experimenta ralentizaciones a menudo por culpa del tráfico de bots rastreadores de IA, cuyo nivel de actividad compara con el del tráfico que causa ataques de denegación de servicio. Kevin Fenzi, administrador de sistemas del proyecto Fedora Linux, asegura que los bots rastreadores de IA se han vuelto tan agresivos que ha tenido que bloquear el acceso a todo Brasil.
Hay muchos otros casos similares. En un momento dado, otro desarrollador tuvo hasta que prohibir el acceso a todas las direcciones IP de China. El problema es de tal magnitud que, como vemos, hay desarrolladores que han tenido que prohibir el acceso a sus repositorios a países enteros para evitar los efectos de estos bots.
La mejor defensa, un buen ataque
Para evitarlo, como con Anubis, muchos optan por defenderse, pero hay desarrolladores que opinan que es mejor pasar al ataque. Hace unos meses, un usuario de Hacker News llamado xyzal sugirió que si cargaban en los archivos robots.txt con archivos sobre contenidos basura, como los beneficios de beber lejía, los robots de los buscadores los ignorarían, pero estos bots de IA no. Es decir, han comenzado a tender trampas a los bots de IA.
Tanto, que ya hay herramientas dedicadas específicamente a esto. En enero, otro desarrollador anónimo, conocido como Aaron, Nepenthes, un software con nombre de planta carnívora que se dedica justo a eso. Atrapa a los rastreadores en un laberinto de contenido falso.
Pero no solo los desarrolladores se han puesto manos a la obra para librarse de los bots de IA, Cloudflare ya ofrece varias herramientas para combatir a estos rastreadores de IA. La principal es AI Labyrinth, centrada en ralentizar a los rastreadores, confundirlos y gastar los recursos de estos bots y otros que no respetan las directivas de no rastreo que están en los archivos robots.txt.
Así, a los rastreadores que no se comportan con respeto con los creadores de páginas les suministra contenido irrelevante para que no se quede con los contenidos legítimos de las webs que pretenden copiar.
La comunidad está también desarrollando herramientas colaborativas que ayudan a protegerse de estos rastreadores. Como el proyecto ai.robots.txt, que ofrece una lista abierta de rastreadores web asociados con empresas de IA, así como archivos robots.txt prediseñados y que implementan el Protocolo de exclusión de robots. Además, cuentan con archivos-htaccess que devuelven páginas de error cuando detectan peticiones de rastreadores de IA.
¿Por qué hacen esto los rastreadores de IA?
El comportamiento de los rastreadores indica que puede haber varios motivos para que se comporten de este modo. Algunos pueden estar recopilando datos para entrenar o ajustar modelos grandes de lenguaje. Otros pueden estar ejecutando búsquedas en tiempo real debidas a las preguntas de los usuarios a los asistentes de IA para buscar información.
La frecuencia de estos rastreos es particularmente inquietante. Porque no solo rastrean una página una vez y luego se van a otro sitio. Vuelven a rastrear la misma página varias horas después. Este patrón sugiere que mucha de su actividad obedece a recopilación de datos, en vez de a ejercicios de entrenamiento de una pasada. Esto es un posible indicador de que las empresas están utilizando estos rastreos para mantener actualizada la información de sus modelos.
Algunas empresas dedicadas a la IA, eso sí, son más agresivas que otras. El equipo de administradores de sistemas de KDE ha asegurado que los rastreadores que salen de rangos de IP de Alibaba llegaron a hacer caer su repositorio de GitLab temporalmente. Los problemas de Iaso, como hemos visto, vienen del rastreador de Amazon.
Según un miembro del equipo de KDE, operadores occidentales de modelos grandes de lenguajes, como OpenAI o Anthropic, estaban adoptando configuraciones más respetuosas para sus bots, que en teoría permiten bloquearlos a las webs, pero que otras compañías chinas de IA no tenían tanto cuidado con ellos. El caso es que su actividad no solo echa por tierra las páginas y repositorios de desarrolladores de todo el mundo, sino que además les está costando dinero, y tienen que tomar medidas para elo.
-
EntrevistasHace 7 días
«En España hay un fuerte interés por soluciones híbridas y protección avanzada de datos»
-
Notas de prensaHace 7 días
Huawei celebra su Conferencia Europea de Partners 2025
-
NoticiasHace 7 días
AMD anuncia su primer chip de 2 nm, EPYC Venice
-
NoticiasHace 6 días
Lenovo ThinkPad P14s, una workstation de alta movilidad