Noticias

Cloudflare acusa a Perplexity de rastreo web ilegal para alimentar su IA

Publicado el

5 agosto, 2025

por

Un informe de Cloudflare asegura que el motor de búsqueda conversacional de IA, Perplexity, está eludiendo las restricciones diseñadas para impedir que sus rastreadores web accedan a determinados sitios. El informe aviva la preocupación sobre la recopilación de contenido sin permiso de los sistemas de IA y resta confianza y credibilidad a quienes emplean este tipo de prácticas.

La IA es insaciable y consume una cantidad de recursos apabullante. Computaciones y energéticos principalmente, pero también datos para entrenamiento, aprendizaje o búsquedas. Y no todos se obtienen de manera legal o transparente. Sin regulación posible, el sector se está convirtiendo en una selva y el scraping de IA, la técnica que utiliza la inteligencia artificial para extraer automáticamente datos de fuentes digitales, está fuera de control.

Perplexity está en el ojo del huracán

No es la primera vez que se acusa a Perplexity de este tipo de prácticas. El año pasado la empresa fue descubierta eludiendo los muros de pago e ignorando los archivos robots.txt de los sitios. En aquel momento, su responsable ejecutivo, Aravind Srinivas (ex-OpenAI) lo atribuyó a la actividad de los rastreadores externos utilizados por el sitio.

Ahora, Cloudflare, uno de los proveedores de arquitectura de Internet más grandes del mundo, dice que recibió quejas de clientes que afirmaron que los bots de Perplexity mantenían acceso a sus sitios web incluso después de poner su preferencia en el archivo robots.txt de sus sitios web y crear reglas de Firewall de aplicaciones web (WAF) para restringir el acceso a los bots de IA de la startup.

Cloudflare no acusa a ciegas. La compañía afirma haber realizado una serie de pruebas y experimentos para determinar si Perplexity realmente intentaba eludir los límites establecidos por los propietarios de los distintos sitios web que recopilaba. Para probarlo, creó nuevos dominios con restricciones similares contra los rastreadores de IA de Perplexity, descubriendo que la firma intentaba primero acceder a los sitios identificándose con los nombres de sus rastreadores: «PerplexityBot» o «Perplexity-User».

Pero si el sitio web tenía restricciones contra el scraping de IA, Perplexity cambiaba su agente de usuario (la información que le indica a un sitio web qué tipo de navegador y dispositivo está usando, o si el visitante es un bot) para «suplantar la identidad de Google Chrome en macOS». Cloudflare dice que este «rastreador no declarado» utiliza direcciones IP «rotativas» que la compañía no incluye en la lista de direcciones IP utilizadas por sus bots.

Además, Cloudflare afirma que Perplexity modifica sus redes de sistemas autónomos (ASN), un número utilizado para identificar grupos de redes IP controladas por un único operador, para sortear bloqueos. «Esta actividad se observó en decenas de miles de dominios y millones de solicitudes diarias», aseguran los investigadores.

Cloudflare ha eliminado a Perplexity de su lista de bots verificados y ha implementado métodos para bloquear su rastreo oculto. El mes pasado, el proveedor de infraestructura empezó a permitir que los sitios web solicitaran a las empresas de IA que pagaran por rastrear su contenido y comenzó a bloquear los rastreadores de IA por defecto. Esto es una selva…