Conecta con nosotros

Noticias

Cloudflare bloqueará por defecto los bots de extracción de contenido para IA

Publicado el

Cloudflare

El proveedor de arquitectura de Internet Cloudflare ha cambiado su estrategia en relación a los extractores de contenido para IA (scrapers). A partir de ahora los bloqueará por defecto, evitando que puedan acceder a los contenidos de las webs de sus clientes sin permiso para hacerlo o sin recibir ninguna compensación económica por ello. Así lo ha confirmado la compañía en un comunicado, en el que refleja que empezará a preguntar a los nuevos propietarios de dominios si quieren que sus contenidos estén accesibles para los extractores de contenido para IA.

Además dejará que ciertos medios de comunicación y plataformas online puedan implementar un modelo de «pago por extracción», lo que también les abre la puerta a un nuevo modelo de negocio que hará que las compañías de IA que quieran rastrear y recoger su contenido para entrenar a sus modelos o para utilizarlo con agentes de IA y otros sistemas de Inteligencia Artificial tengan que compensar a los propietarios de los contenidos para poder recogerlo.

Este programa de pago por rastreo permitirá que los editores fijen un precio para que los extractores de contenido para IA puedan acceder a los que poseen y tienen publicados online. Las empresas de IA pueden entonces ver los precios y decidir si se registran en el programa para pagar la cuota pedida o la rechazan.

Por ahora, la puesta en marcha del programa solo ha llegado a un grupo de los principales editores y creadores de contenidos del mundo, pero Cloudflare ha confirmado que se va a asegurar de expandirlo y de que. las empresas de IA puedan utilizar contenido de calidad de la manera correcta. Eso es, con permiso y compensación económica por hacerlo.

Cloudflare ya lleva un tiempo ayudando a los propietarios de dominios a combatir a estos extractores de contenido. Empezaron por permitir a las webs bloquear los rastreadores de Ia en 2023, pero solo a los que cumplían las condiciones establecidas en robots.txt, el archivo en el que queda claro si los bots de cualquier tipo pueden acceder a los contenidos de la web.

Cloudflare comenzó a permitir a las webs bloquear todos los bots de IA el año pasado, tanto si cumplían las condiciones de los archivos robots.txt de las webs como si no lo hacían, y es la opción que tienen activada por defecto todos los clientes nuevos de Cloudflare.

El pasado mes de marzo, Cloudflare también activó una función que envía a los bots de extracción de contenido web a una especie de «laberinto de IA» para intentar conseguir que las empresas que los habían desplegado dejasen de recoger contenidos sin permiso.

Entre los medios, editores y plataformas online que van a poder participar ya en este programa de Cloudflare están Associated Press, Atlas Obscura, BuzzFeed, Condé Nast, USA Today, O’Reilly Media, Pinterest, Reddit, Sky News, SourceForce, The Atlantic, Fortune, Stack Overflow, Time y Quora.

Además, Cloudflare asegura que está trabajando con las empresas de IA para ayudar a verificar sus rastreadores y permitirles establecer e indicar cuáles son sus fines, y para qué quieren utilizarles: utilizar el contenido para entrenamiento, inferencia o búsqueda. Los propietarios de las webs pueden revisar esta información y decidir a qué rastreadores dejan acceder a sus contenidos.

Matthew Prince, CEO y uno de los fundadores de Cloudflare, ha subrayado que «si Internet va a sobrevivir a la era de la IA, necesitamos dar a los editores el control que merecen, y desarrollar un nuevo modelo económico que funciona para todos: creadores, consumidores, los fundadores de IA del mañana, y el futuro de la web en sí. El contenido original es lo que hace que Internet sea uno de los principales inventos del último siglo, y es esencial que los creadores sigan desarrollándola. Los rastreadores de IA han estado extrayendo contenido sin límite. Nuestro objetivo es poner de nuevo el poder en manos de los creadores, mientras ayudan a las empresas de IA a innovar. Esto va de la protección del futuro de una Internet vibrante y libre sin un nuevo modelo que funcione para todos«.

Redactora de tecnología con más de 15 años de experiencia, salté del papel a la Red y ya no me muevo de ella. Inquieta y curiosa por naturaleza, siempre estoy al día de lo que pasa en el sector.

Lo más leído