Blog elhacker.NET: Cloudflare bloqueará por defecto los rastreadores de contenido web IA

El pasado mes de junio trajo dos buenas noticias para las empresas que desarrollan herramientas de inteligencia artificial generativa. Dos sentencias emitidas en California, que afectan a Anthropic en un caso y a Meta en otro, encuadran el haber alimentado con libros protegidos por derechos de autor a sus modelos de inteligencia artificial dentro del fair use o uso justo que permite la legislación estadounidense. Es decir, no tenían que compensar económicamente a nadie por hacerlo. Sin embargo, no todo rema en esa dirección y ahora ha sido Cloudflare, uno de los principales proveedores de la infraestructura de Internet, quien ha tomado una medida que pondrá las cosas más difíciles a los chatbots que generan sus respuestas a partir de la información que encuentran en la Red.

Uno de los principales proveedores de la infraestructura de Internet lanza el programa Pay Per Crawl o Paga por rastrear que permitirá a las webs fijar un precio para que los rastreadores de IA accedan a su contenido

Cloudflare bloqueará a partir de ahora de forma predeterminada a los rastreadores web de IA conocidos para evitar que ‘accedan a contenido sin permiso ni compensación’, según anunció este martes. Con este cambio, Cloudflare comenzará a preguntar a los nuevos propietarios de sitios web si autorizan el acceso de los rastreadores de IA, y permitirá que apliquen una tarifa de ‘Pago por Rastreo’ (Pay Per Crawl).

Si esto es importante, es porque Cloudflare es una de las patas sobre las que se asienta Internet proporcionando servicios como CDN (que distribuye el contenido por servidores en todo el mundo para que las webs carguen más rápido desde cualquier lugar), DNS (traduce los nombres de los dominios en direcciones IP que entienden los ordenadores) y protección contra ataques, entre otros. Buena parte de Internet pasa por sus servidores y servicios.

Paga por rastrear

Así, el programa Pay Per Crawl permitirá a los editores fijar un precio para que los rastreadores de IA accedan a su contenido. Las empresas de IA podrán consultar las tarifas y decidir si se registran para pagar la cuota o si desisten. Por ahora, esto solo está disponible en fase beta para ‘un grupo de algunos de los principales editores y creadores de contenido’, entre los que se encuentran The Associated Press, The Atlantic, Fortune, Stack Overflow, Quora y otros, pero Cloudflare asegura que garantizará que ‘las empresas de IA puedan utilizar contenido de calidad de la forma correcta: con permiso y compensación’. Los administradores de sitios web que estén interesados pueden apuntarse a la beta aquí.

Cloudfare quiere poner freno a la voracidad de la IA

Cloudflare lleva tiempo ayudando a los propietarios de webs a defenderse de los rastreadores de IA. Una de las preocupaciones del sector es que, desde que ha explotado la IA y Google la ha añadido a su Buscador, han visto cómo se reducen las visitas a sus páginas, dado que el usuario ya encuentra lo que busca en un chatbot como ChatGPT o en las Vistas creadas con IA que resumen la información que los usuarios buscan en Google. El acceso a la información con la que alimentan las respuestas de los chatbots ha sido, hasta ahora, una barra libre para las empresas de IA, pero Cloudflare quiere que eso cambie.

‘La gente confía más en la IA en los últimos seis meses, lo que significa que no leen el contenido original’, afirmó el CEO de Cloudflare, Matthew Prince, durante el evento Axios Live la semana pasada.

Cómo solucionar este rastreo indiscriminado y sin contraprestación? La primera propuesta fue actualizar el archivo robots.txt para indicarle a los bots que no pueden extraer el contenido de una web. Este archivo e uno de los recursos más usados para administrar la actividad de los bots, pero tiene un pequeño gran problema: su cumplimiento es voluntario. Las empresas de IA pueden seguir las instrucciones, o pueden ignorarlas y extraer el contenido.

La compañía empezó a permitir que los sitios web bloquearan a los rastreadores de IA en 2023, aunque esto solo se aplicaba a aquellos que respetaban el archivo robots.txt del sitio. Este es un archivo de texto alojado en el servidor que los sitios web usan para indicar a los bots y rastreadores qué partes de su contenido pueden o no explorar e indexar. La empresa identifica a los rastreadores que debe bloquear comparándolos con su lista de bots de IA conocidos.

El año pasado, Cloudflare permitió que los sitios bloquearan a ‘todos’ los bots de IA, independientemente de si respetaban o no el robots.txt, y ahora esta configuración está activada por defecto para los nuevos clientes de Cloudflare.

Además, puede pasar que toquemos lo que no debemos y que nuestra web desaparezca de Google. Toda web que quiera estar en Google debe permitir que GoogleBot, su araña, la rastree. El problema es que Google usa el user agent "GoogleBot" tanto para el SEO como para la IA. Si alguien bloquea "GoogleBot" en su web, estará desapareciendo de facto de Google. La clave sería bloquear "Google-Extended", que es el crawler de IA, pero esta diferenciación habría que hacerla bot a bot, una a una. Es una tarea laboriosa, como se puede deducir.

Además, Cloudflare lanzó en marzo una función que desvía a los bots rastreadores hacia un ‘Laberinto de IA’ para desincentivar extraer contenido sin permiso. Este sistema disuade el scraping (recopilar de forma automática datos de los sitios web) redirigiendo a los bots rastreadores a enlaces falsos o que no contienen información útil, haciéndoles gastar tiempo y recursos en procesos inútiles.

Cloudflare señala que está colaborando con empresas de IA para ayudar a verificar sus rastreadores y permitirles ‘declarar claramente su propósito’, como si usan el contenido para entrenamiento, inferencia o búsqueda. Los propietarios de los sitios web podrán revisar esta información y decidir a qué rastreadores permiten el acceso.

‘El contenido original es lo que hace de Internet uno de los mayores inventos del último siglo, y tenemos que unirnos para protegerlo’, señala Prince en el comunicado de prensa. ‘Los rastreadores de IA han estado extrayendo contenido sin límites. Nuestro objetivo es devolver el poder a los creadores, sin dejar de ayudar a las empresas de IA a innovar’, añade.

CloudFlare Pay per Crawl

En la plataforma de CloudFlare, los administradores de los sitios web tienen el servicio de AI Audit, que permite saber qué crawlers están viniendo a tu web, qué se están llevando, cuando y cuanto. Lo curioso de esas peticiones es que generan gastos de Cloud en las webs, y si el "tradeof" es que no me traes clientes - DeepSeek no trae links, por ejemplo, y hay que pedirle que te dé links de forma expresa, si no, sólo da respuestas -, y me consume gastos de cloud, es bastante "unfair".

Con AI Audit puedes ver quién está viniendo a tu web a crawlear el contenido, y desde ahí puedes tomar una acción para permitirle que acceda a tu contenido o bloquearlo. Al final, gracias al servicio de WAF que tiene la plataforma de CloudFlare con sus clientes permite hacer esto de forma muy sencilla, como podéis ver en la siguiente arquitectura.

Ahora, con el servicio de Pay Per Crawl, se puede configurar el precio por acceso al contenido, y las arañas (o crawlers) deberán registrarse primeramente y obtener un par de claves para autenticarse en CloudFlare y poder llegar al contenido de sus clientes. Para ello tienen que generar un par de claves criptográficas para verificar sus bots, tal y como se explica en el artículo: "Forget IPs: using cryptography to verify bot and agent traffic".

Esto evita que sea tan fácil suplantar a un crawler como usar su USER-Agent, o que haya detectar a las arañas de los indexadores por sus direcciones IP. Así, identificando en la red de CloudFlare a los crawlers legítimos, es más fácil detectar a los WebScrappers que están suplantado a estos para robar contenido. A partir de ahí, cuando un crawler solicita un contenido, recibirá un 403 si el contenido es de pago para los crawlers, tal y como se ve en esta imagen.

Si el crawler esta dispuesto al pago, deberá hacer un solicitud aceptando el pago con el HTTP Header de "crawler-exact-price" que garantizará que está ok con el pago solicitado de ese contenido, que pasará a ser parte del dinero que reciba el generador de contenido por ser utilizado para alimentar la base de datos de ese agente.

Además, el crawler podrá enviar una oferta inicial de pago por el contenido, con el HTTP header de "crawler-max-price" lo que hará que si el dueño del contenido ha puesto un precio que entra dentro de ese rango, directamente se le entregue y se le carge.

Si el precio del contenido entra en ese rango, entonces automáticamente se le devuelve el contenido, y se le dice lo que se le ha cargado por ese contenido al que ha accedido.

Con este servicio, CloudFlare ha puesto una herramienta en manos de los publicadores de contenido que puede ayudarles a proteger su trabajo y recibir un pago justo por lo que hacen de las grandes empresas, que tienen valoraciones Billonarias y generan nuevos negocios, todos ellos basados en los datos que han generado otras empresas. Muy interesante este paso de industria.

Fuentes:
https://www.larazon.es/tecnologia/problemas-cloudflare-bloqueara-sus-rastreadores-internet_20250701686439dc5e724b62f066398b.html

https://www.elladodelmal.com/2025/07/cloudflare-pay-per-crawl-un-servicio.html

Blog elhacker.NET

jueves, 3 de julio de 2025

Cloudflare bloqueará por defecto los rastreadores de contenido web IA

Paga por rastrear

Cloudfare quiere poner freno a la voracidad de la IA

CloudFlare Pay per Crawl

No hay comentarios:

Publicar un comentario