El pasado mes de junio trajo dos buenas noticias para las empresas que desarrollan herramientas de inteligencia artificial generativa. Dos sentencias emitidas en California, que afectan a Anthropic en un caso y a Meta en otro, encuadran el haber alimentado con libros protegidos por derechos de autor a sus modelos de inteligencia artificial dentro del fair use o uso justo que permite la legislación estadounidense. Es decir, no tenían que compensar económicamente a nadie por hacerlo. Sin embargo, no todo rema en esa dirección y ahora ha sido Cloudflare, uno de los principales proveedores de la infraestructura de Internet, quien ha tomado una medida que pondrá las cosas más difíciles a los chatbots que generan sus respuestas a partir de la información que encuentran en la Red.
- Uno de los principales proveedores de la infraestructura de Internet lanza el programa Pay Per Crawl o Paga por rastrear que permitirá a las webs fijar un precio para que los rastreadores de IA accedan a su contenido
Si esto es importante, es porque Cloudflare es una de las patas sobre las que se asienta Internet proporcionando servicios como CDN (que distribuye el contenido por servidores en todo el mundo para que las webs carguen más rápido desde cualquier lugar), DNS (traduce los nombres de los dominios en direcciones IP que entienden los ordenadores) y protección contra ataques, entre otros. Buena parte de Internet pasa por sus servidores y servicios.
Paga por rastrear
Así, el programa Pay Per Crawl permitirá a los editores fijar un precio para que los rastreadores de IA accedan a su contenido. Las empresas de IA podrán consultar las tarifas y decidir si se registran para pagar la cuota o si desisten. Por ahora, esto solo está disponible en fase beta para ‘un grupo de algunos de los principales editores y creadores de contenido’, entre los que se encuentran The Associated Press, The Atlantic, Fortune, Stack Overflow, Quora y otros, pero Cloudflare asegura que garantizará que ‘las empresas de IA puedan utilizar contenido de calidad de la forma correcta: con permiso y compensación’. Los administradores de sitios web que estén interesados pueden apuntarse a la beta aquí.
Cloudfare quiere poner freno a la voracidad de la IA
Cloudflare lleva
tiempo ayudando a los propietarios de webs a defenderse de los
rastreadores de IA. Una de las preocupaciones del sector es que, desde
que ha explotado la IA y Google la ha añadido a su Buscador, han visto cómo se reducen las visitas a sus páginas, dado que el usuario ya encuentra lo que busca en un chatbot como ChatGPT o en las Vistas creadas con IA
que resumen la información que los usuarios buscan en Google. El acceso
a la información con la que alimentan las respuestas de los chatbots ha sido, hasta ahora, una barra libre para las empresas de IA, pero Cloudflare quiere que eso cambie.
‘La gente confía más en la IA en los últimos seis meses, lo que significa que no leen el contenido original’, afirmó el CEO de Cloudflare, Matthew Prince, durante el evento Axios Live la semana pasada.
Cómo solucionar este rastreo indiscriminado y sin contraprestación? La primera propuesta fue actualizar el archivo robots.txt para indicarle a los bots que no pueden extraer el contenido de una web. Este archivo e uno de los recursos más usados para administrar la actividad de los bots, pero tiene un pequeño gran problema: su cumplimiento es voluntario. Las empresas de IA pueden seguir las instrucciones, o pueden ignorarlas y extraer el contenido.
La compañía empezó a permitir que los sitios web bloquearan a los rastreadores de IA en 2023, aunque esto solo se aplicaba a aquellos que respetaban el archivo robots.txt del sitio. Este es un archivo de texto alojado en el servidor que los sitios web usan para indicar a los bots y rastreadores qué partes de su contenido pueden o no explorar e indexar. La empresa identifica a los rastreadores que debe bloquear comparándolos con su lista de bots de IA conocidos.
El año pasado, Cloudflare permitió que los sitios bloquearan a ‘todos’ los bots de IA, independientemente de si respetaban o no el robots.txt, y ahora esta configuración está activada por defecto para los nuevos clientes de Cloudflare.
Además, puede pasar que toquemos lo que no debemos y que nuestra web desaparezca de Google. Toda web que quiera estar en Google debe permitir que GoogleBot, su araña, la rastree. El problema es que Google usa el user agent "GoogleBot" tanto para el SEO como para la IA. Si alguien bloquea "GoogleBot" en su web, estará desapareciendo de facto de Google. La clave sería bloquear "Google-Extended", que es el crawler de IA, pero esta diferenciación habría que hacerla bot a bot, una a una. Es una tarea laboriosa, como se puede deducir.
Además, Cloudflare lanzó en marzo una función que desvía a los bots rastreadores hacia un ‘Laberinto de IA’ para desincentivar extraer contenido sin permiso. Este sistema disuade el scraping
(recopilar de forma automática datos de los sitios web) redirigiendo a
los bots rastreadores a enlaces falsos o que no contienen información
útil, haciéndoles gastar tiempo y recursos en procesos inútiles.
Cloudflare señala que está colaborando con empresas de IA para ayudar a verificar sus rastreadores y permitirles ‘declarar claramente su propósito’, como si usan el contenido para entrenamiento, inferencia o búsqueda. Los propietarios de los sitios web podrán revisar esta información y decidir a qué rastreadores permiten el acceso.
‘El contenido
original es lo que hace de Internet uno de los mayores inventos del
último siglo, y tenemos que unirnos para protegerlo’, señala Prince
en el comunicado de prensa. ‘Los rastreadores de IA han estado
extrayendo contenido sin límites. Nuestro objetivo es devolver el poder a
los creadores, sin dejar de ayudar a las empresas de IA a innovar’,
añade.
CloudFlare Pay per Crawl
https://www.elladodelmal.com/2025/07/cloudflare-pay-per-crawl-un-servicio.html




No hay comentarios:
Publicar un comentario