Entradas Mensuales

Síguenos en:

Canal Oficial Telegram de elhacker.NET Grupo Facebook elhacker.NET Twitter elhacker.NET Canal Youtube elhacker.NET Comunidad Steam: Grupo elhacker.NET Mastodon

Entradas populares

PostHeaderIcon En 2025 hubo más bots y herramientas de IA en Internet que usuarios humanos


En 2025, el número de bots y herramientas de IA en Internet superó al de usuarios humanos, confirmando la tendencia a una Internet más automatizada y menos humana.




La "teoría de la Internet muerta" se está volviendo realidad. O al menos, la red se está convirtiendo cada vez más en algo más automatizado y menos humano.

Hace poco un estudio ponía de manifiesto un dato preocupante: más de la mitad de lo que se publica en Internet ya está generado mediante inteligencia artificial. Si esta noticia ya de por sí no resultaba suficientemente alarmante, ahora otra investigación profundiza en la cuestión: este 2025 ya hubo más tráfico generado por bots e IA que por seres humanos.

¿Qué quiere decir esto exactamente? Pues que por primera vez desde que se creó Internet y comenzó a popularizarse entre la gente, las máquinas navegan más que las personas. Puede que la teoría de la "Internet muerta" sea exagerada, pero de lo que ya no hay duda es de que la red está más automatizada que nunca, y seguramente el fenómeno vaya en aumento.

Bots e IA, los dueños de Internet

Cloudflare, una de las mayores compañías de infraestructura y seguridad de Internet del mundo. Por eso sus análisis anuales sobre el tráfico de la red son siempre interesantes para los expertos. Este año, en cambio, se ha producido un punto de inflexión. Según su último estudio, Internet ya está dominada por bots y herramientas automatizadas, en gran medida a consecuencia de la IA.

Atendiendo a sus mediciones, menos de la mitad del tráfico web mundial ya procede de usuarios humanos, mientras que el resto corresponde a bots de todo tipo: desde rastreadores clásicos de buscadores hasta nuevas herramientas impulsadas por inteligencia artificial que analizan, copian, indexan o interactúan con páginas web de forma constante.

En realidad, el tema de los bots no es nuevo. El propio buscador de Google, sin ir más lejos, requiere de acceso a Internet constante para cumplir con su función. Lo que lo ha cambiado todo, explican los expertos, ha sido el auge que ha experimentado la inteligencia artificial, y herramientas como ChatGPT, que de alguna manera han invadido la red a todos los niveles.

La cuestión es que los modelos de lenguaje, asistentes virtuales y servicios basados en IA necesitan acceder continuamente a información online. Para ello, utilizan bots capaces de recorrer millones de páginas, a menudo en tiempo real, cada vez que un usuario hace una consulta. Y los usuarios hacen consultas todo el tiempo, como era de esperar, claro.

El tráfico fantasma que genera la IA

Lo que los expertos expresan es que más tráfico no siempre quiere decir que este sea mejor. Más bien al contrario. En realidad, si esta tendencia continúa, y todo hace suponer que continuará, puede terminar por suponer un problema serio para muchos medios digitales, para tiendas online o, incluso, para los ahora llamados creadores de contenidos.

  • Tráfico permitido Allowed robots.txt



Los rastreadores de IA fueron los agentes de usuario a los que se les denegó totalmente el acceso con más frecuencia en los archivos robots.txt

El archivo robots.txt, definido formalmente en el estándar RFC 9309 como el Protocolo de exclusión de robots, es un archivo de texto que los propietarios de contenido pueden utilizar para indicar a los rastreadores web a qué partes de un sitio web pueden acceder. Esto se realiza mediante directivas para permitir o denegar el acceso a los rastreadores de búsqueda y de IA a todo el sitio o solo a partes del mismo. Las directivas del archivo son, en efecto, una señal de "prohibido el paso" y no proporcionan ningún control de acceso formal. Dicho esto, la función robots.txt administrado de Cloudflare actualiza automáticamente el archivo robots.txt existente de un sitio o crea un archivo robots.txt en el sitio que incluye directivas que solicitan a los operadores de bots de IA más populares que no utilicen el contenido para el entrenamiento de modelos de IA. Además, nuestras funciones de AI Crawl Control pueden rastrear las infracciones de las directivas robots.txt de un sitio, y dar al propietario del sitio la capacidad de bloquear las solicitudes del agente de usuario infractor.

En Cloudflare Radar, proporcionamos información sobre la cantidad de archivos robots.txt que se encuentran entre nuestros 10 000 principales dominios, así como la disposición total o parcial de las directivas "allow" (permiso) y "disallow" (denegación) que se encuentran en los archivos para los agentes de usuario rastreadores seleccionados. (En este contexto, "total" se refiere a las directivas que se aplican a todo el sitio, y "parcial" se refiere a las directivas que se aplican a rutas o tipos de archivos específicos). En el micrositio del Resumen del año mostramos cómo cambió la disposición de estas directivas a lo largo de 2025.

Los agentes de usuario con el mayor número de directivas totalmente no permitidas son los asociados a los rastreadores de IA, incluidos GPTBot, ClaudeBot y CCBot. Las directivas para los rastreadores Googlebot y Bingbot, utilizados tanto para la indexación de búsquedas como para el entrenamiento de la IA, se orientaban principalmente a la denegación parcial, probablemente enfocadas en aislar los puntos finales de inicio de sesión y otras áreas no relacionadas con el contenido de un sitio. Para estos dos bots, las directivas aplicables a todo el sitio representaron una pequeña parte del número total de directivas de no permitir observadas durante el año. 

La explicación es sencilla: los bots y, sobre todo, la IA, consumen ancho de banda, recursos y todo eso, pero no generan ingresos porque, por así decirlo, su tráfico "no es real". Por no hablar de que en muchos casos copian contenido sin generar visitas para el sitio del que lo ha copiado. Un panorama complicado en el que, si se mira con cierta lógica, todo el mundo sale perdiendo.

El número de directivas explícitas "allow" encontradas en los archivos robots.txt descubiertos era una pequeña parte de las directivas "disallow" observadas, probablemente porque "allow" es la política predeterminada, en ausencia de cualquier directiva específica. Googlebot tenía el mayor número de directivas "allow" explícitas, aunque más de la mitad de ellas eran permisos parciales. Se encontraron directivas "allow" dirigidas a rastreadores de IA en menos dominios, y directivas dirigidas a los rastreadores de OpenAI que se inclinan más hacia permisos explícitos totales. 

Google-Extended es un token de agente de usuario que los editores web pueden utilizar para gestionar si el contenido que Google rastrea de sus sitios se puede utilizar para entrenar modelos Gemini o para proporcionar contenido del sitio desde el índice de Búsqueda de Google a Gemini. El número de directivas de permiso dirigidas a este token se triplicó durante el año. La mayoría permitía el acceso parcial a principios de año, mientras que a finales de año se observó un mayor número de directivas que permitían explícitamente el acceso total al sitio en comparación con aquellas que solo permitían el acceso a una parte del contenido del sitio. 


Fuentes:
https://computerhoy.20minutos.es/tendencias/ya-es-oficial-2025-hubo-mas-bots-herramientas-ia-internet-que-usuarios-humanos_6912847_0.html


0 comentarios :

Publicar un comentario

Los comentarios pueden ser revisados en cualquier momento por los moderadores.

Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.

Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.