Tutoriales y Manuales
Entradas Mensuales
-
▼
2025
(Total:
1037
)
-
▼
junio
(Total:
133
)
-
El nuevo invento de China para espiar a sus enemig...
-
"¿Es esto real, Grok?": te explicamos por qué es m...
-
Añadir el parámetro &udm=? a las búsquedas de Goog...
-
Todo lo que ChatGPT sabe de ti, que puede resultar...
-
Trump Mobile elimina de su web la etiqueta de “hec...
-
Grave vulnerabilidad en WinRAR permite ejecución r...
-
Atacantes rusos eluden la doble autenticación de G...
-
Microsoft presenta Mu, un modelo de lenguaje peque...
-
AnduinOS se actualiza, así es la distro Linux que ...
-
Los Nothing Headphone (1) se filtran por completo:...
-
Disfruta de los clásicos de Nintendo NES en 3D con...
-
El Poco F7 llega con el nuevo chipset Snapdragon 8...
-
WhatsApp ya puede generar resúmenes de los mensaje...
-
Mejores apps de IA para Android
-
Miles de cámaras domésticas quedan expuestas en In...
-
Apple prepara los AirTag 2
-
Google ha presentado Gemini CLI, un agente de IA p...
-
Citrix publica parches de emergencia para vulnerab...
-
HDMI 2.2 ya es oficial junto con su nuevo cable Ul...
-
Melilla sufre un brutal ciberataque pese a estar e...
-
Identificado al líder del grupo de ransomware Cont...
-
En 1989 hackearon la NASA con un mensaje que sembr...
-
Bosch acusa a Europa de frenar el avance de la int...
-
29 moderadores de Meta en Barcelona denuncian tort...
-
El iPhone muestra anuncios no deseados: Apple Pay ...
-
Google presenta "Gemini Robotics On-Device", una I...
-
Comet, el nuevo navegador impulsado por IA de Perp...
-
Un conductor chino se queja de que se active conti...
-
Otra mega filtración (recopilación) con 16.000 mil...
-
Roban un camión con más de 2.810 consolas Nintendo...
-
Generar imágenes con ChatGPT directamente en WhatsApp
-
Midjourney V1 convierte imágenes en video en segundos
-
Mando de Xiaomi convierte tu móvil en una Nintendo...
-
EchoLeak: primera vulnerabilidad de IA sin clic qu...
-
Cobbler: Un servidor de instalación de Linux para ...
-
Vulnerabilidades en PAM y udisks de Linux permite ...
-
Veeam Backup soluciona una vulnerabilidad crítica
-
La Generalitat anuncia un plan de ciberprotección ...
-
Intel Nova Lake con a 52 núcleos, DDR5-8000 y 32 c...
-
Lenovo ThinkBook Plus Gen 6, primer portátil con p...
-
Adobe Firefly llega a móviles y reinventa la creat...
-
Meta está por anunciar sus próximas gafas intelige...
-
SEGA regala 9 juegos retro en móviles
-
La batería ultrarrápida que se carga en 18 segundo...
-
Así son las gafas inteligentes de Xiaomi
-
La Policía Nacional España detiene en Barcelona al...
-
Microsoft anuncia acuerdo con AMD para crear las n...
-
ClamAV: el antivirus open source para Linux
-
Irán prohíbe a altos cargos y agentes de seguridad...
-
Andalucía anuncia JuntaGPT: la IA llega a la admin...
-
China entrena su IA en maletas llenas de discos du...
-
LibreOffice señala los «costes reales» de la migra...
-
Donald Trump ha lanzado su propio smartphone Andro...
-
El Pentágono ficha a OpenAI por 200 millones para ...
-
Todo lo que deberías saber sobre las tarjetas gráf...
-
Securonis: Protección y anonimato en una distribuc...
-
Así es como el ego traicionó al indio que creó una...
-
WhatsApp añade anuncios en la función "Estados"
-
Kali Linux 2025.2
-
El Reino Unido pide a militares y políticos que ev...
-
Software espía Graphite se utiliza en ataques Zero...
-
Elitetorrent, Lateletetv, 1337x y más: todas las p...
-
Mattel y OpenAI preparan el primer juguete con int...
-
"The Grafana Ghost": vulnerabilidad que afecta al ...
-
NVIDIA lleva la optimización de Stable Diffusion a...
-
Bluetooth 6.0 mejora la experiencia con la norma i...
-
ChatGPT prioriza su supervivencia por encima de pr...
-
Vuelve la estafa del router: la Policía Nacional E...
-
Los SSDs PCIe 6.0 están a años vista: AMD e Intel ...
-
Disney y Universal demandan a Midjourney por crear...
-
El boom de la IA en atención al cliente se desinfl...
-
Alemania abandona Microsoft y anuncia que instalar...
-
Las 10 máquinas más poderosas del TOP500 de Superc...
-
Si te gustan los videojuegos de hospitales, Epic G...
-
Apple corrige una vulnerabilidad que permitía espi...
-
Windows 11 permite comprimir imágenes sin aplicaci...
-
OpenAI revela que los registros de ChatGPT se cons...
-
Windows Maintenance Tool: repara, limpia y mantien...
-
Rufus 4.8 mejora el rendimiento con las ISO de Win...
-
NVIDIA N1X: el chip ARM para PCs competirá con Int...
-
Google Beam, el dispositivo de videollamadas de Go...
-
WhiteRabbitNeo un LLM (un "ChatGPT") para hacking
-
OpenAI utilizará Google Cloud para la capacidad co...
-
Microsoft bloqueará archivos .library-ms y .search...
-
Por primera vez, un hombre con ELA ha conseguido h...
-
Descubren una vulnerabilidad crítica de Copilot qu...
-
Una ‘calcomanía’ creada con inteligencia artificia...
-
Una Atari 2600 gana al ajedrez a ChatGPT
-
Vulnerabilidades en Fortinet explotadas para infec...
-
Script PowerShell para restaurar la carpeta "inetp...
-
Nintendo Switch 2 vende 3,5 millones de unidades e...
-
ChatGPT sufre una caída a nivel mundial: la IA dej...
-
OpenAI anuncia su IA más poderosa e inteligente a ...
-
Magistral es el nuevo modelo de razonamiento de Mi...
-
OpenAI, Meta y Google pierden su talento en IA a f...
-
El teléfono móvil domina el tráfico web global con...
-
Apple ha demostrado que los modelos de razonamient...
-
Tu nombre, dirección y tarjeta: filtración de 7 mi...
-
Adiós a #SkinnyTok: TikTok prohíbe en España la te...
-
Apple presenta el nuevo diseño de software Liquid ...
-
-
▼
junio
(Total:
133
)
-
►
2024
(Total:
1110
)
- ► septiembre (Total: 50 )
-
►
2023
(Total:
710
)
- ► septiembre (Total: 65 )
-
►
2022
(Total:
967
)
- ► septiembre (Total: 72 )
-
►
2021
(Total:
730
)
- ► septiembre (Total: 56 )
-
►
2020
(Total:
212
)
- ► septiembre (Total: 21 )
-
►
2019
(Total:
102
)
- ► septiembre (Total: 14 )
-
►
2017
(Total:
231
)
- ► septiembre (Total: 16 )
-
►
2016
(Total:
266
)
- ► septiembre (Total: 38 )
-
►
2015
(Total:
445
)
- ► septiembre (Total: 47 )
-
►
2014
(Total:
185
)
- ► septiembre (Total: 18 )
-
►
2013
(Total:
100
)
- ► septiembre (Total: 3 )
-
►
2011
(Total:
7
)
- ► septiembre (Total: 1 )
Blogroll
Etiquetas
Entradas populares
-
Cuando compras un juego no te pertenece, solo compras una licencia para usarlo por un tiempo finito. Este es el modelo de negocio que defi...
-
Apple ha tenido que despedirse de una pieza clave en uno de sus equipos en la lucha que mantienen las grandes empresas tecnológicas por co...
-
Después de ver qué es una vCPU y la diferencia entre núcleos (cores) e hilos en los procesadores, pasamos a explicar toda la nomenclatura d...
Scrapy, el framework open source que se ha convertido en el terror silencioso de millones de sitios web
Scrapy nació como un framework de código abierto para facilitar la recolección de datos estructurados desde páginas web. Desarrollado originalmente por Zyte (antes conocida como Scrapinghub) y mantenido por una activa comunidad de desarrolladores, se ha convertido hoy en una de las herramientas preferidas para proyectos de data mining, monitorización, archivado web y entrenamiento de modelos de Inteligencia Artificial.
Pero el problema no está en la herramienta en sí, sino en cómo está siendo utilizada masivamente sin control. Miles de scripts automatizados —desde laboratorios de IA hasta operadores anónimos— lanzan ataques de scraping intensivo desde IPs rotativas que saturan recursos, consumen ancho de banda y en ocasiones llegan a derribar pequeños servidores. En el centro de esta oleada silenciosa de tráfico: Scrapy.
¿Qué es Scrapy?
Scrapy es un framework escrito en Python 3.9+ que permite desarrollar arañas web (spiders) para navegar por sitios web y extraer información estructurada. Su arquitectura, basada en eventos asíncronos (gracias a Twisted), lo hace especialmente eficiente y escalable. Entre sus capacidades más destacadas están:
- Selección de datos mediante XPath y selectores CSS.
- Soporte para exportar resultados en JSON, XML o CSV.
- Shell interactiva para depurar scraping en tiempo real.
- Manejadores de cookies, autenticación, compresión, caching, spoofing de user-agent, y más.
- Middleware personalizable y extensiones para adaptar cualquier necesidad.
- Compatible con otros parsers como BeautifulSoup o lxml.
Además, Scrapy no se limita a HTML: también puede trabajar con APIs REST, archivos XML o feeds de datos.
¿Por qué está generando tantos problemas?
El scraping en sí mismo no es ilegal si se hace dentro de los términos legales y de uso del sitio web, pero el abuso ha provocado que Scrapy se vea cada vez más como un arma de doble filo.
Numerosos administradores web están reportando oleadas de tráfico desde IPs sospechosas que no respetan robots.txt
, no gestionan la frecuencia de acceso y lanzan cientos de peticiones por minuto. Esto puede traducirse en:
- Picos de carga en servidores no preparados para ese tráfico.
- Aumento en los costes de ancho de banda en planes de hosting.
- Robo de contenido y estructura para ser reutilizado sin permiso.
- Complicaciones en analíticas web, al contaminar las métricas con tráfico falso.
Scrapy permite falsificar user-agents, trabajar con proxys rotativos y gestionar sesiones, lo que dificulta bloquearlo eficazmente sin herramientas avanzadas como WAFs o firewalls de aplicaciones.
¿Qué está haciendo la comunidad web para defenderse?
Cada vez más profesionales están optando por:
- Bloquear user-agents sospechosos como «Scrapy», «python-requests», «curl», etc.
- Restringir métodos HTTP poco comunes (HEAD, OPTIONS).
- Verificar IPs legítimas de bots conocidos, como Googlebot, y bloquear impostores.
- Implementar sistemas como Cloudflare WAF, reglas personalizadas en
.htaccess
o scripts deiptables
.
Además, se están desarrollando listas negras automáticas de IPs que usan Scrapy de forma abusiva, pero el carácter distribuido del scraping lo convierte en una carrera sin fin.
Una herramienta útil… si se usa con responsabilidad
Scrapy no es el enemigo. De hecho, su diseño limpio y arquitectura modular lo hacen ideal para múltiples aplicaciones legítimas, desde la creación de datasets públicos hasta pruebas automatizadas. Pero su creciente uso en bots de IA que scrapean sin control está generando fricciones en la comunidad web.
Fuentes:
https://revistacloud.com/scrapy-framework-open-source-convertido-terror-silencioso-web/
0 comentarios :
Publicar un comentario
Los comentarios pueden ser revisados en cualquier momento por los moderadores.
Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.
Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.