Tutoriales y Manuales
Entradas Mensuales
-
▼
2025
(Total:
943
)
-
▼
junio
(Total:
96
)
-
La Generalitat anuncia un plan de ciberprotección ...
-
Intel Nova Lake con a 52 núcleos, DDR5-8000 y 32 c...
-
Lenovo ThinkBook Plus Gen 6, primer portátil con p...
-
Adobe Firefly llega a móviles y reinventa la creat...
-
Meta está por anunciar sus próximas gafas intelige...
-
SEGA regala 9 juegos retro en móviles
-
La batería ultrarrápida que se carga en 18 segundo...
-
Así son las gafas inteligentes de Xiaomi
-
La Policía Nacional España detiene en Barcelona al...
-
Microsoft anuncia acuerdo con AMD para crear las n...
-
ClamAV: el antivirus open source para Linux
-
Irán prohíbe a altos cargos y agentes de seguridad...
-
Andalucía anuncia JuntaGPT: la IA llega a la admin...
-
China entrena su IA en maletas llenas de discos du...
-
LibreOffice señala los «costes reales» de la migra...
-
Donald Trump ha lanzado su propio smartphone Andro...
-
El Pentágono ficha a OpenAI por 200 millones para ...
-
Todo lo que deberías saber sobre las tarjetas gráf...
-
Securonis: Protección y anonimato en una distribuc...
-
Así es como el ego traicionó al indio que creó una...
-
WhatsApp añade anuncios en la función "Estados"
-
Kali Linux 2025.2
-
El Reino Unido pide a militares y políticos que ev...
-
Software espía Graphite se utiliza en ataques Zero...
-
Elitetorrent, Lateletetv, 1337x y más: todas las p...
-
Mattel y OpenAI preparan el primer juguete con int...
-
"The Grafana Ghost": vulnerabilidad que afecta al ...
-
NVIDIA lleva la optimización de Stable Diffusion a...
-
Bluetooth 6.0 mejora la experiencia con la norma i...
-
ChatGPT prioriza su supervivencia por encima de pr...
-
Vuelve la estafa del router: la Policía Nacional E...
-
Los SSDs PCIe 6.0 están a años vista: AMD e Intel ...
-
Disney y Universal demandan a Midjourney por crear...
-
El boom de la IA en atención al cliente se desinfl...
-
Alemania abandona Microsoft y anuncia que instalar...
-
Las 10 máquinas más poderosas del TOP500 de Superc...
-
Si te gustan los videojuegos de hospitales, Epic G...
-
Apple corrige una vulnerabilidad que permitía espi...
-
Windows 11 permite comprimir imágenes sin aplicaci...
-
OpenAI revela que los registros de ChatGPT se cons...
-
Windows Maintenance Tool: repara, limpia y mantien...
-
Rufus 4.8 mejora el rendimiento con las ISO de Win...
-
NVIDIA N1X: el chip ARM para PCs competirá con Int...
-
Google Beam, el dispositivo de videollamadas de Go...
-
WhiteRabbitNeo un LLM (un "ChatGPT") para hacking
-
OpenAI utilizará Google Cloud para la capacidad co...
-
Microsoft bloqueará archivos .library-ms y .search...
-
Por primera vez, un hombre con ELA ha conseguido h...
-
Descubren una vulnerabilidad crítica de Copilot qu...
-
Una ‘calcomanía’ creada con inteligencia artificia...
-
Una Atari 2600 gana al ajedrez a ChatGPT
-
Vulnerabilidades en Fortinet explotadas para infec...
-
Script PowerShell para restaurar la carpeta "inetp...
-
Nintendo Switch 2 vende 3,5 millones de unidades e...
-
ChatGPT sufre una caída a nivel mundial: la IA dej...
-
OpenAI anuncia su IA más poderosa e inteligente a ...
-
Magistral es el nuevo modelo de razonamiento de Mi...
-
OpenAI, Meta y Google pierden su talento en IA a f...
-
El teléfono móvil domina el tráfico web global con...
-
Apple ha demostrado que los modelos de razonamient...
-
Tu nombre, dirección y tarjeta: filtración de 7 mi...
-
Adiós a #SkinnyTok: TikTok prohíbe en España la te...
-
Apple presenta el nuevo diseño de software Liquid ...
-
Las mejores alternativas a WhatsApp 2025: segurida...
-
Microsoft anuncia un programa de ciberseguridad pa...
-
Qué son los Agentes de IA y por qué se dice que mo...
-
¿Cuánta información memoriza realmente un LLM?
-
Gemini ya permite programar acciones desde el móvil
-
Adobe lanza el Photoshop para Android y es gratis ...
-
CodeStrike, el videojuego gratuito que te enseña P...
-
Filtración datos personales de Infojobs tras sufri...
-
Nuevas patrullas con drones para vigilar áreas urb...
-
¿La publicidad del futuro? Sony presenta la primer...
-
Una startup financiada por Microsoft se hunde tras...
-
Antigua vulnerabilidad crítica en el webmail Round...
-
Mistral Code es un nuevo agente de IA capaz de esc...
-
Una tiktoker ayudó a Corea del Norte a infiltrarse...
-
Multa de 3,2 millones a Carrefour por múltiples br...
-
España bloquea una media de 235.600 llamadas y 10....
-
DeepSeek es acusada de copiar a Gemini, la IA de G...
-
Codex ya está disponible en ChatGPT
-
Disponible Unreal Engine 5.6
-
Scrapy, el framework open source que se ha convert...
-
Glosario para unificar nomenclatura APT
-
Este es el método oculto con el que Meta rastrea s...
-
Personas que perdieron su trabajo porque su jefe p...
-
Llegan los primeros Juegos Olímpicos de robots hum...
-
Hackeo a Movistar Perú:supuesta filtración de dato...
-
Vulnerabilidades críticas en sistema de foros vBul...
-
Starlink V3 es oficial: descargas 10 veces más ráp...
-
Detenido un hombre en Barcelona por grabar con gaf...
-
Google Maps cerró varias autopistas alemanas duran...
-
Así cayó Valyrio, el 'youtuber' que montó un Googl...
-
Guía de seguridad y privacidad de la IA de OWASP
-
Meta se alía con el Ejército de Estados Unidos par...
-
Google ya puede resumir vídeos guardados en Drive ...
-
-
▼
junio
(Total:
96
)
-
►
2024
(Total:
1110
)
- ► septiembre (Total: 50 )
-
►
2023
(Total:
710
)
- ► septiembre (Total: 65 )
-
►
2022
(Total:
967
)
- ► septiembre (Total: 72 )
-
►
2021
(Total:
730
)
- ► septiembre (Total: 56 )
-
►
2020
(Total:
212
)
- ► septiembre (Total: 21 )
-
►
2019
(Total:
102
)
- ► septiembre (Total: 14 )
-
►
2017
(Total:
231
)
- ► septiembre (Total: 16 )
-
►
2016
(Total:
266
)
- ► septiembre (Total: 38 )
-
►
2015
(Total:
445
)
- ► septiembre (Total: 47 )
-
►
2014
(Total:
185
)
- ► septiembre (Total: 18 )
-
►
2013
(Total:
100
)
- ► septiembre (Total: 3 )
-
►
2011
(Total:
7
)
- ► septiembre (Total: 1 )
Blogroll
Etiquetas
Entradas populares
-
Tanto Windows 10 como Windows 11 nos permiten utilizar diferentes comandos a través de la consola que nos ayudan a realizar diferentes tar...
-
Alemania, al igual que millones de usuarios en todo el mundo, decidió abandonar Microsoft . Un estado del país europeo confirmó que inició ...
-
ChatGPT, ese símbolo del avance tecnológico con voz sedosa y respuestas a medida, ha sido aplastado por una consola Atari 2600 de 1977 corri...
Scrapy, el framework open source que se ha convertido en el terror silencioso de millones de sitios web
Scrapy nació como un framework de código abierto para facilitar la recolección de datos estructurados desde páginas web. Desarrollado originalmente por Zyte (antes conocida como Scrapinghub) y mantenido por una activa comunidad de desarrolladores, se ha convertido hoy en una de las herramientas preferidas para proyectos de data mining, monitorización, archivado web y entrenamiento de modelos de Inteligencia Artificial.
Pero el problema no está en la herramienta en sí, sino en cómo está siendo utilizada masivamente sin control. Miles de scripts automatizados —desde laboratorios de IA hasta operadores anónimos— lanzan ataques de scraping intensivo desde IPs rotativas que saturan recursos, consumen ancho de banda y en ocasiones llegan a derribar pequeños servidores. En el centro de esta oleada silenciosa de tráfico: Scrapy.
¿Qué es Scrapy?
Scrapy es un framework escrito en Python 3.9+ que permite desarrollar arañas web (spiders) para navegar por sitios web y extraer información estructurada. Su arquitectura, basada en eventos asíncronos (gracias a Twisted), lo hace especialmente eficiente y escalable. Entre sus capacidades más destacadas están:
- Selección de datos mediante XPath y selectores CSS.
- Soporte para exportar resultados en JSON, XML o CSV.
- Shell interactiva para depurar scraping en tiempo real.
- Manejadores de cookies, autenticación, compresión, caching, spoofing de user-agent, y más.
- Middleware personalizable y extensiones para adaptar cualquier necesidad.
- Compatible con otros parsers como BeautifulSoup o lxml.
Además, Scrapy no se limita a HTML: también puede trabajar con APIs REST, archivos XML o feeds de datos.
¿Por qué está generando tantos problemas?
El scraping en sí mismo no es ilegal si se hace dentro de los términos legales y de uso del sitio web, pero el abuso ha provocado que Scrapy se vea cada vez más como un arma de doble filo.
Numerosos administradores web están reportando oleadas de tráfico desde IPs sospechosas que no respetan robots.txt
, no gestionan la frecuencia de acceso y lanzan cientos de peticiones por minuto. Esto puede traducirse en:
- Picos de carga en servidores no preparados para ese tráfico.
- Aumento en los costes de ancho de banda en planes de hosting.
- Robo de contenido y estructura para ser reutilizado sin permiso.
- Complicaciones en analíticas web, al contaminar las métricas con tráfico falso.
Scrapy permite falsificar user-agents, trabajar con proxys rotativos y gestionar sesiones, lo que dificulta bloquearlo eficazmente sin herramientas avanzadas como WAFs o firewalls de aplicaciones.
¿Qué está haciendo la comunidad web para defenderse?
Cada vez más profesionales están optando por:
- Bloquear user-agents sospechosos como «Scrapy», «python-requests», «curl», etc.
- Restringir métodos HTTP poco comunes (HEAD, OPTIONS).
- Verificar IPs legítimas de bots conocidos, como Googlebot, y bloquear impostores.
- Implementar sistemas como Cloudflare WAF, reglas personalizadas en
.htaccess
o scripts deiptables
.
Además, se están desarrollando listas negras automáticas de IPs que usan Scrapy de forma abusiva, pero el carácter distribuido del scraping lo convierte en una carrera sin fin.
Una herramienta útil… si se usa con responsabilidad
Scrapy no es el enemigo. De hecho, su diseño limpio y arquitectura modular lo hacen ideal para múltiples aplicaciones legítimas, desde la creación de datasets públicos hasta pruebas automatizadas. Pero su creciente uso en bots de IA que scrapean sin control está generando fricciones en la comunidad web.
Fuentes:
https://revistacloud.com/scrapy-framework-open-source-convertido-terror-silencioso-web/
0 comentarios :
Publicar un comentario
Los comentarios pueden ser revisados en cualquier momento por los moderadores.
Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.
Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.