Entradas Mensuales

Síguenos en:

Canal Oficial Telegram de elhacker.NET Grupo Facebook elhacker.NET Twitter elhacker.NET Canal Youtube elhacker.NET Comunidad Steam: Grupo elhacker.NET Mastodon
Mostrando entradas con la etiqueta scraper. Mostrar todas las entradas
Mostrando entradas con la etiqueta scraper. Mostrar todas las entradas

PostHeaderIcon Cloudflare bloqueará por defecto los rastreadores de contenido web IA


El pasado mes de junio trajo dos buenas noticias para las empresas que desarrollan herramientas de inteligencia artificial generativa. Dos sentencias emitidas en California, que afectan a Anthropic en un caso y a Meta en otro, encuadran el haber alimentado con libros protegidos por derechos de autor a sus modelos de inteligencia artificial dentro del fair use o uso justo que permite la legislación estadounidense. Es decir, no tenían que compensar económicamente a nadie por hacerlo. Sin embargo, no todo rema en esa dirección y ahora ha sido Cloudflare, uno de los principales proveedores de la infraestructura de Internet, quien ha tomado una medida que pondrá las cosas más difíciles a los chatbots que generan sus respuestas a partir de la información que encuentran en la Red.




PostHeaderIcon Scrapy, el framework open source que se ha convertido en el terror silencioso de millones de sitios web


Scrapy nació como un framework de código abierto para facilitar la recolección de datos estructurados desde páginas web. Desarrollado originalmente por Zyte (antes conocida como Scrapinghub) y mantenido por una activa comunidad de desarrolladores, se ha convertido hoy en una de las herramientas preferidas para proyectos de data mining, monitorización, archivado web y entrenamiento de modelos de Inteligencia Artificial.

 





PostHeaderIcon Recopilaron datos privados de 1.000 millones usuarios de Alibaba


El gigante chino de comercio electrónico con presencia también en España, fue "hackeado", en realidad usaron web scraping para rastrear los datos igual que con la filtración de 533 millones de teléfonos de Facebook. Alibaba, la matriz de AliExpress y AliPay, propiedad del multimillonario Jack Ma. Según las primeras informaciones, habría 1.200 millones de datos de usuarios afectados.




PostHeaderIcon Google crea un formulario para denunciar a páginas que plagian contenidos originales


Matt Cutts, el actual  director del departamento contra el spam en web de Google, ha anunciado vía Twitter un formulario llamado "Scraper Report" para reportar páginas que han copiado el contenido de otra y aparecen en mejor posicionadas (SEO) que la tuya en el buscador de Google.