Tutoriales y Manuales
Entradas Mensuales
-
▼
2025
(Total:
704
)
-
▼
abril
(Total:
194
)
-
¿Por qué usar tarjetas de crédito cuando puedes pa...
-
Revelan un aumento record de ciberataques automati...
-
El Ayuntamiento de Badajoz sufre un ataque de rans...
-
OpenAI presenta un asistente de compras para ChatGPT
-
Winhance 4 permite un Windows más limpio, rápido y...
-
Anthropic descubrió que su Claude IA tiene su prop...
-
Vulnerabilidad Zero-Day crítica en SAP NetWeaver 7.xx
-
Meta AI presenta una app independiente para móviles
-
NotebookLM, el cuaderno de IA de Google, ya puede ...
-
ChatGPT revierte su última actualización tras desc...
-
Vibe coding o cómo crear una app sin tener ni idea...
-
Alibaba presenta los modelos de IA Qwen3, con capa...
-
Crea una lijadora de velocidad variable utilizando...
-
DeepSeek R2 está en fase de desarrollo: se entrena...
-
El Robotaxi de Tesla no será tan autónomo como Elo...
-
La IA revoluciona el diagnóstico y los tratamiento...
-
Windows te dejará insultar: podrás quitar el filtr...
-
CMF presenta el Phone 2 Pro es lo que todo móvil b...
-
El Consejo Europeo descarta un ciberataque como or...
-
ASUS activa el giroscopio de sus GeForce RTX 50 RO...
-
Google dice que «Find My Device» es 4 veces más rá...
-
Google asegura que si la IA se encarga de tareas a...
-
La nueva actualización de Windows incluye un fallo...
-
Apple planea trasladar a la India la producción de...
-
Brave integra Cookiecrumbler: el uso de la IA para...
-
Android 15 está solo en el 4,5% de los dispositivo...
-
Un chaval de 17 años inventó en 2011 lo que hacemo...
-
Ray Kurzweil, futurista y experto en IA: “En 2040 ...
-
Dos adolescentes robaron 24 millones en criptomone...
-
Filtrados en Telegram cientos de contraseñas de us...
-
Filtración de datos con más de 665.000 estudios mé...
-
HACKRON 2025: 29 mayo en Tenerife, las islas Canarias
-
Grok ve a través de la cámara y añade audio multil...
-
Logitech y Anker dan las primeras señales del impa...
-
Estados Unidos acusa a Europa de ‘extorsión económ...
-
Elon Musk prestó millones para comprar una casa y ...
-
Un "gracias" a ChatGPT consume más que 10 búsqueda...
-
Perro-robot puede pastorear ovejas sin ayuda humana
-
La opción que deberías desactivar en ChatGPT si qu...
-
YouTube Music estrena dos nuevas funciones
-
La Comisión Europea multa a Apple con 500 millones...
-
Western Digital y Microsoft están extrayendo de lo...
-
OpenAI trabaja en una red social con IA
-
Intel despedirá a 21.000 empleados, el 20% de su p...
-
Mavinject.exe: inyección de DLL utilizando la util...
-
DOOM funcionando en un código QR de solo 2,5 kilob...
-
Una vaca ha logrado cortar la conexión a internet ...
-
Google no eliminará las cookies de terceros en Chrome
-
MAGI-1, la IA china de código abierto, que genera ...
-
Google paga «millones» a Samsung por preinstalar G...
-
OutRun tendrá una película de la mano de Michael B...
-
OpenAI dispuesta a comprar Chrome si la justicia o...
-
Malware chino SuperCard X para Android es capaz de...
-
Wikipedia lanza un conjunto de datos para entrenar...
-
FramePack permite generar vídeos por IA con solo 6...
-
Microsoft Copilot ya es capaz de crear presentacio...
-
Smartphones y tablets tendrán que utilizar nueva e...
-
Hertz sufre un robo de información que afecta a má...
-
Ordenadores cuánticos: el qubit reemplaza al bit
-
El fundador de Telegram prefiere salir del mercado...
-
Instagram utiliza la IA para detectar a los adoles...
-
China presenta un cañón de 16 tubos para derribar ...
-
Meta quiere usar tus datos para entrenar su IA: si...
-
G1, el robot que practica artes marciales
-
¿Cuáles son los mejores sistemas operativos para l...
-
¿Por qué Graphene OS sólo es compatible con los te...
-
Western Digital anuncia discos duros de 40 TB para...
-
Vulnerabilidad crítica en la función extract() de ...
-
#laligagate, la movilización de usuarios y webs pa...
-
Operación Bonanza, una estafa piramidal de más de ...
-
Ucrania equipa sus drones con malware para sabotea...
-
Proxmox lanza la versión 8.4 de su plataforma de v...
-
Los primeros robots humanoides en correr una media...
-
Vulnerabilidad Windows NTLM explotada para robo de...
-
Vulnerabilidad en Cisco Webex permite ejecutar cód...
-
"ChatGPT es mi amigo y mi terapeuta": cada vez más...
-
Onorato IA, el loro robot que acompaña, habla y cu...
-
Investigadores descubren una nueva forma de evitar...
-
Alerta por la nueva función de Instagram que muest...
-
Un abogado cita sentencias "inexistentes" inventad...
-
Cuáles son los principales ataques a modelos de in...
-
RAID y ZFS: ¿Qué son y para qué sirven?
-
La justicia de Estados Unidos determina que Google...
-
Hackeó la Xbox antes que nadie y de paso logró alg...
-
Alertan sobre el aumento de los casos de clonación...
-
Windows 7 Elite Edition, ¿por qué no puede ser así...
-
OpenAI presenta o3 y o4-mini, sus modelos de razon...
-
Utilizar la IA de OpenAI para averiguar la ubicaci...
-
Meta empieza a usar lo que publicas en Facebook e ...
-
Los teléfonos Android se reiniciarán solos tras 3 ...
-
Make web mapping (open source) great again
-
El disco en PS5 de Indiana Jones y el Gran Círculo...
-
Desarrollan una herramienta de IA financiada por e...
-
ChatGPT se convierte en la aplicación móvil más de...
-
Google Chrome corrige un error de privacidad que a...
-
Fortinet advierte que atacantes pueden conservar e...
-
4chan hackeado, roban datos personales y el código...
-
La vida útil de los certificados SSL/TLS se reduci...
-
ServerlessHorrors: la web que recoge las peores pe...
-
Estados Unidos deja atrás las cintas magnéticas co...
-
-
▼
abril
(Total:
194
)
-
►
2024
(Total:
1110
)
- ► septiembre (Total: 50 )
-
►
2023
(Total:
710
)
- ► septiembre (Total: 65 )
-
►
2022
(Total:
967
)
- ► septiembre (Total: 72 )
-
►
2021
(Total:
730
)
- ► septiembre (Total: 56 )
-
►
2020
(Total:
212
)
- ► septiembre (Total: 21 )
-
►
2019
(Total:
102
)
- ► septiembre (Total: 14 )
-
►
2017
(Total:
231
)
- ► septiembre (Total: 16 )
-
►
2016
(Total:
266
)
- ► septiembre (Total: 38 )
-
►
2015
(Total:
445
)
- ► septiembre (Total: 47 )
-
►
2014
(Total:
185
)
- ► septiembre (Total: 18 )
-
►
2013
(Total:
100
)
- ► septiembre (Total: 3 )
-
►
2011
(Total:
7
)
- ► septiembre (Total: 1 )
Blogroll
Etiquetas
Entradas populares
-
Flipper Zero es una de las herramientas más utilizadas por los hackers un dispositivo que, a pesar de su pequeño tamaño, puede hacer un gr...
-
La Organización de Consumidores y Usuarios (OCU) de España ha sufrido una brecha de datos, La filtración de información se publicó en novi...
-
Después de ver qué es una vCPU y la diferencia entre núcleos (cores) e hilos en los procesadores, pasamos a explicar toda la nomenclatura d...
Wikipedia lanza un conjunto de datos para entrenar la inteligencia artificial
Wikimedia Foundation ha decidido crear un conjunto de datos estructurados que ha puesto a disposición de la comunidad dedicada al aprendizaje automático, para que puedan usarlos en el entrenamiento de sus modelos de IA.
Wikipedia facilita sus datos a desarrolladores de IA para combatir el scraping masivo
La Wikipedia ha decidido ofrecer todo su contenido a la IA, ya formateado y ordenado, para no sufrir el ataque de los bots que estaban saturando sus servidores. Los robots de la IA son una plaga.
La organización responsable de la popular enciclopedia digital, Wikipedia, alertó recientemente de un aumento del tráfico procedente de programas automatizados para descargar sus contenidos y usarlos en el entrenamiento de modelos de inteligencia artificial.
Esto estaba repercutiendo su capacidad de operar, ya que tenían que dedicar más tiempo y recursos a responder al tráfico no humano, lo que suponía un mayor coste de uso y mantenimiento de las infraestructuras.
La Wikipedia ha aumentado su tráfico un 50% por culpa de los bots de IA que se llevan todo su contenido, y para una proyecto sin ánimo de lucro que se financia con donaciones, ese tráfico artificial puede significar su muerte. Así que ha decidido preparar su contenido para la IA, y ofrecerlo en un servicio externo, Kaggle.
Esto hace que casi todas sus peticiones se remitan a los servidores centrales, sobrecargándolos. El 65% del tráfico de su contenido más pesado (vídeos de larga duración), proviene de estos robots.
Ahora, ha anunciado la creación de un conjunto de datos estructurados de Wikipedia que ha compartido en Kaggle de manera gratuita y abierta, para que pueda puedan usarse en «el entrenamiento de modelos, la construcción de características y para probar canales de procesamiento de lenguaje natural», como explica en un comunicado.
Los datos se han compartido en un formato que pueden leer los ordenadores, en inglés y francés, e incluyen «resúmenes, descripciones breves, datos clave-valor de estilo infobox, enlaces de imágenes y secciones de artículos claramente segmentadas».
Kaggle: Un puente entre Wikipedia y la comunidad de IA
La elección de Kaggle como plataforma para alojar estos datos no es casual. Esta comunidad de ciencia de datos, adquirida por Google en 2017, cuenta con una amplia base de usuarios dedicados al aprendizaje automático y la inteligencia artificial, desde principiantes hasta expertos.
Brenda Flynn, responsable de asociaciones de Kaggle, expresó su entusiasmo por la colaboración: "Como el lugar al que acude la comunidad de aprendizaje automático en busca de herramientas y pruebas, Kaggle está extremadamente emocionada de ser el anfitrión de los datos de la Fundación Wikimedia". Y añadió: "Kaggle está emocionada de desempeñar un papel en mantener estos datos accesibles, disponibles y útiles".
La asociación entre Google y Wikimedia a través de Kaggle representa un paso significativo para democratizar el acceso a estos valiosos recursos. Mientras que la Fundación Wikimedia ya mantiene acuerdos de intercambio de contenido con Google y el Internet Archive, esta nueva iniciativa hace que los datos estructurados sean más accesibles para empresas más pequeñas y científicos de datos independientes que no podrían negociar acuerdos directos.
Un precedente para la relación entre plataformas de conocimiento e IA
Este movimiento de Wikipedia podría marcar un precedente importante en la forma en que las grandes plataformas de conocimiento interactúan con el creciente ecosistema de inteligencia artificial. En lugar de simplemente resistirse al uso de sus datos o imponer barreras técnicas, la Fundación Wikimedia ha optado por un enfoque proactivo que reconoce la realidad del aprendizaje automático moderno.
La Fundación ya había establecido relaciones formales con grandes tecnológicas a través de Wikimedia Enterprise, su servicio comercial de API que cuenta con Google y el Internet Archive como primeros clientes. Sin embargo, la asociación con Kaggle amplía significativamente el alcance de estos datos a un público mucho más amplio de desarrolladores e investigadores.
Implicaciones futuras
Esta estrategia podría servir de modelo para otras plataformas de contenido que enfrentan desafíos similares con el scraping masivo para entrenar sistemas de IA. Al proporcionar conjuntos de datos oficiales y estructurados, las plataformas pueden mantener cierto control sobre cómo se utilizan sus datos mientras alivian la presión sobre su infraestructura.
Para los desarrolladores de IA, especialmente aquellos que trabajan en startups o como investigadores independientes, el acceso a estos datos estructurados de alta calidad podría acelerar significativamente sus proyectos sin necesidad de invertir recursos en técnicas de scraping que suelen ser ineficientes y potencialmente problemáticas desde el punto de vista ético y legal.
Por su parte, los usuarios finales de Wikipedia probablemente no notarán cambios inmediatos, pero a largo plazo, esta iniciativa podría contribuir a mantener la estabilidad y velocidad de la plataforma al reducir la carga innecesaria en sus servidores.
La colaboración entre Wikimedia y Kaggle representa un equilibrio pragmático entre proteger los recursos de la plataforma y reconocer el papel fundamental que el contenido de Wikipedia puede desempeñar en el avance de la investigación en inteligencia artificial. En un momento en que la relación entre las plataformas tradicionales de contenido y las nuevas tecnologías de IA está en constante evolución, este enfoque colaborativo podría señalar el camino hacia un futuro más sostenible para ambas partes.
https://droids.es/news/wikipedia-facilita-datos-desarrolladores-ia/
0 comentarios :
Publicar un comentario
Los comentarios pueden ser revisados en cualquier momento por los moderadores.
Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.
Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.