Blog elhacker.NET: Wikipedia lanza un conjunto de datos para entrenar la inteligencia artificial

Wikipedia lanza un conjunto de datos para entrenar la inteligencia artificial

martes, 22 de abril de 2025 | Publicado por el-brujo | Editar entrada

Wikimedia Foundation ha decidido crear un conjunto de datos estructurados que ha puesto a disposición de la comunidad dedicada al aprendizaje automático, para que puedan usarlos en el entrenamiento de sus modelos de IA.

Wikipedia facilita sus datos a desarrolladores de IA para combatir el scraping masivo

La Wikipedia ha decidido ofrecer todo su contenido a la IA, ya formateado y ordenado, para no sufrir el ataque de los bots que estaban saturando sus servidores. Los robots de la IA son una plaga.

La organización responsable de la popular enciclopedia digital, Wikipedia, alertó recientemente de un aumento del tráfico procedente de programas automatizados para descargar sus contenidos y usarlos en el entrenamiento de modelos de inteligencia artificial.

Esto estaba repercutiendo su capacidad de operar, ya que tenían que dedicar más tiempo y recursos a responder al tráfico no humano, lo que suponía un mayor coste de uso y mantenimiento de las infraestructuras.

La Wikipedia ha aumentado su tráfico un 50% por culpa de los bots de IA que se llevan todo su contenido, y para una proyecto sin ánimo de lucro que se financia con donaciones, ese tráfico artificial puede significar su muerte. Así que ha decidido preparar su contenido para la IA, y ofrecerlo en un servicio externo, Kaggle.

Esto hace que casi todas sus peticiones se remitan a los servidores centrales, sobrecargándolos. El 65% del tráfico de su contenido más pesado (vídeos de larga duración), proviene de estos robots.

Ahora, ha anunciado la creación de un conjunto de datos estructurados de Wikipedia que ha compartido en Kaggle de manera gratuita y abierta, para que pueda puedan usarse en «el entrenamiento de modelos, la construcción de características y para probar canales de procesamiento de lenguaje natural», como explica en un comunicado.

Los datos se han compartido en un formato que pueden leer los ordenadores, en inglés y francés, e incluyen «resúmenes, descripciones breves, datos clave-valor de estilo infobox, enlaces de imágenes y secciones de artículos claramente segmentadas».

Kaggle: Un puente entre Wikipedia y la comunidad de IA

La elección de Kaggle como plataforma para alojar estos datos no es casual. Esta comunidad de ciencia de datos, adquirida por Google en 2017, cuenta con una amplia base de usuarios dedicados al aprendizaje automático y la inteligencia artificial, desde principiantes hasta expertos.

Brenda Flynn, responsable de asociaciones de Kaggle, expresó su entusiasmo por la colaboración: "Como el lugar al que acude la comunidad de aprendizaje automático en busca de herramientas y pruebas, Kaggle está extremadamente emocionada de ser el anfitrión de los datos de la Fundación Wikimedia". Y añadió: "Kaggle está emocionada de desempeñar un papel en mantener estos datos accesibles, disponibles y útiles".

La asociación entre Google y Wikimedia a través de Kaggle representa un paso significativo para democratizar el acceso a estos valiosos recursos. Mientras que la Fundación Wikimedia ya mantiene acuerdos de intercambio de contenido con Google y el Internet Archive, esta nueva iniciativa hace que los datos estructurados sean más accesibles para empresas más pequeñas y científicos de datos independientes que no podrían negociar acuerdos directos.

Un precedente para la relación entre plataformas de conocimiento e IA

Este movimiento de Wikipedia podría marcar un precedente importante en la forma en que las grandes plataformas de conocimiento interactúan con el creciente ecosistema de inteligencia artificial. En lugar de simplemente resistirse al uso de sus datos o imponer barreras técnicas, la Fundación Wikimedia ha optado por un enfoque proactivo que reconoce la realidad del aprendizaje automático moderno.

La Fundación ya había establecido relaciones formales con grandes tecnológicas a través de Wikimedia Enterprise, su servicio comercial de API que cuenta con Google y el Internet Archive como primeros clientes. Sin embargo, la asociación con Kaggle amplía significativamente el alcance de estos datos a un público mucho más amplio de desarrolladores e investigadores.

Implicaciones futuras

Esta estrategia podría servir de modelo para otras plataformas de contenido que enfrentan desafíos similares con el scraping masivo para entrenar sistemas de IA. Al proporcionar conjuntos de datos oficiales y estructurados, las plataformas pueden mantener cierto control sobre cómo se utilizan sus datos mientras alivian la presión sobre su infraestructura.

Para los desarrolladores de IA, especialmente aquellos que trabajan en startups o como investigadores independientes, el acceso a estos datos estructurados de alta calidad podría acelerar significativamente sus proyectos sin necesidad de invertir recursos en técnicas de scraping que suelen ser ineficientes y potencialmente problemáticas desde el punto de vista ético y legal.

Por su parte, los usuarios finales de Wikipedia probablemente no notarán cambios inmediatos, pero a largo plazo, esta iniciativa podría contribuir a mantener la estabilidad y velocidad de la plataforma al reducir la carga innecesaria en sus servidores.

La colaboración entre Wikimedia y Kaggle representa un equilibrio pragmático entre proteger los recursos de la plataforma y reconocer el papel fundamental que el contenido de Wikipedia puede desempeñar en el avance de la investigación en inteligencia artificial. En un momento en que la relación entre las plataformas tradicionales de contenido y las nuevas tecnologías de IA está en constante evolución, este enfoque colaborativo podría señalar el camino hacia un futuro más sostenible para ambas partes.

Fuentes:
https://www.lavozdegalicia.es/noticia/sociedad/2025/04/18/wikipedia-lanzan-conjunto-datos-entrenar-inteligencia-artificial/00031744970459787177228.htm

https://droids.es/news/wikipedia-facilita-datos-desarrolladores-ia/

Etiquetas: inteligencia artificial , robots , scraping , wikipedia

0 comentarios :

Publicar un comentario

Los comentarios pueden ser revisados en cualquier momento por los moderadores.

Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.

Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.

Productos FTTH

Tutoriales y Manuales

Entradas Mensuales

Síguenos en:

Blogroll

Etiquetas

Entradas populares