Tutoriales y Manuales
Entradas Mensuales
-
▼
2024
(Total:
1024
)
- ► septiembre (Total: 50 )
-
▼
julio
(Total:
104
)
- Los actores de doblaje de videojuegos, en huelga c...
- Intel confirma daños permanentes en los Core Gen 1...
- Un fallo en Google Password Manager dejó sin contr...
- Múltiples malware y ransomware aprovechan vulnerab...
- Estafas del CEO mediate IA
- Nicolás Maduro declara a Elon Musk «archienemigo» ...
- Las ganancias de Tesla caen un 45 %, mientras Elon...
- Suiza exigirá que todo el software gubernamental s...
- Secure Boot está roto en más de 200 modelos de 5 g...
- Cómo evitar que X (Twitter) use tus publicaciones ...
- Elon Musk se enfrenta a nuevas sanciones por entre...
- Error en WhatsApp para Windows permite ejecución d...
- Compañía de seguridad de EEUU contrató un ingenier...
- Cómo funciona DDoSia: la herramienta DDoS utilizad...
- Grindr bloquea algunas funciones en la Villa Olímp...
- Apple Maps lanza, por fin, una versión web para co...
- Modus operandi de un ataque del ransomware Akira
- Suplantación de archivos en WhatsApp para Android
- CrowdStrike ofrece un vale de 10€ en UberEats para...
- AMD retrasa ligeramente el lanzamiento de los Ryze...
- El CNI de España coordina una respuesta al ataque ...
- Photoshop permite crear imágenes con IA desde sus ...
- Meta presenta Llama 3.1, su IA de código abierto q...
- Grupo pro ruso NoName057(16) realiza ataques DDoS ...
- Windows 11 funciona en un iPhone 15 Pro, aunque mu...
- Compañía aérea se salva del desastre de CrowdStrik...
- Facebook quiere gastarse 87.000 millones en ‘Ray-B...
- Google eliminará acortador de URLs goo.gl en 2025
- Microsoft culpa a la UE de lo sucedido con CrowdSt...
- Process Hollowing: una técnica de evasión utilizad...
- 0-Day en Telegram permitía enviar archivos dañinos...
- Herramienta de Microsoft para recuperar equipos da...
- China tiene un equipo de ciberseguridad que se enc...
- La nueva normativa pide usar botones físicos en lo...
- La Guardia Civil detiene a tres prorrusos en Españ...
- Caída global por culpa de CrowdStrike: un apagón c...
- OpenAI presenta GPT-4o mini, una IA más potente y ...
- Filtración de datos de empresa espía mSpy, revela ...
- Armas biológicas diseñadas por IA
- Hack WPA / WPA2 fácilmente sin fuerza bruta con Fl...
- Configurar Telegraf, InfluxDBv2 y Grafana para mon...
- Caddy: un servidor web con funciones de proxy inverso
- Windows resolverá el problema de las actualizacion...
- Apple y otras empresas usaron videos de YouTube pa...
- Vulnerabilidad crítica en GeoServer GeoTools explo...
- El FBI logra acceso al móvil del atacante de Donal...
- Las guerras de Unix: Un capítulo crucial en la his...
- Europa dice que X (Twitter) engaña a los usuarios ...
- Detenidos tres menores por difundir por Whatsapp f...
- Google quiere comprar la startup de ciberseguridad...
- Explotación de vulnerabilidades tan solo 22 minuto...
- 0-Day en Windows MSHTML utilizado en ataques de ma...
- HardBit ransomware version 4.0
- Fábrica de Xiaomi abierta 24/7 en la que todos los...
- Alemania dejará gradualmente sin uso de las redes ...
- Detenido de nuevo Alcasec por robar los datos de 3...
- Vulnerabilidad crítica en Exim expone a millones d...
- Cómo la desinformación rusa terminó en el top de l...
- Excel incluye un editor para programar en Python
- Parche de Microsoft para grave vulnerabilidad acce...
- Vulnerabilidad crítica en GitLab Community y Enter...
- Cómo roban cuentas de YouTube con infostealers
- Función de WhatsApp transcribe las notas de voz pa...
- The Harvester: herramienta OSINT para analizar los...
- AMD compra la finlandesa Silo AI para impulsar su ...
- Windows 10 recibe Copilot como parte de una actual...
- Samsung Galaxy Ring, un anillo cuantificador con a...
- Microsoft abandona la junta directiva de OpenAI en...
- Elon Musk es acusado de hacer trampa con el sistem...
- Vulnerabilidad crítica en libreria Ghostscript en ...
- Youtuber muestra cómo conseguir juegos gratis en S...
- La computadora cuántica de Google es humillada por...
- Fossify es una suite Open Source, gratis y sin anu...
- Nothing desvela el CMF Phone 1, un sorprendente sm...
- Google Maps introducirá anuncios en la navegación
- Todo lo que necesitas saber sobre puertos USB y ve...
- El Dorado ransomware: objetivo máquinas virtuales ...
- Batocera es una retroconsola para PC y Android
- Recopilación de 10 mil millones de contraseñas
- Limitar el ancho de banda en Linux
- Rack SSD
- Servidor Blade vs. Servidor de Rack vs. Servidor d...
- ChatGPT para Mac expuso las conversaciones de mill...
- Roban 33 millones de números de teléfono del famos...
- La UE podría eliminar la exención aduanera a los p...
- Google Drive ahora es Booteable
- Organismo rector de la Fórmula 1 revela una filtra...
- Google Chrome bloqueará los certificados TLS de En...
- Apple veta la emulación de PCs «retro» en iOS
- 54 detenidos por estafar más de 2 millones de euro...
- YouTube permite solicitar el borrado de vídeos gen...
- Primer cable Thunderbolt 5 con una velocidad 120 G...
- Los adultos Españoles que quieran entrar en webs p...
- Japón bate el récord de banda ancha superando los ...
- Wise alerta de un hackeo masivo con robo de datos ...
- Detenido autor puntos de acceso Wifi falsos en aer...
- regreSSHion: 14 millones de servidores OpenSSH vul...
- NFC - ¿Qué es, cómo funciona y qué riesgos de segu...
- WhatsApp publica su planificador de eventos para g...
- Meta deja de publicar parches de seguridad para el...
-
►
2023
(Total:
710
)
- ► septiembre (Total: 65 )
-
►
2022
(Total:
967
)
- ► septiembre (Total: 72 )
-
►
2021
(Total:
730
)
- ► septiembre (Total: 56 )
-
►
2020
(Total:
212
)
- ► septiembre (Total: 21 )
-
►
2019
(Total:
102
)
- ► septiembre (Total: 14 )
-
►
2017
(Total:
231
)
- ► septiembre (Total: 16 )
-
►
2016
(Total:
266
)
- ► septiembre (Total: 38 )
-
►
2015
(Total:
445
)
- ► septiembre (Total: 47 )
-
►
2014
(Total:
185
)
- ► septiembre (Total: 18 )
-
►
2013
(Total:
100
)
- ► septiembre (Total: 3 )
-
►
2011
(Total:
7
)
- ► septiembre (Total: 1 )
Blogroll
Etiquetas
Entradas populares
-
Después de ver qué es una vCPU y la diferencia entre núcleos (cores) e hilos en los procesadores, pasamos a explicar toda la nomenclatura d...
-
Pese a que Gemini ofrece multitudes de opciones, recientemente, se ha dado a conocer una situación fuera de lo común. Hace unos días, un es...
-
Si estos días vas a cualquiera de las plataformas de venta que hay en internet y buscas un USB probablemente te encuentras con no pocos con ...
Apple y otras empresas usaron videos de YouTube para entrenar su IA
Apple y otras empresas tecnológicas usaron videos de YouTube para entrenar su inteligencia artificial. Una investigación encontró que los de Cupertino tomaron datos de subtítulos que habrían sido extraídos sin autorización. Las empresas entrenaron sus modelos de lenguaje con contenido de MrBeast, PewDiePie, MKBHD y otros youtubers famosos.
- Apple, Anthropic y otras tecnológicas han sido acusadas de usar subtítulos de YouTube sin autorización para entrenar sus modelos de lenguaje.
De acuerdo con una investigación de ProofNews, compañías como Apple, NVIDIA, Anthropic y Salesforce usaron contenido no autorizado para entrenar su IA. Las empresas se apoyaron en un conjunto de datos que incluye subtítulos de 173.536 videos, provenientes de más de 48.000 canales de YouTube. Apple empleó estos datos para entrenar OpenELM, una IA de código abierto capaz de ejecutarse en el iPhone y que recién anunciaron hace unos meses.
Si bien el origen de los datos de entrenamiento siempre ha sido una interrogante con estas empresas, la situación es diferente a lo que hace OpenAI. Según la investigación, los subtítulos extraídos forman parte de un subconjunto de datos llamado YouTube Subtitles, que a su vez integra The Pile, el gigantesco conjunto de datos de código abierto de 825 GB.
Según la descripción de The Pile, YouTube Subtitles es un corpus paralelo de texto recopilado a partir de subtítulos generados por humanos en YouTube. El documento menciona que, además de proporcionar datos multilingües, los subtítulos de YouTube "son una fuente de contenido educativo, cultura popular y diálogo natural". El único detalle que omite es que el contenido se utiliza sin la autorización de sus autores.
Apple y otras empresas entrenaron su IA con videos polémicos
ProofNews utilizó una herramienta para desarrolladores de YouTube para obtener los metadatos de cada video y luego revisó los identificadores del conjunto de datos. Tras el análisis se encontró que YouTube Subtitles incluye videos de canales como MrBeast, Marques Brownlee (MKBHD), PewDiePie, así como también BBC, The New York Times, The Late Show con Stephen Colbert o Jimmy Kimmel Live, por nombrar algunos.
La cantidad de datos varía en cada canal. Por ejemplo, MrBeast, que cuenta con 302 millones de subscriptores, solo contribuyó con dos videos, mientras que a PewDiePie le extrajeron 337 videos. Como es de esperarse, los videos no incluyen información de alta calidad, como se menciona en The Pile. El conjunto arrastra teorías conspirativas y contenido polémico generado por los youtubers.
A diferencia de OpenAI, que desarrolló una herramienta para extraer subtítulos y utilizarlos para entrenar GPT-4, la situación con Apple es diferente. Las tecnológicas usaron un conjunto de datos compilado por un tercero (EleutherAI), quien lo ofrece como código abierto para democratizar el desarrollo de otras IA. The Pile está conformado por 22 subconjuntos que incluyen libros, código de GitHub, artículos de ArXiv, documentos del Parlamento Europeo y más.
Anthropic aceptó que utilizó los subtítulos para entrenar a Claude, aunque se lavó las manos y dijo que cualquier violación a los términos de servicio de YouTube es responsabilidad de EleutherAI. Por otro lado, Salesforce mencionó que se basaron en The Pile para entrenar uno de sus modelos de IA. La empresa hizo hincapié en que este modelo fue para fines académicos y de investigación.
Apple y NVIDIA no son las únicas que utilizan el conjunto con subtítulos de YouTube. Empresas como Microsoft, Meta o Yandex también se basan en The Pile para el desarrollo de modelos como Megatron, LlaMA, Galactica o YaLM 100B. En el caso de Cupertino, la única IA que emplea el subconjunto es OpenELM.
Fuentes:
https://hipertextual.com/2024/07/apple-nvidia-usaron-subtitulos-videos-youtube-entrenar-ia
0 comentarios :
Publicar un comentario
Los comentarios pueden ser revisados en cualquier momento por los moderadores.
Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.
Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.