Entradas Mensuales

Síguenos en:

Canal Oficial Telegram de elhacker.NET Grupo Facebook elhacker.NET Twitter elhacker.NET Canal Youtube elhacker.NET Comunidad Steam: Grupo elhacker.NET Mastodon

Entradas populares

PostHeaderIcon DeepSeek habría sido entrenada con datos robados a OpenAI


DeepSeek ha sacudido el mundillo tecnológico con tanta fuerza que parece haber pinchado la burbuja de la IA. Sus credenciales son desde luego impresionantes, porque en teoría es un ejemplo de que es posible crear modelos de IA potentes y muy avanzados con consumo de recursos y un coste mucho más bajo que el de otros equivalentes, como ChatGPT, por poner un ejemplo muy conocido.





OpenAI acusa a la china DeepSeek de robar sus datos para entrenar su modelo de IA

  • OpenAI y Microsoft estarían investigando si DeepSeek utilizó sus datos para entrenamiento
  • Los responsables de OpenAI creen que DeepSeek ha destilado sus modelos
  • La técnica es muy común en el ámbito de la IA, pero OpenAI la prohíbe en sus términos de servicio

Con todo, al final la base utilizada para entrenar estos modelos es la misma, tanto a nivel de hardware como de datos, y es aquí donde DeepSeek podría tener un importante problema, ya que tanto Microsoft como OpenAI están investigando el posible uso de datos de está última de forma «inapropiada». Si esto se confirma, DeepSeek habría utilizado datos robados para entrenar a su IA.

La historia es simple. A finales de 2024 en Microsoft detectaron actividad inusual por parte de cuentas de desarrolladores vinculadas a DeepSeek que, en teoría, estuvieron exfiltrando grandes cantidades de datos a través de la API OpenAI. Los desarrolladores pueden utilizar esta API para integrar modelos en sus propias aplicaciones, pero la destilación de resultados es una violación de las políticas de uso.


Eso es precisamente lo que podría haber hecho DeepSeek, ¿pero en qué consiste exactamente la destilación de resultados? Pues muy sencillo, es una técnica en la que un modelo aprende de otro modelo, un enfoque que resulta mucho más eficaz y sencillo. El modelo «estudiante» hace una gran cantidad de preguntas al modelo «maestro» o principal, de manera que el aprendizaje del primero se produce de una manera parecida a la enseñanza humana.

El presidente Donald Trump comentó que hay «bastante evidencia» de que DeepSeek que se aprovechó de los modelos de Open AI para entrenar su modelo, y que esto es una violación clara de sus políticas de uso. Por su parte OpenAI comentó que tienen constancia de que muchas compañías no cesan en su intento de destilar modelos de compañías estadounidenses líderes en IA, y hace un llamamiento a la protección de sus datos y modelos.

Estados Unidos se está tomando muy en serio el auge de DeepSeek, porque cree que podría llegar a representar un peligro para la seguridad nacional, especialmente por todo lo que representa en términos de censura en temas históricos tan importantes como lo ocurrido durante las protestas en la Plaza de Tiananmén en 1989, que fueron reprimidas de forma violenta por el ejército chino, que no dudó en enviar soldados y tanques contra civiles.

 ¿Qué es eso del "destilado" en la IA? Ayer hablamos de cómo los desarrolladores de DeepSeek han utilizado un gran número de técnicas para lograr un modelo así de eficiente. Entre ellas destaca el aprendizaje por refuerzo, pero también se sabe que usan el destilado de modelos. En esta técnica se enseña a un "modelo alumno" más pequeño a comportarse como un "modelo profesor" más grande y avanzado. Se usan datos del "modelo profesor" para que el modelo pequeño sea más rápido y eficiente, pero igual de inteligente en tareas específicas.

Uso no permitido. El destilado o destilación de modelos es una práctica común en la industria, pero los términos de servicio de OpenAI prohíben que sus modelos sean usados con este fin. Así, se especifica que los usuarios no pueden "copiar" ninguno de sus servicios ni tampoco "usar la salida [de los modelos de OpenAI] para desarrollar modelos que compitan con los de OpenAI".

OpenAI y Microsoft ya investigaron sobre esto. Según Bloomberg, ambas empresas analizaron el pasado otoño cuentas que se estaban usando para aprovechar sus chatbots y que al parecer pertenecían a los desarrolladores de DeepSeek. Usaban la API de OpenAI, pero hubo sospechas de que habían violado los términos de servicio al aprovechar ese acceso para hacer destilado de sus modelos.

Fuentes:

https://www.muycomputer.com/2025/01/29/problemas-en-el-paraiso-deepseek-habria-sido-entrenada-con-datos-robados-a-openai/

https://www.xataka.com/robotica-e-ia/openai-ha-cogido-todo-que-ha-querido-internet-para-entrenar-sus-modelos-ahora-acusa-a-deepseek-usar-sus-datos


1 comentarios :

Anónimo dijo...

Ladrón que roba a ladrón, tiene 100 años de perdón.

Publicar un comentario

Los comentarios pueden ser revisados en cualquier momento por los moderadores.

Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.

Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.