Entradas Mensuales

Síguenos en:

Canal Oficial Telegram de elhacker.NET Grupo Facebook elhacker.NET Twitter elhacker.NET Canal Youtube elhacker.NET Comunidad Steam: Grupo elhacker.NET Mastodon

Entradas populares

PostHeaderIcon DeepSeek-V3 vs DeepSeek-R1: cuáles son las diferencias y qué hace cada uno


 DeepSeek-V3 y DeepSeek-R1, dos modelos de lenguaje que están disponibles en el chatbot de DeepSeek. De hecho, gracias a ambos, esta se ha convertido en una buena alternativa a Gemini y ChatGPT, dos de los gigantes de la IA generativa. Recuerda que los modelos de DeepSeek están disponibles para todo el mundo, ya que son de código abierto. Incluso puedes instalar DeepSeek en tu PC de forma bastante sencilla.




DeepSeek-V3 vs. DeepSeek-R1: ¿en qué se parecen?

DeepSeek-V3 y DeepSeek-R1 son dos modelos de lenguaje. Han sido entrenados con una cantidad ingente de textos y, de este modo, logran entender e imitar el lenguaje humano. Simplificándolo mucho, hacen exactamente lo mismo que los modelos GPT de OpenAI. Es decir, a partir de una entrada de texto, componen un texto de salida coherente y, supuestamente, con información veraz.

De este modo, ambos comparten el mismo objetivo. Aunque DeepSeek-V3 y DeepSeek-R1 no componen las respuestas de la misma forma, lo cierto es que de cara al usuario el resultado es el mismo: el chatbot genera una respuesta de texto basada en la entrada (esto se conoce como prompt) del usuario.



Tanto con DeepSeek-V3 como con DeepSeek-R1 podrás pedirle a la IA que genere textos, que transforme un fragmento en una tabla, que resuma un texto y todas estas típicas tareas. También los puedes utilizar para obtener respuestas rápidas a tus preguntas o generar código para una web o una aplicación.

Ahora bien, el hecho de que ambos puedan llevar a cabo todas estas tareas no quiere decir que sea correcto utilizar ambos modelos de forma indistinta. DeepSeek-V3 es mejor para algunas cosas y DeepSeek-R1 para otras. Es aquí donde tenemos que empezar a hablar de diferencias.

Diferencias entre DeepSeek-V3 y DeepSeek-R1

Para conocer las diferencias entre DeepSeek-V3 y DeepSeek-R1, lo mejor es conocer en detalle cómo funciona cada modelo. A continuación, te explico todo lo que necesitas saber sobre los modelos que actualmente ofrece DeepSeek en su chatbot.

DeepSeek-V3

DeepSeek-V3 es un modelo de lenguaje tradicional. Utiliza un algoritmo para componer respuestas a peticiones basándose en las probabilidades y las estadísticas que ha extraído durante su entrenamiento. Para entender cuál es el funcionamiento de los LLM (Large Language Model) como DeepSeek-V3, aquí tienes un ejemplo muy sencillo.

Imagina que le preguntas a DeepSeek de qué puedes llenar una taza. El modelo durante su entrenamiento ha determinado que lo más probable es que una taza se llene de leche, café o agua. La respuesta será esa, aunque técnicamente una taza puede llenarse con cualquier líquido o incluso con objetos sólidos.

Otra cosa que debes saber es que DeepSeek-V3, competidor directo de GPT-4o, empieza a componer el texto de forma inmediata. Eso quiere decir que, apenas unos pocos segundos después de que como usuario hayas enviado tu petición, empezará a aparecer texto en pantalla. El modelo irá componiendo el texto palabra por palabra (en realidad, token a token), determinando cuál es el siguiente término que debe utilizar para que todo el fragmento tenga sentido.

Algo muy interesante de DeepSeek-V3 es que utiliza una estructura MoE, es decir, una “mezcla de expertos”. Es como si, en vez de tener un gran cerebro, tuviera varios cerebros pequeños especializados en distintas tareas. En función del tipo de petición, el modelo utiliza un cerebro u otro. De este modo, no se activa todo el modelo al completo, sino una parte muy pequeña.

DeepSeek-V3 es un modelo para tareas generales, como las que mencioné en el apartado anterior. Ahora bien, como es un modelo estadístico, suele fallar más en tareas que requieren un análisis más profundo, como problemas de pensamiento lateral, codificación muy avanzada o un análisis de datos preciso. Ahí es donde entra DeepSeek-R1.

DeepSeek-R1

Por su parte, DeepSeek-R1 es un modelo de razonamiento. Aunque, como te dije, en esencia hace lo mismo que DeepSeek-V3, es decir, ofrece una respuesta escrita con coherencia, sus textos son mucho más fiables. ¿Por qué? Sin ánimo de entrar en tecnicismos, lo que debes saber es que se toma todo el tiempo que sea necesario para responder. Simulando el razonamiento humano, resuelve las peticiones del usuario paso a paso. Esto se traduce en un mayor tiempo de computación dedicado a elaborar la respuesta final.

DeepSeek-R1 utiliza aprendizaje por refuerzo. Aunque se basa en DeepSeek-V3, se ha programado al modelo para que genere varias soluciones al problema planteado por el usuario. Luego, mediante un sistema de recompensas, se evalúa la exactitud de cada respuesta. El resultado de todo este proceso es que DeepSeek-R1 es capaz de simular el razonamiento humano de forma independiente, ofreciendo respuestas más precisas y acertadas.

Si DeepSeek-V3 es el competidor de GPT-4o, DeepSeek-R1 es el competidor de OpenAI o1. Algo muy interesante que ha hecho DeepSeek es mostrar al usuario todo el proceso de razonamiento que sigue el modelo. Es algo que ChatGPT también hace ahora, pero que DeepSeek introdujo antes que nadie. Tal y como ves en la siguiente imagen, antes de proporcionar la respuesta, aparece un texto donde el modelo simula pensar en voz alta y explica cada uno de los pasos que sigue hasta llegar a la conclusión final.

En el anterior ejemplo le pregunto esto:

  • Si la capital de España no fuera Madrid, ¿qué ciudad debería ocupar ese lugar y por qué?

Es muy interesante que, además de entender el sentido de la pregunta, como haría cualquier modelo de lenguaje, dedica 32 segundos a proponer un listado de ciudades. En la cadena de razonamiento hay algunas perlas como estas:

  • Barcelona es un gran centro económico, pero está el problema de la independencia de Cataluña. Si la capital se trasladara allí, ¿podría eso afectar a las tensiones políticas? Tal vez, pero Barcelona tiene una fuerte presencia cultural y económica. Tiene infraestructuras como un puerto y un aeropuerto importantes, pero el aspecto político es complicado.
  • Sevilla está en el sur y tiene importancia histórica como centro cultural y durante la época colonial. Está bien comunicada, pero quizás el sur no sea tan dinámico económicamente como otras regiones. Además, el clima es más cálido, lo que podría ser un factor a tener en cuenta.
  • Además, si tenemos en cuenta los precedentes históricos, durante la Guerra Civil Española, la capital se trasladó a Valencia y luego a Barcelona. Así que ahí hay cierta base histórica.

Después de estos razonamientos, DeepSeek-R1 elabora un texto donde se explica cuáles son las consideraciones que hay que tener en cuenta para sustituir la actual capital del país.

DeepSeek-V3 y DeepSeek-R1: cuándo utilizar cada uno

Por defecto, DeepSeek utiliza el modelo DeepSeek-V3 para contestar. Sin embargo, puedes activar el botón DeepThink (R1) para obligar al chatbot a utilizar las funciones de razonamiento. Ya has visto que hay muchas diferencias entre las respuestas que ofrecen ambos modelos.

¿Y para qué deberías usar cada modelo? Si utilizas los chatbots para obtener respuestas rápidas, resumir textos o buscar en Internet, con un modelo de lenguaje como DeepSeek-V3 tendrás más que suficiente. Estas tareas generales se resuelven muy rápido con este modelo, lo cual te permitirá ahorrar tiempo.

Ahora bien, en el momento en el que necesitas respuestas muy elaboradas, que profundicen en algún tema, resolver problemas matemáticos o enigmas, las capacidades de razonamiento de DeepSeek son indispensables.


Fuentes:
https://www.lavanguardia.com/andro4all/tecnologia/deepseek-v3-vs-deepseek-r1-cuales-son-las-diferencias-y-que-hace-cada-uno


0 comentarios :

Publicar un comentario

Los comentarios pueden ser revisados en cualquier momento por los moderadores.

Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.

Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.