Productos FTTH

Tienda FFTH

Entradas Mensuales

Síguenos en:

Canal Oficial Telegram de elhacker.NET Grupo Facebook elhacker.NET Twitter elhacker.NET Canal Youtube elhacker.NET Comunidad Steam: Grupo elhacker.NET Mastodon

Entradas populares

PostHeaderIcon DeepSeek V4 supera a ChatGPT en eficiencia y programación




El nuevo DeepSeek V4 destaca por su mayor eficiencia frente a ChatGPT y su capacidad avanzada de programación, siendo parte de una familia de modelos de IA chinos enfocados en contextos largos.



El nuevo DeepSeek V4 supera en eficiencia a ChatGPT y destaca en programación


Tras más de un año de haber irrumpido en el mercado con modelos como ChatGPT y Gemini, DeepSeek regresa con una innovadora actualización: la familia DeepSeek-V4. Esta nueva versión incluye dos modelos diseñados para optimizar el rendimiento en contextos largos, un área donde destaca por su eficiencia.

La compañía china ya no solo compite con gigantes como OpenAI o Anthropic, sino que ahora ofrece una alternativa con capacidades avanzadas, especialmente en programación y procesamiento de datos complejos. Los resultados preliminares sugieren que DeepSeek V4 podría posicionarse como una de las IA más potentes del momento.



DeepSeek

A más de un año de tomar por sorpresa a ChatGPT y Gemini, DeepSeek está de regreso con un nuevo modelo de IA. La empresa china presentó la familia DeepSeek-V4, conformada por dos modelos que se enfocan en la eficiencia en contextos largos. A diferencia de 2025, DeepSeek ya no solo compite con OpenAI, Anthropic o Google, sino también con otras IA igual de poderosas como la nueva Kimi K 2.6.

La compañía publicó un documento en Hugging Face en el que detalla los nuevos modelos y sus capacidades. La familia DeepSeek-V4 está conformada por dos modelos con arquitectura Mixture-of-Experts (MoE). El primero, DeepSeek-V4-Pro, cuenta con 1,6 billones de parámetros en total, aunque solo activa 49.000 millones por inferencia. El segundo es DeepSeek-V4-Flash, que trabaja con 284.000 millones de parámetros y activa 13.000 millones en cada consulta.

Según las pruebas internas, el modo de razonamiento máximo de DeepSeek-V4-Pro lo coloca como el mejor modelo de código abierto en varios frentes. En conocimiento general, supera a sus predecesores por un amplio margen en SimpleQA-Verified. En programación competitiva, su puntuación en Codeforces lo coloca en el puesto 23 entre candidatos humanos, y según los propios datos del paper, es el primer modelo abierto que iguala a GPT-5.4 en esa tarea concreta.

DeepSeek v4

Frente a titanes como Gemini 3.1-Pro o Claude Opus 4.6, la cosa es distinta. En conocimiento general y razonamiento, DeepSeek-V4-Pro-Max todavía está por detrás de Gemini-3.1-Pro y GPT-5.4 en algunas pruebas, aunque se adelanta a Gemini-3.1 Pro en la recuperación de información con contextos largos. En tareas de agente, la IA se sitúa al nivel de otros modelos de código abierto, aunque sin superar a los sistemas cerrados de Google, OpenAI y Anthropic.

DeepSeek v4

Lo que hace diferente a DeepSeek V4 de ChatGPT y Gemini

Una de las características por las que DeepSeek se convirtió en un fenómeno viral tiene que ver con su tecnología. Las empresas de IA y la misma NVIDIA no entendían cómo un modelo de ese calibre no requería tanto poder de cómputo. La compañía china mantiene la arquitectura MoE, aunque la ha mejorado con nuevas funciones que manejan de una forma distinta la atención.

Los transformers tradicionales tienen un coste computacional que crece con la longitud del contexto, lo que hace que procesar textos muy largos consuma recursos de cómputo desproporcionados. DeepSeek-V4-Pro necesita solo el 27% de las operaciones de cómputo que requería DeepSeek-V3.2, y ocupa apenas el 10% del caché KV.

DeepSeek v4

Esto es posible gracias a un mecanismo híbrido que combina dos técnicas: atención dispersa comprimida y atención altamente comprimida. La primera comprime los bloques de clave-valor y luego aplica atención dispersa para seleccionar solo las entradas más relevantes. La segunda lleva esa compresión más lejos, reduciendo el caché KV de forma más agresiva.

"El modelo de DeepSeek es altamente eficiente, por lo que la demanda de inferencia está aumentando rápidamente", dijo Dickie Wong, director ejecutivo de investigación en Usmart Securities a South China Morning Post. "Eso es apoyar acciones de chips y hardware, porque las empresas aún necesitan invertir en GPUs o en chips Ascend de Huawei para ejecutar estos modelos a gran escala".

El nuevo modelo mantiene el esquema de código abierto, permitiendo descargar los pesos desde Hugging Face. Comparado con la versión anterior, DeepSeek -V4 Pro tiene capacidades agénticas mejoradas y un conocimiento profundo del mundo que solo supera Gemini -3.1 Pro. La versión V4 Flash tiene un rendimiento comparable a su hermano mayor en razonamiento y tareas sencillas de agente, aunque responde más rápido.

Aquellos interesados en probarlo pueden hacerlo desde la web o las apps para iOS y Android.


Fuentes:
https://hipertextual.com/inteligencia-artificial/deepseek-v4-modelo-ia-contexto-largo/


0 comentarios :

Publicar un comentario

Los comentarios pueden ser revisados en cualquier momento por los moderadores.

Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.

Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.