Blog elhacker.NET: Una IA ya programa mejor que los ingenieros humanos. Claude Opus 4.5 rompe las pruebas de software y deja atrás a GPT-5.1 y Gemini 3 Pro

Una IA ya programa mejor que los ingenieros humanos. Claude Opus 4.5 rompe las pruebas de software y deja atrás a GPT-5.1 y Gemini 3 Pro

jueves, 27 de noviembre de 2025 | Publicado por el-brujo | Editar entrada

Anthropic lanzó Claude Opus 4.5 y asegura que es el modelo más potente del mundo para programación avanzada. No es solo marketing: la IA resolvió pruebas de ingeniería con mejores resultados que candidatos reales y dominó benchmarks como SWE-bench. Todo con más razonamiento, más contexto y un coste sorprendentemente bajo.

Anthropic presenta Claude Opus 4.5: seguramente es el mejor modelo para programar

Durante meses, Anthropic insinuó que estaba preparando un salto importante. Y ese salto acaba de llegar con Claude Opus 4.5, una inteligencia artificial que —según los datos publicados por la propia compañía— no solo supera a GPT-5.1 Codex-Max y Gemini 3 Pro, sino que también rinde mejor que los ingenieros humanos en pruebas reales de programación.

Anthropic ha lanzado su modelo más avanzado, que supera a cualquier rival en código. Pero su límite de uso ahorra poco al usuario y genera frustración constante.

Este no es un eslogan publicitario: Opus 4.5 fue sometido a un examen de nivel profesional diseñado para seleccionar candidatos a ingeniería, con un límite estricto de dos horas y resolución de problemas en Python. La sorpresa llegó cuando el modelo obtuvo una puntuación superior a la de cualquier persona, combinando paralelización de intentos con una notable capacidad para razonar pasos complejos.

Las mejoras no se limitan al código. Opus 4.5 destaca en:

Creación de documentos, hojas de cálculo y presentaciones profesionales.
Tareas de investigación profunda con múltiples fuentes.
Razonamiento visual y matemático avanzado.
Gestión de equipos de subagentes para sistemas multiagente complejos.

Una nueva generación de IA para escribir código (y entenderlo)

Anthropic describe Opus 4.5 como “el mejor modelo del mundo para programación, agentes y uso informático general”. Habrá que ver si la competencia responde, pero los números publicados son difíciles de ignorar.

En las métricas SWE-bench, el estándar para medir la capacidad de una IA de resolver incidencias reales de software, Opus 4.5 supera a GPT-5.1, Gemini 3 Pro y al anterior Claude Sonnet 4.5. No solo arregla bugs: también refactoriza, migra repositorios completos, revisa código con precisión quirúrgica y es capaz de desarrollar herramientas funcionales desde cero.

Uno de los puntos que más destaca Anthropic es su razonamiento profundo. Frente a modelos anteriores, Opus 4.5 desarma problemas ambiguos y los ordena en una secuencia lógica; si algo no está claro, genera hipótesis y las contrasta en paralelo antes de entregar la solución final.

También incorpora una ventana de contexto de 200.000 tokens, suficiente para meter dentro un repositorio completo, documentación adjunta, ejemplos previos y una conversación larga sin perder coherencia. Para los desarrolladores que trabajan con bases de código gigantes, este detalle no es menor.

Un modo “esfuerzo” para pensar más (o más rápido)

Una de las novedades curiosas es un parámetro llamado effort (“esfuerzo”). Permite elegir entre más velocidad o más profundidad de análisis.

Si el usuario activa el modo de máximo esfuerzo, Opus 4.5 dedica más tiempo a generar múltiples rutas de solución antes de quedarse con la mejor. Para tareas urgentes, basta con rebajar ese ajuste y priorizar la entrega inmediata.

La combinación entre este parámetro y la capacidad de razonamiento paralelo es, según Anthropic, uno de los factores que explican su rendimiento superior al de los humanos en pruebas cronometradas.

De la ingeniería al Excel: un modelo que hace de todo

Aunque el foco está en la programación, Opus 4.5 también obtuvo resultados llamativos en tareas de oficina.

Según Anthropic, la IA mejora un 20% en precisión y 15% en eficiencia en análisis financieros de Excel frente a modelos anteriores. Además es capaz de:

organizar bases de datos grandes,
generar presentaciones completas,
redactar documentos extensos con análisis profundo,
planificar estrategias de extremo a extremo sin perder consistencia,
y coordinar flujos de trabajo como un agente autónomo.

Esta última capacidad —la de agente— apunta directamente al futuro: tareas largas, repetitivas o multipaso que pueden automatizarse por completo sin intervención humana.

El ataque final: coste casi irrisorio

Pero quizá el golpe más fuerte para la competencia está en el precio. Anthropic rebajó el coste a 5 dólares por millón de tokens, una cifra extremadamente baja para un modelo de gama alta.

Si la mejora en rendimiento ya era llamativa, la relación potencia/precio puede obligar a Google y OpenAI a replantear su estrategia. Es un movimiento diseñado para capturar a desarrolladores, empresas y equipos que buscan usar IA de manera intensiva sin disparar costes.

Un aviso para la industria: el listón acaba de subir

Claude Opus 4.5 ya está disponible en la app de Claude, en la API y en la nube. Con él, Anthropic envía un mensaje claro: el terreno del desarrollo asistido por IA se está moviendo rápido, y quien domine el software dominará todo lo demás.

La pregunta, inevitable, es qué ocurre ahora con los ingenieros humanos. No se trata de reemplazo inmediato, pero sí de un cambio profundo: la IA ya no es un asistente que corrige errores; empieza a ser un colega de trabajo que programa, documenta, organiza y toma decisiones con un nivel que hace un año parecía imposible.

Y lo más inquietante —o emocionante— es que esto no parece un punto final, sino el nuevo punto de partida.

En cifras. Además, Anthropic ha reducido drásticamente el precio de su API: de 15/75 dólares por millón de tokens de entrada/salida a 5/25 dólares. Y el modelo es más eficiente que sus predecesores:

En modo de esfuerzo medio, iguala el rendimiento de Sonnet 4.5 pero consume un 76% menos de tokens.
En modo alto, supera a Sonnet 4.5 en 4,3 puntos porcentuales usando un 48% menos de tokens.

El contexto. La empresa ha introducido ese parámetro de "esfuerzo" (bajo, medio, alto) que permite a los desarrolladores controlar cuánto tiempo y tokens invierte el modelo en resolver un problema. Es una tendencia que OpenAI también ha adoptado en sus últimos modelos, buscando eficiencia sin sacrificar calidad.

En detalle. Junto al modelo, Anthropic ha actualizado su plataforma de desarrollo y sus aplicaciones para consumidores:

Claude Code mejora su modo de planificación: hace preguntas aclaratorias antes de crear un archivo editable con el plan de ejecución. Como lo visto con los Deep Research de turno.
Claude for Chrome ya está disponible para todos los usuarios Max (en torno a 100 y 200 dólares al mes en función de los límites), permitiendo que la IA gestione tareas en múltiples pestañas del navegador.
Claude for Excel se abre a usuarios Max, Team y Enterprise, con soporte para gráficos, tablas dinámicas y carga de archivos.
Conversaciones infinitas: las charlas largas ya no se topan con límites de ventana de contexto gracias a resúmenes automáticos.

Sí, pero. El gran problema de Opus 4.5 y de Claude en general es su límite de uso. Incluso para suscriptores Pro y Max del primer tier, los tokens se agotan rápidamente. Tardan cinco horas en reiniciarse desde el primer mensaje enviado. El modelo Opus, al ser el más potente, es también el que más rápido consume las cuotas.

Entre líneas. El lanzamiento de Opus 4.5 restaura el equilibrio en la familia de modelos de Anthropic. Durante los últimos dos meses, Sonnet 4.5 estaba superando al antiguo Opus 4.1, dejando pocas razones para usar el modelo más caro. Ahora, con tres modelos claramente diferenciados (Haiku, Sonnet y Opus), cada uno tiene un propósito específico en cuanto a coste, velocidad y capacidad.

Y ahora qué. Anthropic sigue una estrategia clara: posicionarse como el proveedor premium para profesionales del conocimiento y desarrolladores, compitiendo directamente con OpenAI y Google en el terreno donde más importa la precisión y la confiabilidad.

Pero si no resuelve el problema de los límites de uso, corre el riesgo de frustrar precisamente a los usuarios que más valor podrían obtener del modelo.

Fuentes:
https://es.gizmodo.com/una-ia-ya-programa-mejor-que-los-ingenieros-humanos-claude-opus-4-5-rompe-las-pruebas-de-software-y-deja-atras-a-gpt-5-1-y-gemini-3-pro-2000206461

https://www.xataka.com/robotica-e-ia/anthropic-presenta-claude-opus-4-5-seguramente-mejor-modelo-para-programar-sigue-teniendo-gran-problema

Etiquetas: claude , inteligencia artificial , opus , programar

0 comentarios :

Publicar un comentario

Los comentarios pueden ser revisados en cualquier momento por los moderadores.

Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.

Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.

Productos FTTH

Tutoriales y Manuales

Entradas Mensuales

Síguenos en:

Blogroll

Etiquetas

Entradas populares