Anthropic lanza Claude Sonnet 5: trabajo de agente cercano a Opus 4.8

Anthropic ha lanzado Claude Sonnet 5, su modelo de gama media, y dice que en varios casos iguala a Opus 4.8 en trabajo de agente por una fracción del precio. Es el primer modelo de la serie 5 de la casa, y lo describe como "el Sonnet más agéntico hasta la fecha". Llega en un momento raro, justo cuando el Departamento de Comercio de EEUU ha levantado los controles de exportación sobre Fable 5 y Mythos 5, los modelos de gama alta que la mayoría estaba esperando.

Puntos clave

Precio introductorio hasta el 31 de agosto: 2$ por millón de tokens de entrada y 10$ de salida. Después sube a 3$ y 15$.
Es el modelo por defecto en los planes Free y Pro, y ya está en Claude Code y en la API como claude-sonnet-5.
Mejora a Sonnet 4.6 en razonamiento, uso de herramientas, código y trabajo de conocimiento. En algunos puntos de la curva coste-rendimiento toca el nivel de Opus 4.8.
Alucina y hace la pelota menos que 4.6. En ciberseguridad rinde por debajo de los Opus actuales, con un 0.0% de éxito desarrollando exploits de Firefox, y sale con las salvaguardas activadas por defecto.

Qué trae respecto a Sonnet 4.6

El salto que Anthropic vende no va de conocimiento enciclopédico, va de que el modelo termine tareas. Sonnet 5 puede manejar un navegador o un terminal y arrastrar trabajos más largos sin quedarse a medias. Varios testers que lo probaron antes cuentan que remata tareas complejas donde los Sonnet anteriores se paraban, y que revisa su propio output sin que se lo pidas. Es comportamiento de agente estilo Opus metido en la gama barata. Para quien usa Claude Code a diario, ese es el cambio que se nota: menos veces que tienes que volver a darle instrucciones para que acabe.

En la curva de coste-rendimiento, Anthropic enseña que Sonnet 5 abre más opciones que 4.6 y que en ciertos casos iguala a Opus 4.8. La lectura práctica: puedes bajar de Opus a Sonnet en más flujos sin perder calidad, y ahí es donde está el ahorro real.

El punto raro: ciberseguridad y la sombra de Fable

Hay un detalle que llama la atención. Los benchmarks de ciberseguridad de Sonnet 5 salen peores que los de Sonnet 4.6, y Anthropic dice que "no entrenó deliberadamente" al 5 en tareas de ciberseguridad. Es lo contrario al típico modelo acusado de exprimir benchmarks. Encaja con el lío de los controles de exportación sobre Fable y Mythos en el que la empresa lleva metida las últimas semanas.

Y el timing no ayuda. Sonnet 5 es un buen upgrade sobre 4.6, pero aterriza el mismo día que se anuncia la vuelta de Fable 5 (global desde hoy) y Mythos 5 (por socios aprobados). Con el modelo de frontera de vuelta, muchos usuarios avanzados se preguntan si Sonnet 5 es el caballo de batalla diario o el modelo de mientras esperas al bueno.

Por qué importa

Sonnet es el modelo que de verdad usa la mayoría cada día, no Opus. Opus es el cuchillo de chef que sacas para lo complicado; Sonnet es el que vive en el cajón y corta la cena del martes. Que ahora haga trabajo de agente cercano a Opus a 2$/10$ el millón cambia la cuenta para una empresa que mete a Claude en sus procesos. Puedes correr flujos de agente, revisar un terminal o arrastrar una tarea larga, sin pagar tarifa de Opus. La regla operativa sigue siendo la de siempre: Sonnet para lo que se repite y tiene volumen, Opus para lo que de verdad necesita cabeza. Con este Sonnet, la frontera entre uno y otro se mueve a favor del barato.

Relacionado