Ornith-1.0 de Deep Reinforce: modelo open-source que supera a Opus 4.7 en Terminal-Bench

Ornith-1.0 de Deep Reinforce: modelo open-source que supera a Opus 4.7 en Terminal-Bench

Deep Reinforce ha lanzado Ornith-1.0, una familia open-source de modelos especializados en programación autónoma. Y los benchmarks publicados son los más fuertes que hemos visto en open-source este año.

Los números

En Terminal-Bench 2.1, Ornith-1.0-397B saca 77,5 puntos. Claude Opus 4.7 saca 70,3 en el mismo benchmark. En SWE-Bench Verified, Ornith saca 82,4 contra los 80,8 de Opus 4.7. Es la primera vez que un modelo open-source supera claramente a Opus 4.7 en los dos benchmarks de coding agéntico más relevantes.

Y el modelo de solo 9B parámetros saca 43,1 en Terminal-Bench y 69,4 en SWE-Bench Verified, lo cual es competitivo con modelos diez veces más grandes.

Cuatro variantes, todas open

9B Dense, 31B Dense, 35B MoE y 397B MoE. Basadas en Gemma 4 (de Google) y Qwen 3.5 (de Alibaba). Disponibles en Hugging Face para descarga y fine-tuning.

La innovación técnica

Lo que diferencia Ornith de modelos previos: el sistema aprende a generar tanto la solución como el 'scaffold' (andamiaje específico de la tarea) que guía esa solución. En lugar de usar plantillas predefinidas, el modelo optimiza conjuntamente cómo estructura el problema y cómo lo resuelve. El entrenamiento se hace en dos etapas con recompensas propagadas a ambas fases, creando un loop de mejora.

Implementan tres capas defensivas contra el 'gaming' del benchmark (que el modelo aprenda a explotar el entorno en vez de resolver la tarea): límites de confianza fijos, monitor determinista que sanciona accesos no autorizados y un juez LLM congelado como veto adicional.

Cómo está entrenado, en lenguaje de founder

Cada paso de RL hace dos cosas a la vez. Primero, condicionado en la tarea y en el scaffold previo, el modelo propone un scaffold refinado. Segundo, condicionado en ese nuevo scaffold y en la tarea, genera la solución. Las recompensas del resultado se propagan a las dos etapas, optimizando scaffold y policy conjuntamente. Está implementado con asynchronous pipeline-RL, objetivo GRPO a nivel token y staleness weighting para tokens off-policy. Para el lector no técnico, lo importante: el sistema aprende sobre cómo aprender, no solo sobre las tareas.

Implementan tres capas defensivas contra el 'gaming' del benchmark (que el modelo aprenda a explotar el entorno en vez de resolver la tarea):

  • Trust boundary fija: el entorno, la interfaz de tools y el aislamiento de tests son inmutables y fuera del alcance del modelo. Solo puede evolucionar su política interna.
  • Monitor determinista: chequeador exact-spec; leer paths protegidos, editar scripts de verificación o invocar tools no autorizadas da recompensa cero y se excluye del cálculo de advantage.
  • Juez LLM congelado: modelo independiente que actúa como veto sobre el verificador primario para detectar intent-level gaming dentro de operaciones de tool permitidas.

Cautela razonable

Los benchmarks son del propio lab. La industria está llena de modelos que en benchmarks publicados eran 'el siguiente Claude' y en producción no aguantaban un caso real. Pero hay dos señales que sí merecen tomarse en serio:

  • Que el modelo sea open-source con MIT license, sin restricciones regionales, significa que cualquiera puede verificar los benchmarks. Si fueran inflados, lo sabremos en días.
  • Las capas defensivas contra benchmark gaming sugieren que el equipo está intentando evitar exactamente el patrón del que se acusa al resto.

Está disponible en Hugging Face en el namespace `deepreinforce-ai/ornith-10` (incluye FP8 del 397B) y en GitHub `deepreinforce-ai/Ornith-1`. La composición exacta de los datos de entrenamiento no está publicada más allá de 'post-trained sobre Gemma 4 y Qwen 3.5', que es información menos transparente que el resto.

Por qué importa

Si los benchmarks aguantan validación independiente, esto cambia la conversación. Un modelo open-source que supera a Opus 4.7 en coding es algo que muchas empresas pueden desplegar internamente sin pagar el ticket de Anthropic. La consecuencia para Claude Code (que es lo que uso yo cada día) no es que vaya a dejar de usarlo. Es que aparece una alternativa creíble para casos donde el coste o la privacidad de datos pesa más que la ergonomía.

Qué hacer

  • Si tu empresa tiene equipo de ML in-house: descarga el 9B y prueba con tu codebase real. En 2-3 horas tienes señal de si los benchmarks aguantan en tu dominio.
  • Si trabajas en sector regulado (banca, salud, defensa): tener un modelo de coding self-hosted con benchmarks competitivos cambia el cálculo de compliance. Vale la pena escalar a IT que está disponible.
  • Si estás eligiendo modelo para agentes de coding: añade Ornith al pool de comparativa junto a Claude Sonnet/Opus y GPT-5.5. Si los benchmarks resisten, en 6 meses puede ser tu opción default.