Moonshot AI publica Kimi K2.7-Code, modelo abierto de coding que igual

Moonshot AI ha publicado Kimi K2.7-Code en Hugging Face bajo licencia Modified MIT. Es un modelo open-weight enfocado a coding agéntico con dos titulares: mejora de +21,8% en su benchmark interno Kimi Code Bench v2 vs la versión anterior K2.6, y reducción del 30% en tokens de razonamiento usados para llegar a la respuesta.

Arquitectura

Construido como mixture-of-experts (MoE) con 1 billón de parámetros totales (1 trillion en notación anglosajona), de los cuales solo unos 32B se activan por token. Esto mantiene el coste de inferencia muy por debajo de lo que costaría un modelo dense de tamaño comparable.

El stack técnico combina atención MLA (Multi-head Latent Attention) con capas feed-forward SwiGLU, e incluye un encoder de visión MoonViT de 400M parámetros para soportar inputs multimodales, no solo código y texto plano. Para agentes que tienen que leer screenshots de errores o diagramas técnicos, esa pieza pesa.

Los números, con el asterisco que toca

Resultados publicados por Moonshot:

+21,8% en Kimi Code Bench v2 vs K2.6
+11,0% en Program Bench
+31,5% en MLS Bench Lite
30% menos tokens de razonamiento para la misma tarea

El asterisco crítico: todos los benchmarks publicados a fecha de release son proprietarios de Moonshot. No hay números independientes todavía en los suites estándar que usa el resto del mercado para comparar: SWE-bench Verified, SWE-bench Pro, Terminal-Bench, LiveCodeBench, GPQA Diamond, AIME ni MMLU-Pro. Conviene esperar evaluaciones de terceros antes de afirmar que iguala a GPT-5.5 u Opus 4.8 en tareas reales, por mucho que el marketing de la release lo sugiera.

Por qué importa el 30% menos de tokens

El coste real de un modelo de coding en producción no son los tokens de input ni los de output final. Son los tokens de razonamiento intermedio que el modelo consume para llegar a la respuesta. En tareas agénticas (Claude Code, Cursor, agents que ejecutan multi-step) esos tokens se multiplican rápido y dominan la factura. Reducirlos un 30% manteniendo capacidad funcional es ahorro directo a fin de mes.

Por qué importa para una empresa española

El mercado de coding asistido por IA ha estado dominado por Anthropic (Claude Code, Sonnet, Opus) y OpenAI (GPT-5.5, Codex). Las dos empresas son americanas y, como vimos esta semana con la orden de export control sobre Anthropic, el régimen geopolítico puede cortar el acceso a un modelo frontera con tres días de aviso.

Tener un modelo open-source competitivo en coding cambia el cálculo de dependencia. Si Kimi K2.7-Code cumple las promesas (todavía por validar con evaluaciones independientes), una empresa europea puede auto-hospedar en GPU propia o en cloud europeo y dejar de depender al 100% del régimen regulatorio americano para sus agentes internos de coding.

Qué hacer

Si tu equipo de coding ya usa un proveedor open-source o lo está evaluando, Kimi K2.7-Code merece entrar en la rotación de pruebas inmediata.
Si tienes capacidad de auto-hospedaje (GPU propia o cloud GPU contratada) y quieres controlar coste y privacidad del código fuente, esta es la primera ventana real para hacerlo con calidad cerca de frontera.
Validación honesta: pasar 10-15 tareas reales de tu backlog por Kimi y por el modelo que usas hoy. Comparar coste, latencia y output. Incorporarlo si gana en tareas concretas; mantener el actual donde pierde.
Si tu compliance interno no permite modelos de origen chino (banca, defensa, salud son sectores típicos), hay que evaluar la decisión a nivel jurídico antes de tocar nada. Para ecommerce o media, la barrera suele ser menor.

Nota práctica sobre coste de auto-hospedaje

Auto-hospedar un modelo de 1T parámetros, aunque solo active 32B por token, sigue requiriendo infraestructura seria. Estamos hablando de varias H100 u H200 conectadas para servir un único endpoint con latencia razonable. Para un equipo de coding interno de 20-50 personas el ROI puede salir frente a una factura mensual de API de Anthropic u OpenAI, pero conviene hacer el cálculo con números reales antes de comprometer hardware. La operativa de cluster GPU tiene su propio coste oculto en ingeniería de DevOps.