Sakana lanza Fugu, una capa de orquestación multi-modelo que dice igua

Sakana AI, la startup japonesa fundada por ex-Google con sede en Tokio, ha lanzado Fugu, una capa de orquestación que rutea cada consulta entre varios modelos especialistas y devuelve una respuesta única. La compañía dice que sus benchmarks rivalizan con Mythos y Fable sin depender de un único modelo frontera detrás. Validación independiente, todavía pendiente.

Qué hace Fugu en una frase

En vez de pedirte que elijas entre Claude, GPT-5 o Gemini, Fugu lo hace por ti. Recibe la petición, decide qué modelos especialistas implicar (uno para código, otro para razonamiento, otro para búsqueda), coordina la respuesta entre ellos y te devuelve un único output. Te conectas vía API y solo necesitas cambiar base_url y api_key, igual que cuando saltas de OpenAI a un router como OpenRouter.

Lo que dicen los números (con cautela)

Los benchmarks publicados por Sakana son ambiciosos:

SWE Bench Pro (tareas reales de coding): Fugu Ultra puntúa 73,7 frente a 54,2-69,2 que reportan competidores frontera.
LiveCodeBench (problemas de programación de Codeforces y LeetCode): 93,2 vs 85,3-88,5.
GPQA-D (preguntas de doctorado en ciencias): 95,5 con la versión base.

Importante: estos números son los que publica Sakana en su web. No hay todavía evaluaciones independientes de terceros como Artificial Analysis o el Stanford HAI. Tratarlo como preliminar.

Precios y cómo encaja en un stack actual

Fugu Ultra cuesta 5$ por millón de tokens de input y 30$ por millón de output, alineado con el rango de Claude Opus 4 o GPT-5. La versión base se factura al precio del modelo subyacente que use detrás en cada llamada, lo que en la práctica significa que pagas Sonnet, GPT-5-mini o lo que sea sin sobrecoste por la orquestación. También hay suscripciones de $20 (rango consumer/prosumer) hasta $200 al mes.

Para quién tiene sentido probarlo

Para empresas que ya están manteniendo varios proveedores en paralelo (uno para coding, otro para análisis largo, otro para extracción de datos), Fugu puede simplificar la operación. Una sola factura, una sola pieza de código a mantener, un router que decide. La contrapartida es la de siempre con orquestadores de tercero: pierdes control fino sobre qué modelo está atendiendo cada consulta, y los datos pasan por una capa extra antes de llegar al modelo final.

Para empresas que están a gusto con un solo proveedor (típicamente Anthropic para los que operamos con Claude por API en el día a día), Fugu es ruido por ahora. Cuando aparezcan evaluaciones independientes que confirmen los benchmarks publicados, toca volver a mirarlo. Mientras tanto, el patrón sensato es seguir prototipando con el modelo que mejor conoces y no añadir capas hasta que el cuello de botella real lo pida.

Una nota sobre Sakana: la apuesta de la empresa lleva un par de años empujando una idea concreta, que los próximos saltos en IA no vendrán de modelos cada vez más grandes sino de sistemas que combinan modelos especializados más pequeños. Fugu es la versión comercial de esa tesis, y se apoya en dos papers que la propia compañía ha presentado en ICLR 2026: TRINITY (un coordinador ligero evolucionado que asigna roles de Thinker, Worker o Verifier entre agentes a lo largo de varios turnos) y Conductor (orquestación aprendida sin workflows diseñados a mano). Si funciona como prometen los benchmarks, abre una vía interesante para Japón y, por extensión, para Europa: competir en orquestación e integración, no en cómputo bruto.

Qué hacer esta semana

Si ya orquestas varios proveedores a mano: pide una prueba de la API. Coge tres tareas reales de tu pipeline (una de coding, una de análisis largo, una de extracción) y compara coste-calidad contra tu setup actual durante una semana antes de decidir.
Si solo usas un proveedor y estás contento: ignora Fugu hasta que aparezcan evaluaciones independientes. Los números publicados por la propia empresa siempre son techo, no suelo.
Si construyes producto para empresas que no quieren depender de un solo proveedor USA: la procedencia japonesa puede ser un argumento comercial en sectores regulados (banca, salud, defensa) donde la diversidad de jurisdicción importa.