PrismML sale del stealth con Bonsai 8B: un modelo de 8.000 millones que cabe en un iPhone

PrismML sale del stealth con Bonsai 8B: un modelo de 8.000 millones que cabe en un iPhone
Ilustración: Digital Brain

Un modelo de 8.000 millones de parámetros que cabe en un iPhone y ocupa 1,15 GB. PrismML, un equipo de investigadores de Caltech, salió del stealth el 31 de marzo de 2026 con Bonsai 8B, un modelo open source con licencia Apache 2.0. La clave: una implementación real de 1-bit que lo deja entre 12 y 14 veces más pequeño que un 8B normal.

Puntos clave

  • 8,2 mil millones de parámetros, pero solo 1,15 GB de tamaño gracias a 1-bit real.
  • Media de benchmarks 70,5 (GSM8K 88,0, HumanEval+ 73,8, MMLU Redux 65,7).
  • Velocidad: 368 tokens/s en RTX 4090, 131 en M4 Pro, 44 en un iPhone 17 Pro Max.
  • Licencia Apache 2.0. Inversores: Khosla Ventures, Cerberus y Google.

El truco está en el 1-bit real

Comprimir modelos no es nuevo. Lo que casi nadie hace bien es aplicar 1-bit a todo el modelo. PrismML dice haberlo llevado a los embeddings, la atención, el MLP y la cabeza de lenguaje. Todo el modelo, no solo unas capas.

El resultado son 1,15 GB para 8,2 mil millones de parámetros. Entre 12 y 14 veces más ligero que un 8B estándar de 16-bit. Y consume entre 4 y 5 veces menos energía. Lo interesante es que la calidad aguanta: media de 70,5 en benchmarks, con un 88,0 en GSM8K (matemáticas) y un 73,8 en HumanEval+ (código). No es un modelo de juguete comprimido hasta romperlo. Rinde de verdad.

IA en el teléfono, sin nube

Bonsai 8B cabe en un iPhone 17 Pro. Un 8B normal de 16-bit no cabe. Esa es toda la diferencia.

Y no es que quepa y vaya lento. Corre a 44 tokens por segundo en un iPhone 17 Pro Max, 131 en un M4 Pro, 368 en una RTX 4090. Suficiente para uso real, no para una demo. Hay variantes de 4B y 1.7B para aparatos más pequeños. Esto abre la puerta a lo que la nube nunca resuelve del todo: privacidad porque el dato no sale del aparato, coste cero por consulta porque no hay API, y funcionamiento offline porque no depende de conexión.

Por qué importa

Si manejas datos sensibles, esto te cambia las cuentas.

Hasta ahora, meter IA en un producto casi siempre pasaba por mandar el dato a la API de otro. Con Bonsai y modelos así, empieza a ser viable correr un modelo capaz dentro del propio dispositivo. Datos de clientes, documentos internos, historiales médicos. Todo eso puede quedarse en local.

El coste también cambia. Una API cobra por token para siempre. Un modelo on-device se paga una vez, en el hardware que ya tienes. Para una app con mucho volumen, la diferencia a fin de año es enorme. Y la licencia Apache 2.0 quita fricción: lo puedes usar en producto comercial sin pedir permiso ni pagar royalties.

Conviene no venderse la moto tampoco. Un modelo de 8.000 millones en el móvil no es GPT-5.4 ni Claude Opus: para razonamiento complejo, contexto largo o tareas abiertas, la nube sigue mandando. Bonsai brilla en lo acotado, clasificar, extraer campos de un documento, responder preguntas sobre datos locales, agentes con un objetivo estrecho. La jugada inteligente es híbrida. El modelo pequeño en el dispositivo para lo frecuente y sensible, y la llamada a la nube solo cuando de verdad hace falta la artillería pesada. Así bajas coste y proteges el dato sin renunciar a potencia cuando toca. Que Google esté entre los inversores dice hacia dónde va el viento: para casos con datos delicados, el on-device empieza a ser la primera opción, no el plan B. Y lo que hace un año pedía un centro de datos, hoy corre en el aparato que llevas en el bolsillo.


Relacionado