Hugging Face y Cerebras corren Gemma 4 a 1.851 tokens por segundo para

Hugging Face y Cerebras han montado un asistente de voz que responde en tiempo real, y el truco no está en el micrófono ni en el altavoz. Está en el medio. Corren Gemma 4 31B, el modelo multimodal de Google DeepMind, sobre hardware de Cerebras a 1.851 tokens por segundo. El detalle técnico está en el blog de Hugging Face, publicado el 1 de julio de 2026. Esa cifra, medida por Artificial Analysis, es unas 35 veces la velocidad de un endpoint GPU típico. El primer token llega en 1,5 segundos, el umbral por debajo del cual una conversación por voz empieza a sonar natural.

Puntos clave

Gemma 4 31B (modelo multimodal de Google DeepMind) servido en Cerebras a 1.851 tokens/segundo, medido por Artificial Analysis.
Unas 35 veces más rápido que un endpoint GPU típico.
Primer token en 1,5 segundos, suficiente para tiempo real.
Pipeline speech-to-speech modular: reconocimiento con Parakeet (Nvidia), inferencia con Gemma 4 en Cerebras y voz con Qwen3TTS (Alibaba).
Cada componente es independiente y reemplazable.

Dónde estaba el problema

Un asistente de voz encadena tres pasos. Primero, pasar tu voz a texto. Segundo, que un modelo de lenguaje entienda y redacte la respuesta. Tercero, convertir ese texto de vuelta en voz. El reconocimiento y la síntesis ya iban rápidos desde hace tiempo. El freno estaba en el paso del medio. El modelo de lenguaje tarda en generar la respuesta palabra por palabra, y esa espera es la que hace que un agente de voz suene torpe, con silencios raros antes de cada frase. Puedes tener el mejor reconocimiento y la mejor síntesis, pero si el cerebro tarda tres segundos en arrancar, la conversación se rompe. Cerebras ataca justo ese punto: su hardware genera los tokens tan rápido que el cuello de botella deja de estar en el modelo.

Qué significan esos 35x

El número por sí solo no dice mucho, así que conviene bajarlo a la conversación. Un modelo genera la respuesta token a token, más o menos una palabra o media palabra por token. Si va lento, ves la respuesta aparecer poco a poco, como cuando un chat escribe delante de ti. En texto eso se aguanta. En voz no, porque el silencio mientras el modelo piensa se nota como una pausa incómoda. A 1.851 tokens por segundo, la respuesta entera se genera casi de golpe, más rápido de lo que tú tardas en escucharla. Esos 35x frente a una GPU normal son la diferencia entre un asistente que contesta al instante y uno que te deja colgado dos o tres segundos antes de cada frase. No es un número de folleto, es lo que separa una llamada usable de una que cuelgas.

Piezas sueltas, no una caja cerrada

El montaje es lo interesante para quien quiera copiarlo. Cuatro casas distintas, todo abierto: el reconocimiento es Parakeet de Nvidia, el cerebro es Gemma 4 de Google en Cerebras, y la voz la pone Qwen3TTS de Alibaba. Ninguna pieza depende de las otras. Eso significa que puedes cambiar cualquier eslabón sin rehacer el resto. Si no te convence la voz de Qwen3TTS, la sustituyes. Si prefieres otro modelo de reconocimiento, lo enchufas. El pipeline es un esquema, no un producto de una sola marca al que quedas atado. Y no es un experimento de laboratorio suelto: se apoya en el hardware y los espacios open-source de la comunidad de Hugging Face, que se usan a diario. Más de 9.000 robots Reachy Mini desplegados por gente que construye sobre esta base, y el Realtime Voice Space donde vive la demo llegó a 42 instancias activas a la vez. Son cifras modestas, pero enseñan que hay gente real montando cosas encima, no solo un benchmark colgado en un blog.

Por qué importa

Si has querido montar un agente de voz para tu empresa (atención al cliente, reservas, un asistente interno), el motivo por el que sonaba mal ya tiene solución, y no pasa por firmar con un único proveedor cerrado. Hasta ahora, la voz conversacional decente era territorio de las grandes plataformas que te vendían la caja entera. Esta demo enseña que se puede armar con piezas abiertas, cada una elegida por mérito propio, y que el resultado responde en tiempo real. Para un founder, eso cambia la cuenta: menos dependencia de un solo API, más control sobre coste y sobre qué modelo usas en cada tramo. No es plug-and-play todavía, montar y mantener este pipeline pide manos técnicas. Pero la barrera que quedaba, la latencia del modelo en el centro, ha caído.

Relacionado