Cartesia lanza Sonic-3.5 e Ink-2, modelos de voz y transcripción númer

Cartesia ha lanzado dos modelos nuevos diseñados para correr como un único stack de voz en tiempo real: Sonic-3.5 para generación de voz e Ink-2 para transcripción. Ambos encabezan los leaderboards de Artificial Analysis en sus categorías con datos de mayo de 2026, lo que convierte a Cartesia en el único proveedor con el #1 simultáneamente en speech y transcripción. Las mejoras se concentran en detección de endpoint, resiliencia a ruido de fondo y latencia sub-90ms, exactamente los tres puntos que definen un voice agent usable.

Contexto

Sonic-3.5 mejora la prosodia, entonación natural, ritmo y rango emocional sobre versiones previas. Ink-2 incluye turn detection nativa (saber cuándo el usuario ha terminado de hablar) y transcripción precisa en entornos ruidosos. La combinación de los dos resuelve el problema técnico real de los voice agents: no es la calidad pura de voz, que ya es excelente en varios proveedores, es la latencia entre que el usuario calla y el agente responde, y la capacidad de cortar elegantemente cuando el usuario interrumpe.

Por qué importa

Para una empresa española que esté evaluando montar atención al cliente con voz IA, los nombres a comparar este trimestre son Cartesia, ElevenLabs (líder histórico en TTS) y OpenAI Realtime (stack integrado dentro del ecosistema GPT). La diferencia entre los tres está cada vez más en latencia y en cómo manejan interrupciones, no en calidad pura de voz. El nuevo posicionamiento de Cartesia (mejor en ambos extremos del stack) reduce la fricción de integrar dos proveedores distintos para STT y TTS, lo que se traduce en código más simple y latencia agregada más baja.

Para Barner o cualquier ecommerce con volumen de llamadas, esto es la categoría a seguir los próximos seis meses. Los agentes de voz están cruzando el umbral de calidad mínima para reemplazar primera línea de atención (consulta de pedido, cambio de dirección, devolución sencilla) sin que el cliente note la diferencia. El ahorro por llamada bien dimensionado es de entre 1 y 3 euros, lo que para un volumen mensual de 10.000 llamadas se traduce en escala de decenas de miles al mes.

Qué hacer

Piloto en una vertical acotada antes que rollout completo: empezar con un solo tipo de llamada (por ejemplo, consulta de estado de pedido) y medir resolution rate, tiempo medio y NPS post-llamada contra la baseline humana actual.
Latencia y endpoint detection como criterio principal: en la prueba comparativa Cartesia vs ElevenLabs vs OpenAI Realtime, medir milisegundos reales de respuesta y tasa de interrupción mal gestionada, no calidad de voz absoluta. La calidad ya está resuelta en los tres.
Plan de escalado a humano claro: el voice agent funciona en primera línea, pero tiene que poder pasar la llamada a una persona sin que el cliente repita información. Sin esa lógica de handover bien diseñada, la experiencia se rompe en el peor momento.