Microsoft sacó MAI-Voice-2 el 23 de junio. Es la segunda iteración de su modelo propio de generación de voz, dentro de la familia MAI que la compañía construye en casa bajo el liderazgo de Mustafa Suleyman, CEO de Microsoft AI. La diferencia principal frente a MAI-Voice-1: soporte de 15 idiomas frente a los dos que tenía la versión anterior.
Lo concreto
- 15 idiomas soportados de salida, incluyendo español, francés, alemán, italiano, portugués, japonés, mandarín, hindi y coreano.
- Disponible en playground.microsoft.ai para probar sin coste antes de integrarlo.
- Llega a Azure Speech Services y Copilot Voice como ruta de producción enterprise.
- Forma parte de la apuesta in-house de Microsoft, paralela a su acuerdo con OpenAI.
La estrategia MAI
El movimiento encaja con la estrategia que la compañía lleva 18 meses anunciando: dejar de depender al 100% de OpenAI para tener modelos propios en las capas que más importan al negocio (voz, código, search). MAI-1 salió como modelo de lenguaje general a finales de 2025. MAI-Voice-1 abrió la apuesta de voz. MAI-Voice-2 sube el listón en multi-idioma y empuja la conversación hacia 'Microsoft tiene stack propio'.
La lectura de mercado es directa: aunque OpenAI sigue siendo el motor principal de Copilot, Microsoft se blinda contra cualquier disrupción en esa relación. Si OpenAI sube precios, cambia términos o se mueve a competir más directo, Microsoft tiene alternativas propias listas.
Comparativa con el resto del mercado
El vertical de voz IA está hirviendo este trimestre:
- ElevenLabs Multilingual v2: sigue siendo el benchmark de calidad y diversidad de voces. Es lo que usa OpenArt Director por debajo, según The Rundown.
- OpenAI Bidi 1: filtrado el mismo día, con clips de freestyle rap que demuestran control de prosodia y ritmo por encima del estado del arte actual.
- Microsoft MAI-Voice-2: enfoque enterprise, distribución masiva via Azure y Copilot.
- Google con Gemini Voice: integrado en Assistant y Workspace, pero menos foco standalone.
La calidad de MAI-Voice-2 hoy es buena, no excelente. Suficiente para confirmaciones de pedido, IVR, notificaciones y agentes de soporte. No suficiente para narración premium de audiobook o publicidad de marca de alta gama, donde ElevenLabs sigue ganando.
Por qué importa
La generación de voz en 15 idiomas es la pieza que vuelve viable la atención al cliente automatizada en Europa y Asia. ElevenLabs lleva tiempo dominando este vertical, pero Microsoft tiene la distribución (Azure, Copilot, Teams) para empujar adopción enterprise sin pasar por integraciones de terceros. Para una empresa que ya está dentro del stack Microsoft, la fricción de adopción es mínima.
El precio dentro de Azure suele ser entre 30% y 50% más barato que ElevenLabs para volúmenes altos. Esa diferencia económica empieza a importar cuando un call center procesa decenas de miles de minutos al mes.
Qué hacer
1. Si tu equipo de soporte español está pagando ElevenLabs solo por la voz, revisa números cuando MAI-Voice-2 esté en Azure de forma estable. La diferencia de coste a volumen alto puede justificar el cambio aunque la calidad sea ligeramente inferior. 2. Si tu producto usa voz IA en B2C premium (audiobooks, podcasts, narrativa), quédate con ElevenLabs hasta que Bidi 1 o MAI-Voice-3 demuestren paridad real. 3. Si estás construyendo IVR, confirmaciones automáticas o notificaciones de voz para una pyme, prueba MAI-Voice-2 en español en el playground antes de comprometerte con cualquier proveedor.
Lectura de fondo
La estrategia MAI no es solo táctica defensiva contra OpenAI. Es Microsoft posicionándose para un futuro donde los modelos foundation se commoditizan y el valor pasa a la integración con la herramienta del usuario final (Teams, Outlook, Word, Excel). Tener modelo propio en voz, lenguaje y código significa que el roadmap de producto de Microsoft no depende de la velocidad de OpenAI ni de sus prioridades.
Para Mustafa Suleyman, que llegó a Microsoft desde Inflection con la misión explícita de construir un lab propio, MAI-Voice-2 es la pieza más visible del puzle que lleva 18 meses montando.