Mistral sacó OCR 4 el 23 de junio. La novedad principal: layout-aware document understanding. El modelo no se limita a extraer texto, también entiende cómo está estructurado visualmente el documento (columnas, tablas anidadas, jerarquía de headers, footers, márgenes, sellos, firmas, anotaciones manuscritas). Es la cuarta iteración de la línea OCR de Mistral y la primera que cierra el gap real frente a AWS Textract y Google Document AI en estructura compleja.
Por qué importa el layout
Esa pieza, layout, es lo que separa OCR de verdad útil de OCR que devuelve un churro de texto sin estructura. Para casos como facturas, contratos o documentos administrativos españoles (con sus tablas raras, sus encabezados oficiales, sus columnas variables y sus modelos heredados de los 90), tener un modelo que respeta la jerarquía visual ahorra horas de post-procesado.
Caso concreto: una factura española con datos del emisor arriba a la izquierda, datos del cliente arriba a la derecha, tabla de conceptos en medio, totales abajo y notas legales al pie. Un OCR sin layout devuelve un texto plano y obliga a otro pase (regex, Claude, reglas) para reconstruir qué pertenece a qué bloque. Un OCR con layout devuelve directamente la estructura jerárquica, lista para mapear a campos.
Comparativa con Baidu Unlimited OCR
Mistral coincide en fecha con Baidu Unlimited OCR. Quien necesite implementar OCR en producción debería comparar los dos:
- Baidu: fuerte en documentos largos (40+ páginas en un pase). Mejor para contratos extensos, documentación técnica densa, historiales clínicos largos.
- Mistral: fuerte en estructura visual compleja. Mejor para facturas, formularios oficiales, documentos con cabeceras y sellos institucionales, contratos con tablas anidadas.
Lo razonable es probar los dos con el corpus real antes de elegir uno. En muchos casos, una combinación (Baidu para extracción inicial, Mistral para estructurar) puede dar mejor resultado que cualquiera de los dos por separado.
El ángulo soberanía
Para un equipo europeo con compliance estricto, Mistral suma además el punto de soberanía: modelo francés, alojado en Europa, sin que los datos salgan a China o Estados Unidos. Eso no es ventaja técnica, es ventaja regulatoria, pero pesa en banca, salud, administración pública, despachos legales y cualquier sector donde el reglamento GDPR o sectoriales impongan que los datos no crucen ciertas fronteras.
Con AI Act europeo entrando en aplicación plena en agosto 2026, esa ventaja se vuelve más material. Mistral puede ofrecer un combo de capacidad técnica y compliance que ningún proveedor americano o chino puede igualar para clientes europeos regulados.
Quién debería evaluarlo
- Banca y seguros: procesamiento de documentación de cliente, contratos, escrituras.
- Despachos legales: contratos, due diligence, jurisprudencia escaneada.
- Salud: historiales escaneados, resultados de pruebas en PDF.
- Administración pública: digitalización de archivos históricos.
- Pymes con muchas facturas multi-formato: automatización de cuentas a pagar.
Por qué importa, ángulo founder
OCR es una de las pocas categorías donde Mistral compite a la par con los grandes. Si construyes producto B2B vertical en Europa que procesa documentos, integrar Mistral OCR 4 te da una historia comercial creíble (soberanía + capacidad) frente a competidores que dependen de AWS o Google.
El otro punto: este lanzamiento, junto con Baidu Unlimited OCR el mismo día, confirma que el OCR como servicio cloud premium está bajo presión. Los precios de Textract, Document AI y Document Intelligence van a tener que ajustarse durante 2026 o perder cuota frente a alternativas open-source.
Qué hacer
1. Si procesas documentos con estructura visual compleja (facturas, formularios), monta un benchmark de Mistral OCR 4 sobre tu corpus real esta semana. 2. Si vendes producto B2B regulado en Europa, evalúa si la historia 'OCR soberano europeo' te abre puertas comerciales que hoy te están cerradas. 3. Si pagas más de 500 euros al mes en OCR cloud, calcula el TCO de self-hosting Mistral OCR 4 antes de renovar el contrato.