Baidu publica Unlimited OCR: 40+ páginas en una sola pasada

Baidu publicó Unlimited OCR en HuggingFace el 23 de junio. Es un modelo open-source de reconocimiento óptico que procesa más de 40 páginas en una sola pasada, sin trocear el documento por chunks. La capacidad concreta de mantener un documento largo en una única inferencia es lo que separa este modelo de la mayoría de OCR existentes hoy.

Por qué importa el 'single pass'

Los modelos OCR habituales (Tesseract, AWS Textract, Google Vision API, Azure Document Intelligence) procesan página a página y luego intentan recomponer el documento. Esa estrategia rompe el contexto entre páginas: tablas que cruzan saltos, párrafos partidos a mitad, referencias internas que apuntan a páginas no vistas en la misma inferencia, encabezados que se repiten y necesitan deduplicación.

Trabajar 40 páginas a la vez mantiene la estructura global del documento, que es lo que de verdad mueve la aguja en casos como contratos extensos, facturas multipage, packing lists de logística o documentación técnica densa. La diferencia entre 'el OCR extrae el texto' y 'el OCR extrae el documento entendible' es exactamente esa.

Comparativa con Mistral OCR 4

Coincidencia notable: el mismo 23 de junio, Mistral lanzó OCR 4 con layout-aware document understanding. Las dos noticias dividen el mercado en dos ejes:

Baidu Unlimited OCR: fuerte en documentos largos (40+ páginas en un pase).
Mistral OCR 4: fuerte en estructura visual compleja (columnas, tablas anidadas, jerarquía visual).

Un equipo serio que implemente OCR en producción durante el próximo trimestre debería probar los dos en su corpus real antes de elegir. La elección depende del tipo de documento que predomina en el caso de uso.

Quién debería mirarlo

Equipos de finanzas o administración con muchas facturas multipage.
Despachos legales que procesan contratos extensos (cláusulas que cruzan páginas).
Logística: PLs (packing lists) con decenas de partidas que hoy se cortan entre páginas.
Compliance y due diligence: reports técnicos largos donde la estructura entre páginas importa.
Salud: historiales clínicos largos donde la cronología cruza páginas y la pérdida de contexto puede introducir errores diagnósticos en un sistema de apoyo.

El ángulo Barner

Para Barner, por contexto operativo, esto es exactamente el tipo de modelo que evaluaría para sustituir parte del pipeline OCR + Claude que usamos en lectura de packing lists desde forwarders. Hoy procesamos PLs de decenas de partidas con un pase de OCR clásico más Claude para estructurar el output, lo que introduce errores cuando las tablas saltan de página. Unlimited OCR en un único pase resolvería esa categoría completa de errores.

Open-source en HuggingFace significa que se puede probar sin compromiso, sin enviar datos a un proveedor externo y sin coste recurrente. Para una empresa con suficientes documentos al mes, ejecutar el modelo en infraestructura propia sale mucho más barato que pagar Textract o Document Intelligence por API.

Por qué importa, ángulo founder

El movimiento confirma una tendencia que lleva 18 meses afianzándose: los modelos especializados open-source de origen chino están alcanzando o superando a la oferta cerrada americana en categorías concretas (OCR, embeddings, visión, código). Para una empresa europea con compliance estricto, el debate ya no es 'open vs cerrado', es 'cómo elijo entre dos opciones open ambas competitivas'.

El otro punto: estos modelos van a presionar el pricing de AWS, Google y Azure en sus respectivos servicios de OCR durante los próximos 6-12 meses. Quien hoy pague tarifas premium por OCR como servicio debería renegociar o evaluar self-hosting.

Qué hacer

1. Si procesas más de 1.000 páginas al mes con un OCR cloud, monta un benchmark de Unlimited OCR vs tu proveedor actual sobre tu corpus real. 2. Si trabajas con documentos largos cuya estructura cross-página es crítica (contratos, PLs, historiales), prioriza Baidu sobre Mistral en la primera ronda de testing. 3. Compara el coste total de propiedad (infra + tokens + mantenimiento) vs el servicio cloud antes de decidir migración.