o3 Deep Research consigue 18 diagnósticos nuevos en 376 casos pediátri

Boston Children's Hospital, Harvard y OpenAI han publicado un estudio retrospectivo en el que metieron 376 casos pediátricos de enfermedad rara, todos previamente sin resolver tras revisión de especialistas, dentro de o3 Deep Research. Resultado: 18 diagnósticos nuevos confirmados (4,8% de yield global), con casos especialmente productivos en neurodesarrollo (10%), psicosis temprana (13,3%) y enfermedad neuromuscular (6,6%).

Lo que el estudio sí dice (y lo que no)

Lo importante para entender bien la noticia: el modelo no diagnosticó a ningún paciente. Generó hipótesis con evidencia enlazada (variantes genéticas candidatas, papers que las soportan, fenotipos compatibles) y los especialistas confirmaron luego por test de laboratorio. Es decir, IA como motor de hipótesis, especialista como validador y decisor final.

El dato más jugoso del paper, contado en seco: en 7 de los 18 casos resueltos, el diagnóstico ya existía. Estaba publicado en otra clínica o en una base pública. Nunca llegó al expediente del paciente local. Lo que o3 hizo fue conectar literatura dispersa con un caso concreto.

Por qué esto tiene sentido como caso de uso

Las enfermedades raras tienen un problema de capacidad humana: hay 7.000 patologías raras descritas. Ningún especialista las conoce todas. Cuando un paciente entra por urgencias con un cuadro inusual, el médico tiene que cruzar síntomas con literatura biomédica que crece a 1 millón de papers al año. Aproximadamente la mitad de los casos de enfermedad rara siguen sin resolverse incluso después de secuenciación genómica completa, porque nadie tiene bandwidth para reabrir el expediente cuando se publica un paper relevante 18 meses después.

Aquí es donde encaja un Deep Research: la búsqueda paciente entre bases de datos (OMIM, ClinVar, PubMed) que un médico no tiene 4 horas para hacer por cada caso.

Limitaciones honestas que reconocen los propios autores

Tres cosas que el paper deja claras antes de que nadie venda más de lo que hay:

Los revisores conocían el score de confianza del modelo cuando evaluaron sus hipótesis. Eso puede haber introducido sesgo.
No se midió tiempo ahorrado ni coste por diagnóstico. Solo yield.
No es evidencia para defender el uso clínico directo por médico o paciente. Es evidencia para defender un workflow donde IA propone hipótesis y especialista valida.

Qué leer aquí si tienes una empresa que no es de salud

El patrón se repite en muchos verticales. Tenemos un cuello de botella humano (revisar casos antiguos a la luz de información nueva) y una IA que puede hacer ese trabajo de background sin cansarse. En tu empresa probablemente hay equivalentes:

Tickets de soporte cerrados sin resolución que se podrían reabrir cuando aparece un knowledge base actualizado.
Leads perdidos hace 12 meses que con la oferta actual sí encajarían.
Facturas viejas con discrepancias que nunca se persiguieron porque no había tiempo.
Análisis de stock pasados que con la rotación actual contarían historias distintas.

El modelo de uso es el mismo que aplica el equipo de Boston: IA revisa archivo histórico, propone hipótesis, humano decide. Funciona porque libera a la persona senior de la parte rutinaria del repaso y le deja la parte de juicio.

Vale la pena tenerlo de marco mental antes que como herramienta. La gran palanca de IA en empresas de 10 a 500 millones no está en agentes autónomos. Está en repasar lo que ya tenemos archivado y nadie tiene tiempo de mirar.

Qué hacer esta semana

Mapea un único archivo histórico de tu empresa que estaría aportando si alguien lo repasara con criterio nuevo (tickets, leads, facturas, contratos viejos). Elige uno, no cinco.
Monta un workflow simple con Claude o GPT que recorra ese archivo, proponga candidatos accionables con evidencia enlazada (igual que el modelo médico) y los presente a una persona senior para decisión final. Empieza por 50 casos, no por 5.000.
Mide yield, no actividad. Cuántos casos del archivo se convirtieron en acción real (venta cerrada, ticket resuelto, factura cobrada). Si el yield es bajo en el primer batch, ajusta prompt antes de escalar volumen.