Proto, el lenguaje que une los 120 modelos de IA biológica en un único pipeline

Brian Hie, el profesor de Stanford que está detrás de los modelos Evo y Evo 2, publicó Proto el 23 de junio. Es un framework open-source que permite combinar los más de 120 modelos de IA biológica que existen hoy en pipelines unificados. Hasta ahora, juntarlos era casi imposible por dependencias incompatibles, formatos distintos y software que no hablaba entre sí. El paper de validación está en bioRxiv y los pesos en proto.evodesign.org.

Qué hace exactamente

Proto reduce el diseño biológico a cuatro primitivas:

  • Secuencias: las cadenas moleculares (DNA, RNA, proteínas, ligandos).
  • Generadores: modelos que proponen candidatos.
  • Restricciones: scoring para evaluar esos candidatos.
  • Optimizadores: lógica que guía la búsqueda hacia la función deseada.

Le pasas un objetivo de investigación, Proto compone los modelos relevantes, puntúa, itera y devuelve diseños. Todo dentro del mismo entorno. Es lo más parecido a un compilador de tareas biológicas que se ha publicado hasta hoy.

El benchmark que cita el paper

En diseño de splicing específico de línea celular, Proto consiguió un 32% de éxito testando 65 candidatos. Los métodos previos requerían testear alrededor de 1.000 candidatos para llegar al 7% de éxito. Es una mejora de eficiencia experimental de entre 30x y 50x, según el dato del Arc Institute.

Para quien no esté en biología: ese ratio significa que una hipótesis que antes pedía meses de laboratorio y muchísimo material puede explorarse en semanas con menos coste de reactivos. Lo que cambia no es la capacidad de descubrir (eso lleva años), es la velocidad con la que se ejecuta cada vuelta del ciclo diseña-prueba-aprende.

Otro dato del paper: en diseño de proteínas con función específica, Proto permitió cubrir un espacio de búsqueda que antes requería pipelines artesanales separados (un script para estructura, otro para docking, otro para optimización). Ahora todo encaja en el mismo programa Proto.

Cómo encaja Claude aquí

Los agentes de IA pueden escribir programas Proto directamente. El equipo de Hie usó Claude para diversificar 249 complejos proteicos humanos y especificar una terapia candidata para cáncer de pulmón. No es marketing: es un caso real de modelo general (Claude) orquestando modelos específicos de dominio (los 120 modelos biológicos), y eso es lo que abre Proto. El patrón se repite: el modelo grande sabe planificar y razonar, pero llama a tools especializadas que sí entienden la química o la genómica.

Este es exactamente el mismo patrón que Anthropic está empujando con Claude Tag y MCP servers, lo que Nvidia ha publicado el mismo día con BioNeMo Agent Toolkit, y lo que se va a ver repetido en todos los verticales especializados durante los próximos 18 meses.

Por qué es relevante

La biología computacional vive el mismo problema que vivió el desarrollo software hace 20 años: muchos componentes potentes, cero interoperabilidad. Cada lab construye su pipeline a mano, los modelos quedan en silos y la mayoría no se combinan jamás. Si Proto se convierte en la capa estándar de integración, cada modelo nuevo se enchufa al ecosistema con muy poco coste de adopción.

El paralelismo histórico que cita el propio Brian Hie en su comunicación es PyTorch para deep learning: antes de PyTorch, cada lab tenía su propio framework, su propio formato de modelo, su propia infra de entrenamiento. Después, el campo entero convergió en una capa común y la velocidad de progreso se aceleró drásticamente. Proto aspira a ese papel para biología.

No va a curar enfermedades por sí solo. Lo que sí hace es acelerar la velocidad con la que un investigador puede probar combinaciones. Y en biología, velocidad de iteración suele traducirse en menos años de research y menos millones quemados antes de descartar (o validar) una hipótesis terapéutica.

Por qué importa para founders fuera de biotech

El patrón que valida Proto, modelo general orquestando especialistas via lenguaje común, es el patrón que va a definir la próxima ola de software vertical en 2026 y 2027. Donde hoy ves SaaS B2B con UI fija, en 12 meses vas a ver agentes que componen tools de dominio sobre la marcha. Legal (clausuras, jurisprudencia, redacción), medicina (diagnóstico diferencial, imagen, papers), finanzas (modelos de pricing, riesgo, regulación) son los tres verticales más próximos a replicar este patrón.

Si construyes software para un vertical especializado, esto es la señal de que la capa de 'agente que compone herramientas' va a comerse parte del valor que hoy capturan las suites verticales monolíticas.

Estado actual y qué hacer

Open-source, con interfaz web drag-and-drop y API de Python en proto.evodesign.org. El paper está en bioRxiv (preprint, todavía sin revisión por pares cerrada). Para founders fuera de biotech:

1. Si construyes tooling para un vertical técnico (legal, medicina, ingeniería, finanzas), estudia las cuatro primitivas de Proto y pregúntate si en tu dominio existen equivalentes (entidades, generadores, scorers, optimizadores). 2. Si tienes acceso a un equipo de I+D en biotech o pharma España, mándales el link. Es el tipo de herramienta que cambia el roadmap de un lab durante el próximo trimestre. 3. Sigue de cerca cómo evoluciona la combinación Proto + BioNeMo Agent Toolkit. La señal de adopción real será ver papers que citen Proto como infraestructura en los próximos seis meses.