El Remote Labor Index acaba de poner numero a algo que se intuia: la IA ha dado un salto grande en trabajo freelance real. En su ultima ronda, Claude Fable 5 automatizo el 16,1% de las tareas, la cifra mas alta que ha registrado el benchmark, y la marca de los modelos punteros se ha multiplicado por 6 en un ano. El detalle que lo aterriza: aun asi, solo 1 de cada 6 encargos llego a calidad profesional.
El indice lo publican el Center for AI Safety y Scale Labs. La idea es sencilla y honesta: coger encargos freelance de verdad, dejar que un agente de IA los resuelva y que evaluadores humanos comparen el resultado contra el trabajo de un profesional. La tasa de automatizacion es el porcentaje de encargos en los que la IA lo hace igual de bien o mejor que la persona. La primera version del indice salio en octubre de 2025, y entonces el mejor, el GPT-5.2, apenas llegaba al 2,5%.
Los numeros
- Fable 5: 16,1% (218 de 240 proyectos evaluados antes de las restricciones de exportacion).
- Opus 4.8: 8,3%. GPT-5.5: 6,3%.
- Hace un ano el GPT-5.2 inicial estaba en 2,5% y el mejor era Opus 4.6 con 4,17%.
- 240 proyectos reales, con presupuesto de 50 dolares por tarea (150 para Fable) y hasta 24 horas de computo.
Que tipo de trabajo mide
No son preguntas de examen. Son encargos que un autonomo cobraria: diseno 3D y CAD, arquitectura, diseno grafico, video y animacion, audio, analisis de datos y desarrollo de apps web. Sobre 240 proyectos, un humano de la profesion puntua cada entrega frente a un trabajo de referencia hecho por un profesional real. Que Fable 5 iguale o supere a esa referencia en el 16% de los casos es mucho mas de lo que hacia cualquier modelo hace doce meses, y a la vez deja claro que en el 84% restante todavia hace falta la persona.
El presupuesto por tarea tambien cuenta una historia. Al resto de modelos les dieron 50 dolares de margen por proyecto; a Fable 5 le dejaron gastar hasta 150. O sea, parte de su ventaja viene de que le permitieron trabajar mas, no solo de que sea mas listo. Es un matiz que en un titular se pierde y en una decision de compra no deberia perderse.
Y hay un dato que conviene no saltarse, porque es una leccion en si mismo. Cuando dejaron que otro modelo hiciera de juez en lugar de un humano, el juez automatico inflaba los resultados: sobreestimaba cerca de 2,9 veces para GPT-5.5 y 2,3 para Opus 4.8. Traducido: si mides la calidad de tu IA con otra IA, te vas a creer bastante mejor de lo que estas.
Por que importa
Este indice dibuja el escenario realista, no el de titular. La IA esta multiplicando lo que un freelance puede sacar, con un humano decidiendo y dando el ultimo toque, y ese es el modelo que va a durar. Es la misma foto que veo en mis empresas: la IA hace el 80% del trabajo pesado y el juicio sigue siendo mio. Para un director de operaciones la lectura practica es doble. Una, la curva sube rapido (por 6 en un ano), asi que lo que hoy se le atraganta a un modelo, en unos meses puede resolverlo. Y dos, si vas a medir cuanto te ahorra la IA, mide con criterio humano, no dejes que otra IA te haga el informe y te pinte todo de verde, porque ya has visto cuanto se infla. Tiene sentido leerlo junto a los datos de uso real de Claude que publica Anthropic.
Relacionado

