ARC-AGI-3: los modelos punteros puntúan menos del 1% en un test que lo

Los mejores modelos del mundo puntúan por debajo del 1% en un test que cualquier persona resuelve al 100%. La ARC Prize Foundation lanzó ARC-AGI-3 el 25 de marzo de 2026 en Y Combinator, y los resultados dejan a todos los modelos punteros casi a cero según el leaderboard oficial. Gemini 3.1 Pro lidera con un 0,37%.

Puntos clave

Scores: Gemini 3.1 Pro 0,37%, GPT-5.4 0,26%, Claude Opus 4.6 0,25%, Grok-4.20 0%.
Baseline humano: 100%. Todos los modelos por debajo del 1%.
Es un test de razonamiento interactivo: agentes en entornos tipo videojuego que nunca han visto.
Sin instrucciones. El modelo debe inferir reglas, objetivos y estrategia desde cero.

Qué mide ARC-AGI-3 que los otros no

La mayoría de benchmarks premian el recall. Preguntas de conocimiento, exámenes, código que se parece a millones de ejemplos de entrenamiento. Ahí los modelos vuelan. GPT-5.4 y Claude Opus 4.6 sacan notas altísimas en casi todo lo que se les tira.

ARC-AGI-3 hace otra cosa. Mete al modelo en un entorno tipo videojuego que nunca ha visto, sin manual, y le pide que juegue. Tiene que mirar, probar, deducir las reglas del sitio, entender cuál es el objetivo y armar una estrategia. Todo desde cero, en el momento. Eso aísla lo que la fundación llama inteligencia fluida: razonar sobre algo nuevo. No recordar, razonar. Y ahí los modelos que dominan cualquier examen se estrellan contra el 0,3%.

Por qué los agentes autónomos siguen fallando

Este número explica algo que cualquiera que haya montado un agente ya ha visto. El modelo brilla cuando la tarea se parece a algo conocido. En cuanto le sueltas un entorno abierto, con reglas que tiene que descubrir solo, se pierde.

Un agente que reserva un vuelo con una API documentada funciona. Ese mismo agente delante de una interfaz nueva, sin instrucciones, tanteando qué botón hace qué, es donde se cae. ARC-AGI-3 pone número a ese fallo: 0,3% contra el 100% humano. La distancia con el humano no es de matiz, es de categoría. Un niño entra a un videojuego nuevo y en dos minutos ya sabe lo que hace. El mejor modelo del mundo, no.

Por qué importa

Si estás decidiendo qué automatizar con IA, este benchmark es la mejor brújula que hay ahora mismo.

La regla práctica: la IA es fantástica en tareas acotadas, repetibles, parecidas a algo que ya existe. Redactar, resumir, clasificar, traducir, generar código estándar. Todo eso ya funciona y lo puedes meter en producción hoy.

Lo que no funciona todavía es soltar un agente en un proceso abierto y esperar que lo resuelva solo. Descubrir reglas nuevas, adaptarse a un entorno que cambia, decidir sin guion. Ahí el número es 0,3%. No lo montes esperando magia, porque no la hay.

Hay un uso más de este dato, de gestión pura. Cuando un proveedor te venda "un agente autónomo que se encarga de todo", pregúntale en qué se parece su tarea a un examen conocido y en qué a un videojuego nuevo. Si es lo primero, funcionará. Si es lo segundo, te está vendiendo el 0,3%. Esa pregunta simple te ahorra pilotos caros que fracasan porque el problema era abierto y el modelo solo sabe repetir patrones que ya vio. Esto también baja el ruido sobre la AGI inminente: los modelos mejoran rapidísimo en lo que ya saben hacer, y en razonar sobre lo nuevo apenas se mueven. Mientras esa cifra siga pegada al suelo, la automatización seria pasa por acotar bien el problema y poner a un humano en el bucle. Ese es el estado del arte hoy, y sale más a cuenta diseñar con él que apostar contra él.

Relacionado