Anthropic pide disculpas: Fable degradaba en silencio respuestas sobre desarrollo de IA y bloqueaba a científicos hasta por decir 'hola'

Fable 5, el primer modelo público de la clase Mythos que Anthropic lanzó esta semana, viene con filtros más duros sobre cuatro áreas sensibles: química, biología, ciberseguridad y desarrollo de IA. Para ese último bloque, el modelo estaba degradando en silencio la calidad de las respuestas cuando sospechaba que la consulta venía de alguien construyendo otro modelo. Sin avisar al usuario.

Cómo se descubrió

El detalle estaba enterrado en un párrafo de las 319 páginas de la system card que Anthropic publicó con el lanzamiento. Los investigadores que la leyeron a fondo encontraron que Fable rerutearía silenciosamente las peticiones a un modelo menor cuando se le pidiera entrenar LLMs competidores, debugar código de IA u optimizar arquitectura neuronal. No aparecía en la documentación de producto, ni se avisaba al usuario en pantalla cuando ocurría.

Cuando saltó en redes (vía Dean Ball, ex asesor de IA en la Casa Blanca y hoy en la Foundation for American Innovation, que lo describió como 'sorprendentemente hostil y muy mala pinta'; y Nathan Lambert de AI2 hablando de 'secret sabotage'), Anthropic respondió a WIRED con disculpas formales: 'tomamos la decisión equivocada en el equilibrio, y pedimos disculpas por no haberla acertado'.

El fix técnico

La empresa ha cambiado los safeguards para hacerlos visibles. Las peticiones marcadas ahora caen explícitamente a Opus 4.8 (en lugar de un reruteo invisible a un modelo peor) y el usuario lo ve cada vez que pasa, igual que ya ocurre con los safeguards de ciberseguridad y biología. Es el mismo patrón que Anthropic usa para otras áreas sensibles desde hace meses.

En paralelo, varios investigadores publicaron capturas de Fable bloqueando conversaciones literalmente al primer mensaje. Profesores universitarios de biología incapaces de ni saludar al modelo. Es el tipo de fricción que en una herramienta de trabajo diaria mata la adopción más rápido que cualquier benchmark malo.

Por qué importa para un founder español

Si tu empresa tiene Claude en producción (por chat, por API o por Claude Code en el equipo de desarrollo), este episodio dice tres cosas concretas.

Primero, Anthropic está siendo más agresivo en los filtros que su competencia directa. Es coherente con la línea de Dario Amodei sobre seguridad, pero introduce fricción real en flujos de trabajo que no tienen nada que ver con los casos que el filtro intenta proteger. Si tu producto roza alguna de las cuatro áreas (un asistente médico que toca biología, un agente que ayuda con auditoría de seguridad, etc.), espera falsos positivos.

Segundo, los filtros pueden cambiar entre versiones sin que te avisen claramente. La system card de 319 páginas es la prueba: la información estaba ahí, pero pocas empresas la leen entera. Si tu producto depende de que Claude responda bien a un tipo de consulta concreta, hay que tener una batería de tests automáticos que se ejecute cada vez que Anthropic actualiza modelo.

Tercero, OpenAI tiene una ventana abierta. Cuando un competidor mete la pata con tu audiencia técnica, importa la confianza más que el benchmark. GPT-5.6 sale pronto, y si OpenAI juega bien la carta de 'menos fricción, igual de potente', va a recuperar parte del terreno que perdió con Mythos.

Qué hacer esta semana

  • Montar 10-20 prompts representativos de tu producto y guardarlos como suite de regresión. Ejecutarlos contra el modelo en uso cada vez que Anthropic anuncia versión nueva. Cinco minutos de setup, semanas de problemas ahorrados.
  • Tener un proveedor secundario (OpenAI o Google) ya integrado por API, aunque no se use en producción. El día que un cambio de política te rompa el flujo crítico, el switch tiene que ser de horas, no de semanas.
  • Leer la system card cuando salga modelo nuevo. Sí, son 300 páginas. La parte de safeguards merece la pena: en este episodio estaba todo ahí, escondido pero declarado.

Los modelos frontera van a seguir endureciendo filtros, no a relajarlos. La presión regulatoria (la AI Act ya está en aplicación en Europa, California mueve legislación propia) y la opinión pública empujan en esa dirección. La pregunta para una empresa que construye con IA no es 'cómo evito los filtros' sino 'cómo diseño mi producto para que los filtros no rompan flujos críticos'.