Anthropic recibe críticas por los safety classifiers de Fable 5: bloquean biología, química y ciberseguridad

Claude Fable 5 lanzó el 9 de junio de 2026 con safety classifiers integrados que interceptan queries de alto riesgo en cuatro áreas: ciberseguridad, biología, química y model distillation. Cuando el classifier detecta tema sensible, hace fallback a Claude Opus 4.8 (más conservador) sin avisar al usuario. En 48 horas el patrón estaba siendo reportado de forma masiva en X por investigadores y usuarios profesionales que trabajan en áreas legítimas y se encontraban con rechazos o respuestas degradadas.

Las dos caras del backlash

El primer frente fue UX. Hidden classifiers downgradeando respuestas sin notificar al usuario es un patrón que erosiona confianza muy rápido. Anthropic reculó en 48 horas, publicó disculpa pública y una guía oficial de best practices para promptear Fable alrededor de esas áreas.

El segundo frente fue justo el contrario. Un red-teamer público demostró que con una estrategia coordinada multi-paso podía hacer bypass de los classifiers, y publicó screenshots de Fable produciendo material que se suponía bloqueado: código de exploit funcional y rutas de síntesis química. El doble mensaje, demasiado restrictivo para uso legítimo y demasiado permeable a abuso coordinado, es el peor escenario para un lanzamiento de safety classifier.

El cierre del ciclo: ban gubernamental

El 12 de junio, tres días después del lanzamiento, el gobierno US ordenó retirar Fable 5 y Mythos 5 a nivel global por temas de seguridad nacional. Es el primer caso público de un gobierno bloqueando un modelo frontera por su contenido y no por su origen geográfico. Anthropic acabó la semana con el ensayo de Amodei pidiendo regulación FAA, Microsoft bloqueando el modelo a sus empleados y el regulador americano retirándolo del mercado.

Qué significa en práctica

Si tu equipo trabaja en investigación seria (laboratorio farma, security research, biotech), Fable es más difícil de usar que sus predecesores. Para tareas generales (escritura, análisis de negocio, código de aplicación) no se nota la diferencia. Para tareas que tocan áreas sensibles, sí.

Por qué importa para founders españoles

Aunque el ban gubernamental US no afecta a tráfico europeo de forma directa, dos consecuencias aterrizan en cualquier empresa que use Claude en producción. La primera es disponibilidad: si Anthropic acaba aplicando políticas más conservadoras a nivel global como respuesta a la presión regulatoria, los safety classifiers se pueden endurecer para todos los usuarios, no solo para los americanos.

La segunda es reputacional. Si tu producto promete usar 'el modelo más avanzado del mercado' y ese modelo está en titulares por bloqueo gubernamental, te toca explicarlo a clientes y a tu equipo de compliance. Tener narrativa preparada de qué modelo usas, por qué y qué pasaría si dejara de estar disponible es trabajo de viernes por la tarde, no de la reunión de crisis del lunes.

Qué hacer con esto

  • Si Fable 5 es tu modelo de producción y tocas áreas sensibles, monta un fallback a Claude Mythos o a otro proveedor para esas tareas concretas.
  • Mete logging de rechazos por classifier para tener datos cuando negocies con tu account manager de Anthropic. Sin datos la conversación es opinión, con datos es evidencia.
  • La capa de routing entre modelos que llevamos meses recomendando aquí gana otra razón para existir: ningún modelo es inmune a una decisión política o de safety que te saque la herramienta de las manos en horas.
  • Documenta internamente qué modelo usas y por qué, para que el responsable de compliance pueda responder a auditoría sin sorpresas.