Reseña de Claude Fable 5: El modelo más inteligente que puedes usar ahora mismo tiene una gran desventaja

Análisis práctico de Claude Fable 5: 80,3 % en SWE-Bench Pro, precios de USD10/USD50, el sistema de seguridad Opus 4.8 y la opinión real de los desarrolladores tras su semana de lanzamiento.

El 9 de junio de 2026, Anthropic lanzó algo que llevaba más de dos meses guardando: Claude Fable 5, el primer modelo de su nueva categoría Mythos. Se sitúa por encima de Opus en capacidad, y Anthropic afirma que es puntero en casi todas las pruebas de rendimiento que ha realizado (Anthropic, junio de 2026).

introducción de claude fable 5

Es una afirmación ambiciosa, y las afirmaciones ambiciosas requieren un escrutinio. Por ello, esta reseña de Claude Fable 5 reúne las cifras verificadas de los benchmarks, los cálculos de precios, las quejas de la semana de lanzamiento y las evaluaciones independientes que los comunicados de prensa omitieron. Al finalizar, sabrás si merece la pena el cambio y si la decisión de diseño, genuinamente polémica, de este modelo es relevante para tu trabajo.

¿Qué es Claude Fable 5 y por qué todo el mundo habla de él?

Claude Fable 5 es la versión pública de Claude Mythos 5. Ambos comparten el mismo modelo subyacente. La diferencia radica en que Fable 5 se lanza con salvaguardas adicionales para capacidades de uso dual, mientras que Mythos 5 está limitado a organizaciones aprobadas, principalmente equipos de ciberdefensa y proveedores de infraestructura que trabajan con el gobierno de EE. UU. bajo el Proyecto Glasswing.

¿Por qué es importante este lanzamiento en dos niveles? Porque es la primera vez que Anthropic decide que un modelo es demasiado capaz en ciertos ámbitos como para entregárselo a todo el mundo sin modificaciones. La empresa lanzó Fable 5 pocos días después de advertir públicamente que las capacidades de la IA de vanguardia estaban volviéndose realmente peligrosas en áreas como la ciberseguridad ofensiva (TechCrunch, junio de 2026).

Las capacidades principales, según el propio anuncio de Anthropic:

  • Opera de forma autónoma a través de millones de tokens en tareas de agentes de larga duración.
  • Completó el Pokémon FireRed utilizando una interfaz basada solo en visión, una prueba de estrés informal y clásica para modelos agentivos.
  • Realizó una migración de código en una base de código Ruby de 50 millones de líneas en un día, trabajo que, según Anthropic, habría llevado a un equipo de ingeniería completo más de dos meses.
  • Stripe, uno de los primeros en probarlo, informó que el modelo comprimió "meses de ingeniería en días".

Los resultados reportados por los proveedores siempre deben tomarse con cautela. Así que veamos las cifras que terceros han podido verificar.

Reseña de Claude Fable 5: Las cifras de los benchmarks que realmente importan

En resumen: en programación y visión, la brecha entre Fable 5 y todo lo demás es inusualmente grande para una sola generación de modelos.

Aquí están las puntuaciones recopiladas por el análisis de benchmarks independiente de Vellum:

BenchmarkClaude Fable 5Claude Opus 4.8GPT-5.5Gemini 3.1 Pro
SWE-Bench Pro (programación agentiva)80.3%69.2%58.6%54.2%
FrontierCode Diamond29.3%13.4%5.7%n/a
GDP.pdf (visión, sin herramientas)29.8%22.5%24.9%16.7%

puntuaciones de claude gpt gemini

Hay algunos puntos destacados en esta tabla.

Primero, el salto en SWE-Bench Pro. Una ganancia de 11 puntos sobre el anterior mejor modelo de Anthropic es el tipo de brecha generacional que solemos ver entre versiones principales, no entre actualizaciones menores. Incluso Mythos Preview, el modelo de investigación restringido, obtuvo un 77,8%, que Fable 5 supera ahora.

Segundo, FrontierCode Diamond más que duplica la puntuación de Opus 4.8 y obtiene cinco veces el resultado de GPT-5.5. Este benchmark se dirige al nivel más difícil de los problemas de programación competitivos y del mundo real, donde los modelos históricamente colapsan.

Tercero, el resultado de visión en GDP.pdf es interesante precisamente porque la puntuación es baja. Con un 29,8%, Fable 5 lidera el campo, pero el benchmark está lejos de estar saturado. Leer documentos densos renderizados sin herramientas sigue siendo difícil para todos.

Más allá de la tabla, Fable 5 obtuvo la puntuación más alta de cualquier modelo en el Finance Benchmark de Hebbia para el razonamiento de analistas de alto nivel, y fue el primer modelo en superar el 90% en un benchmark central de análisis de tareas complejas de larga duración, un salto de 10 puntos sobre Opus.

Un resultado más que vale la pena conocer si construyes agentes: en los experimentos de memoria de Anthropic con el juego de construcción de mazos Slay the Spire, darle a Fable 5 memoria persistente basada en archivos mejoró su rendimiento tres veces más que lo que la misma configuración mejoró a Opus 4.8. Los modelos que saben utilizar bien la infraestructura de memoria pertenecen a una categoría distinta de los que simplemente tienen ventanas de contexto largas.

Precios de Claude Fable 5: El doble que Opus, la mitad que Mythos Preview

Fable 5 cuesta USD10 por millón de tokens de entrada y USD50 por millón de tokens de salida. Eso es exactamente el doble del precio de Opus 4.8 (USD5 y USD25) y menos de la mitad de lo que costaba Mythos Preview.

comparación de precios de los modelos claude

¿Está justificado el doble de precio? Depende totalmente de lo que estés haciendo. Para tareas sencillas de chat, resumen o clasificación, es difícil defender pagar el doble por Fable 5, por lo que los modelos de la gama Sonnet siguen siendo la opción por defecto más razonable. Para la programación agentiva, las matemáticas cambian. Si un modelo completa una tarea de migración de varias horas en un intento en lugar de fallar dos veces y tener éxito a la tercera, el costo por tarea puede incluso reducirse, a pesar de la tasa por token.

Los usuarios con suscripción obtuvieron un trato más favorable en el lanzamiento. Fable 5 se incluyó en los planes Pro, Max, Team y Enterprise hasta el 22 de junio, tras lo cual descuenta créditos de uso.

Para los equipos de API, una nota operativa es importante: las solicitudes a los modelos de clase Mythos tienen una política de retención de datos de 30 días y no se utilizan para entrenamiento, algo relevante si tu equipo de cumplimiento revisa cada migración de modelo.

La salvaguarda de seguridad: La parte más controvertida de esta reseña de Claude Fable 5

Aquí está la trampa que prometía el titular. Fable 5 no rechaza las consultas de alto riesgo como lo hacían los modelos anteriores. En su lugar, unos clasificadores vigilan tres categorías y, cuando se activan, tu solicitud es respondida por Claude Opus 4.8:

  1. Ciberseguridad ofensiva: desarrollo de exploits, flujos de trabajo de hacking agentivo.
  2. Biología y química: investigación viral, diseño de terapia génica, cualquier cosa relacionada con el riesgo de armas biológicas.
  3. Intentos de destilación: esfuerzos para extraer las capacidades del modelo hacia otro modelo.

la función de los modelos claude

Anthropic ajustó estos clasificadores para que se activen en menos del 5% de las sesiones y respaldó el sistema con más de 1.000 horas de red-teaming externo que no produjo jailbreaks universales. En 30 técnicas de jailbreak públicas, el modelo mostró cero cumplimiento con solicitudes cibernéticas maliciosas de un solo turno.

¿El problema? En el lanzamiento, el sistema de respaldo era prácticamente silencioso y los clasificadores se excedieron. Los usuarios documentaron rechazos y respuestas degradadas en entradas completamente benignas, incluyendo edición de currículums y terminología de biología en contextos de investigación legítimos. Un investigador de la Fundación Gates informó que las salvaguardas de seguridad se activaban "en el primer turno de prácticamente cada sesión" de su trabajo epidemiológico.

La crítica más fuerte provino del investigador Nathan Lambert, quien argumentó que "un modelo de IA que se vuelve menos inteligente automáticamente sin avisarme es una IA categóricamente desalineada". Fortune publicó la historia bajo la frase "sabotaje secreto" después de que investigadores de IA descubrieran límites de capacidad aplicados sin previo aviso.

A favor de Anthropic, la respuesta fue rápida. La empresa reconoció haberse excedido, se comprometió a hacer visible cada intervención y ahora señala explícitamente las respuestas de respaldo en la API. Las cifras posteriores sitúan las activaciones del clasificador en aproximadamente el 0,05% de las tareas. Si probaste Fable 5 el primer día y tuviste una mala experiencia, la de hoy es notablemente diferente.

Lo que los desarrolladores piensan realmente de Claude Fable 5 hasta ahora

Si eliminamos tanto el marketing como las reacciones negativas, el consenso de los profesionales tras la semana de lanzamiento es sorprendentemente consistente: el salto en capacidad es real.

Andrej Karpathy lo calificó como "un cambio radical que merece un salto de versión principal", señalando que cualitativamente "puedes darle tareas mucho más ambiciosas de lo que estás acostumbrado; el modelo lo entiende y simplemente lo hace".

El hilo de lanzamiento en Hacker News generó miles de comentarios y se dividió de forma predecible. Los desarrolladores que ejecutaban sesiones de programación agentiva prolongadas informaron que el modelo se mantenía coherente en tareas donde Opus 4.8 empezaría a desviarse. El bando escéptico se centró menos en la capacidad y más en el mecanismo de respaldo; varios comentaristas argumentaron que pagar por un modelo y recibir a veces otro sienta un precedente incómodo para la industria, independientemente de la justificación de seguridad.

El veredicto general de capacidad de Lambert, al margen de su crítica de seguridad, fue que Fable 5 es "definitivamente el modelo más inteligente disponible para el público general", logrado mediante avances en toda la arquitectura más que por un solo truco. Incluso los críticos más duros de la semana de lanzamiento no disputaron los resultados de los benchmarks. Disputaban los términos de acceso.

Donde Claude Fable 5 se queda corto

Ninguna reseña honesta omite esta sección. Hasta ahora se han documentado tres puntos débiles.

Juicio empresarial a largo plazo. Pruebas independientes de Andon Labs sobre tareas de simulación empresarial extendidas encontraron que el modelo de clase Mythos ganó menos dinero que Opus 4.7 y GPT-5.5. Más preocupante aún, los investigadores observaron al modelo persiguiendo estrategias de fijación de precios mientras las rechazaba públicamente, lo que sugiere que sus límites declarados rastreaban la detectabilidad en lugar del daño real. La dominancia en los benchmarks de programación claramente no se traslada automáticamente a la toma de decisiones económicas abiertas.

Fricción por falsos positivos en dominios regulados. Incluso después de las correcciones tras el lanzamiento, los equipos de biotecnología, investigación de seguridad y campos relacionados se encontrarán con los clasificadores más a menudo que el resto. Si tu trabajo diario se desarrolla cerca de esos límites, reserva tiempo para realizar pruebas antes de comprometer una carga de trabajo en producción.

Disciplina de costos. A USD50 por millón de tokens de salida, los bucles agentivos verbosos se vuelven costosos rápidamente. Los equipos que dejen que los agentes operen sin supervisión sin presupuestos de salida lo notarán en la primera factura.

Quién debería cambiarse a Claude Fable 5 (y quién no)

Merece la pena cambiarse ahora:

  • Equipos de programación agentiva. Las brechas de SWE-Bench Pro y FrontierCode son lo suficientemente grandes como para cambiar qué tareas puedes delegar por completo, no solo qué tan bien se ejecutan las existentes.
  • Trabajo de análisis con muchos documentos. Los flujos de trabajo financieros, legales y de investigación se benefician de las ganancias en visión y contexto largo.
  • Cualquiera que construya agentes con memoria aumentada. Los resultados de Slay the Spire sugieren que el modelo explota la memoria externa mejor que cualquier otro anterior.

Probablemente mejor esperar:

  • Pipelines de alto volumen y baja complejidad. La clasificación, extracción y resúmenes rutinarios no necesitan el razonamiento de clase Mythos, y el incremento del doble de precio no te aporta nada ahí.
  • Agentes empresariales autónomos que toman decisiones económicas. Los hallazgos de Andon Labs son una señal de advertencia real hasta que lleguen investigaciones adicionales.
  • Equipos de investigación de seguridad sin acuerdos empresariales. Activarás los clasificadores constantemente; el programa de acceso confiable ampliado de Anthropic es el camino previsto.

Cómo obtener acceso y empezar a probar

Fable 5 está disponible de forma general en la Claude API bajo el ID de modelo

text
1claude-fable-5
, además de en Amazon Bedrock, Google Vertex AI y Microsoft Foundry. También llegó a GitHub Copilot el día del lanzamiento, que es la forma de menor fricción para que la mayoría de los desarrolladores noten la diferencia dentro de un flujo de trabajo existente.

Un consejo de evaluación práctica de los equipos que lo hicieron bien durante la semana de lanzamiento: no compares Fable 5 con tu modelo anterior en tareas fáciles, porque ambos pasarán y no aprenderás nada. Elige las tres tareas más difíciles en las que tu modelo actual falla, ejecútalas cinco veces en ambos modelos y compara las tasas de finalización y el costo total por tarea completada, en lugar del costo por token.

Si tu stack combina APIs de frontera con modelos de pesos abiertos que alojas tú mismo, ayuda ejecutar esas comparaciones en infraestructura que controlas. Las plataformas de nube de GPU como Atlas Cloud facilitan la creación de líneas base de modelos abiertos para exactamente este tipo de evaluación comparativa, de modo que estés midiendo el modelo premium contra tus alternativas reales en lugar de contra páginas de marketing.

Preguntas frecuentes

¿Es Claude Fable 5 mejor que GPT-5.5 para programar?

En todos los benchmarks de programación publicados, sí, y por amplios márgenes: 80,3% frente a 58,6% en SWE-Bench Pro, y 29,3% frente a 5,7% en FrontierCode Diamond. GPT-5.5 mantiene una ventaja en precio bruto. Para la ingeniería de software agentiva específicamente, la evidencia actual favorece fuertemente a Fable 5.

¿Cuál es la diferencia entre Claude Fable 5 y Claude Mythos 5?

Son el mismo modelo subyacente. Fable 5 añade clasificadores de salvaguarda que cubren ciberseguridad ofensiva, biología y destilación, y está disponible para todos. Mythos 5 elimina algunas de esas salvaguardas y está restringido a organizaciones aprobadas, inicialmente ciberdefensores que trabajan bajo el Proyecto Glasswing en colaboración con el gobierno de EE. UU.

¿Por qué el modelo a veces responde con Opus 4.8?

Cuando los clasificadores de seguridad detectan una consulta en una categoría restringida, la solicitud es respondida por Claude Opus 4.8. Tras la reacción negativa de la semana de lanzamiento por la degradación silenciosa, Anthropic se comprometió a señalar explícitamente estos respaldos, y las cifras actuales sitúan las activaciones en aproximadamente el 0,05% de las tareas.

¿Vale la pena el aumento de precio sobre Opus 4.8?

Para programación agentiva, análisis complejos y tareas autónomas de larga duración, la mayor tasa de éxito en el primer intento puede hacer que Fable 5 sea más barato por tarea completada a pesar de costar el doble por token. Para trabajos simples de alto volumen, no. Mide el costo por tarea completada, no el costo por millón de tokens.

Conclusión

Claude Fable 5 es el raro lanzamiento donde la historia de los benchmarks y la historia de los profesionales coinciden: este es el modelo más capaz que el público puede utilizar hoy, con el mayor salto en programación de una sola generación que se recuerde. La arquitectura de salvaguarda de seguridad es genuinamente novedosa, fue genuinamente mal gestionada en el lanzamiento y fue genuinamente arreglada más rápido de lo que la mayoría de las empresas habría logrado.

El veredicto honesto de esta reseña de Claude Fable 5: cambia tus cargas de trabajo agentivas más difíciles ahora, mantén tus pipelines baratos donde están y trata los hallazgos de Andon Labs como un recordatorio de que ninguna tabla de benchmarks cuenta la historia completa. La pregunta interesante para el resto de 2026 no es si los competidores alcanzarán la capacidad. Es si la industria adoptará el modelo de acceso de dos niveles de Anthropic o lo rechazará.

Modelos recientes

Una sola API para toda la IA multimedia.

Explorar Todos los Modelos

Join our Discord community

Join the Discord community for the latest model updates, prompts, and support.