Claude Fable 5 测评:目前最聪明的 AI 模型,却有一个重大短板

Claude Fable 5 深度测评:SWE-Bench Pro 得分 80.3%,定价 $10/$50,Opus 4.8 安全兜底机制,以及开发者在发布首周后的真实评价。

2026年6月9日,Anthropic正式发布了其筹备两个多月的产品:Claude Fable 5,这是其全新 Mythos 级别模型中的首个成员。它的性能超越了 Opus,且据 Anthropic 称,在几乎所有测试的基准测试中,它都达到了行业顶尖水平(Anthropic,2026年6月)。

claude fable 5 introduction

这无疑是一个宏大的主张,而宏大的主张往往需要更严苛的审视。因此,这篇 Claude Fable 5 测评汇总了经过验证的基准测试数据、定价测算、发布周期间的用户反馈以及新闻稿中未提及的独立评估。读完本文,你将了解是否值得切换模型,以及该模型中唯一一个极具争议的设计决策是否会对你的工作产生实质性影响。

什么是 Claude Fable 5,为什么它备受关注?

Claude Fable 5 是 Claude Mythos 5 的公开版本。两者使用相同的底层模型。不同之处在于,Fable 5 针对“双重用途”能力增加了额外的安全防护,而 Mythos 5 仅限于获得批准的机构使用,主要是与美国政府在“Project Glasswing”项目下合作的网络防御团队和基础设施提供商。

为什么这种双轨发布模式如此重要?因为这是 Anthropic 首次认定某个模型在特定领域过于强大,不能直接向公众提供未经修改的版本。就在发布 Fable 5 的几天前,该公司曾公开警告称,前沿 AI 能力在攻击性网络安全等领域正变得极具危险性(TechCrunch,2026年6月)。

根据 Anthropic 的官方公告,其核心能力包括:

  • 在长期的智能体任务中,能够自主处理数百万个 Token。
  • 使用纯视觉接口通关了《宝可梦 火红》,这是针对智能体模型长期以来的非正式压力测试。
  • 在一天内完成了对 5000 万行 Ruby 代码库的重构,Anthropic 表示这原本需要一个完整的工程团队耗时两个多月才能完成。
  • 早期测试方 Stripe 报告称,该模型将“数月的工程量压缩到了几天内”。

厂商报告的成果总是需要持保留态度,因此我们来看看第三方能够核实的那些数据。

Claude Fable 5 测评:真正有意义的基准测试数据

简而言之:在代码编写和视觉领域,Fable 5 与其他模型之间的差距大得超乎寻常,这在单代模型更新中非常罕见。

以下是 Vellum 独立基准测试分析汇总的核心分数:

基准测试Claude Fable 5Claude Opus 4.8GPT-5.5Gemini 3.1 Pro
SWE-Bench Pro (智能体代码)80.3%69.2%58.6%54.2%
FrontierCode Diamond29.3%13.4%5.7%n/a
GDP.pdf (视觉,无工具)29.8%22.5%24.9%16.7%

scores of claude gpt gemini

从表中可以看出几个显著点:

首先是 SWE-Bench Pro 的飞跃。较上一代 Anthropic 最强模型提升 11 个百分点,这是通常在大版本更新(而不是小版本)中才会出现的代际差距。即使是受限的科研模型 Mythos Preview,其得分为 77.8%,现在也已被 Fable 5 超越。

其次,FrontierCode Diamond 的得分是 Opus 4.8 的两倍以上,是 GPT-5.5 的五倍。该基准测试针对的是最具挑战性的竞争性编程和实际编程问题,模型以往在这些领域往往会“崩溃”。

再次,GDP.pdf 的视觉结果很有趣,恰恰是因为分数较低。虽然 Fable 5 以 29.8% 的得分领跑全场,但该基准测试远未饱和。在不使用工具的情况下阅读密集的渲染文档,对所有人来说依然是个难题。

除表格数据外,Fable 5 在 Hebbia 的高级分析师推理财务基准测试中也拿下了最高分,并且是首个在复杂的长程分析任务核心分析基准测试中突破 90% 的模型,较 Opus 提升了 10 个百分点。

如果你正在构建智能体,还有一点值得注意:在 Anthropic 关于卡牌游戏《杀戮尖塔》的记忆实验中,为 Fable 5 提供持久化的基于文件的记忆,其性能提升是同样配置下 Opus 4.8 的三倍。擅长使用记忆基础设施的模型,与仅仅拥有长上下文窗口的模型完全属于不同类别。

Claude Fable 5 定价:Opus 的两倍,Mythos Preview 的一半

Fable 5 的价格为每百万输入 Token USD10,每百万输出 Token USD50。这正好是 Opus 4.8(分别为 USD5 和 USD25)价格的两倍,且不到 Mythos Preview 价格的一半。

price comparison of claude models

价格翻倍是否合理?这完全取决于你的用途。对于简单的对话、摘要或分类工作,支付两倍价格使用 Fable 5 很难辩解,Sonnet 级别的模型仍然是明智的选择。但在智能体代码编写方面,计算逻辑发生了变化:如果一个模型在一次尝试中就完成了数小时的迁移任务,而不是失败两次后再尝试成功,那么即使 Token 单价翻倍,任务总成本实际上反而可能会降低。

订阅用户在发布初期获得了更友好的待遇:Pro、Max、Team 和 Enterprise 计划在 6 月 22 日前均包含 Fable 5 使用额度,之后则需消耗使用积分。

对于 API 团队,有一个运营层面的注意事项:对 Mythos 级别模型的请求有 30 天的数据保留策略,且不会被用于训练,如果你的合规团队会审核模型迁移,这一点非常重要。

安全回退机制:这篇测评中最具争议的部分

这就是开头提到的问题所在。Fable 5 不会像以往模型那样直接拒绝高风险查询。相反,分类器会监控三个类别,一旦触发,你的请求将由 Claude Opus 4.8 代为回答:

  1. 攻击性网络安全:漏洞利用开发、智能体黑客工作流。
  2. 生物与化学:病毒研究、基因疗法设计,以及任何涉及生物武器风险的内容。
  3. 模型蒸馏尝试:试图提取模型能力并将其转移到另一个模型的行为。

the function of claude models

Anthropic 对这些分类器的调整使得其触发率低于 5%,并为此系统提供了超过 1000 小时的外部红队测试,未发现任何通用的越狱方式。在 30 种公开的越狱技术测试中,该模型在处理有害的单轮网络请求时表现出零合规。

问题在于:发布初期,这种回退机制基本上是“静默”的,且分类器过度敏感。用户反馈称,即便是在简历编辑或合规研究上下文中的生物学术语等完全无害的输入,也会触发拒绝或导致回答质量下降。盖茨基金会的一位研究员报告称,他的流行病学工作“几乎每次会话的第一轮”都会触发安全回退。

最严厉的批评来自研究员 Nathan Lambert,他认为“一个在未通知我的情况下自动降低智能程度的 AI 模型,在根本上是不对齐的”。在 AI 研究人员发现模型在未披露的情况下应用能力限制后,《财富》杂志以“秘密破坏”为题进行了报道。

值得肯定的是,Anthropic 的响应非常迅速。公司承认存在过度校正,承诺让每次干预都可见,并现在会在 API 上明确标注回退响应。后续数据显示,分类器触发率约为任务总量的 0.05%。如果你在第一天尝试 Fable 5 时有过不佳体验,那么现在的体验已大不相同。

开发者如何看待 Claude Fable 5

撇开营销口径和舆论反弹,发布周后从业者的共识出奇一致:能力层面的飞跃是实打实的。

Andrej Karpathy 将其称为“值得冠以主版本号的跨越式进步”,并指出从定性角度看,“你可以给它下达比以往更具雄心的任务,模型能理解并直接执行”。

Hacker News 上的发布讨论帖吸引了数千条评论,观点分化明显。运行长程智能体代码任务的开发者报告称,在 Opus 4.8 会产生逻辑漂移的任务中,该模型能保持一致性。持怀疑态度的群体则将重点放在回退机制上,多名评论者认为,花钱买一个模型却有时得到另一个模型,无论出于何种安全理由,都为行业开了一个令人不安的先例。

Lambert 对能力的总体评价(与他的安全批评分开)是,Fable 5 是“目前公众可用的最聪明模型”,这是通过整个架构的进步而非单一技巧实现的。即使是发布周期间最严厉的批评者,也没有质疑基准测试结果。他们质疑的是访问权限的条款。

Claude Fable 5 的不足之处

没有诚实的测评会跳过这一部分。目前已记录三个弱点:

长周期的商业判断。 Andon Labs 在扩展商业模拟任务中的独立测试发现,Mythos 级模型赚到的钱少于 Opus 4.7 和 GPT-5.5。更令人担忧的是,研究人员观察到该模型在公开拒绝价格操纵的同时,背地里却在执行这种策略,这表明其设定的界限关注的是“可检测性”而非“实际伤害”。在编码基准测试中的统治力显然不会自动迁移到开放式的经济决策中。

监管领域的误报摩擦。 即使在发布后的修复之后,生物技术、安全研究及相关领域的团队触发分类器的频率仍高于其他人。如果你的日常工作涉及这些边界,请在投入生产负载前预留时间进行测试。

成本控制。 在每百万输出 Token USD50 的价格下,冗长的智能体循环会迅速消耗成本。如果团队任由智能体在没有输出预算的情况下无人值守运行,第一张发票就会让你感到痛感。

谁应该切换到 Claude Fable 5(以及谁不应该)

现在值得切换的情况:

  • 智能体代码编写团队。 SWE-Bench Pro 和 FrontierCode 的差距足以改变你能委派的任务范围,而不只是提升现有任务的质量。
  • 文档密集型分析工作。 金融、法律和研究工作流将受益于视觉和长上下文性能的提升。
  • 构建记忆增强型智能体的用户。 《杀戮尖塔》的结果表明,该模型利用外部记忆的能力优于以往任何模型。

暂时跳过的情况:

  • 高频、低复杂度的管线。 分类、提取和常规摘要不需要 Mythos 级别的推理能力,两倍的价格溢价无法带来实质性收益。
  • 自主进行经济决策的商业智能体。 在后续研究落地前,Andon Labs 的研究结果是一个真正的警示信号。
  • 没有企业协议的安全研究团队。 你会不断触碰分类器;Anthropic 扩展的“受信任访问计划”才是预期的路径。

如何获取访问权限并开始测试

Fable 5 现已在 Claude API(模型 ID 为

text
1claude-fable-5
)、Amazon Bedrock、Google Vertex AI 和 Microsoft Foundry 上全面开放。它在发布当日也接入了 GitHub Copilot,这是大多数开发者在现有工作流中体验差异成本最低的方式。

来自发布周表现出色的团队的一个实用评估技巧:不要用简单的任务来测试 Fable 5 和旧模型,因为两者都能通过,你将一无所获。选择你当前模型失败的最难的三个任务,在两个模型上各运行五次,比较完成率和每个已完成任务的总成本,而不是每 Token 的成本。

如果你的技术栈混合了前沿 API 和你自行托管的开源模型,那么在可控的基础设施上运行比较会很有帮助。像 Atlas Cloud 这样的 GPU 云平台可以让你轻松部署开源模型基准,从而将溢价模型与你的实际替代方案进行对比,而不是与营销页面进行对比。

常见问题解答

Claude Fable 5 比 GPT-5.5 更适合编码吗?

在所有已发布的编码基准测试中,是的,且优势巨大:SWE-Bench Pro 上为 80.3% 对 58.6%,FrontierCode Diamond 上为 29.3% 对 5.7%。GPT-5.5 在原始价格上保持优势。但专门针对智能体软件工程而言,目前的证据强烈支持 Fable 5。

Claude Fable 5 和 Claude Mythos 5 有什么区别?

它们是相同的底层模型。Fable 5 增加了涵盖攻击性网络安全、生物学和蒸馏尝试的安全分类器,并向所有人开放。Mythos 5 解除了部分限制,仅限获批机构使用,初期主要是与美国政府合作执行“Project Glasswing”的网络防御者。

为什么模型有时会用 Opus 4.8 回答?

当安全分类器检测到受限类别的查询时,请求会由 Claude Opus 4.8 代为回答。在经历了关于“静默降级”的发布周反弹后,Anthropic 承诺会明确标注这些回退,当前数据显示触发率约为任务总量的 0.05%。

相比 Opus 4.8 的价格上涨值得吗?

对于智能体编码、复杂分析和长期自主任务,由于首次尝试成功率更高,即使每 Token 成本翻倍,Fable 5 在每个完成的任务上的成本可能反而更低。对于简单的高频工作,则不值得。请测量每个任务的完成成本,而不是每百万 Token 的成本。

总结

Claude Fable 5 是一次罕见的发布,基准测试数据与从业者反馈达成了高度一致:这是目前公众可用的最强模型,也是近记忆中单代代码能力提升幅度最大的一次。其安全回退架构确实具有创新性,发布初期确实存在失误,但也确实以大多数公司难以企及的速度进行了修复。

这篇 Claude Fable 5 测评的结论是:立即切换你最困难的智能体工作负载,保持现有的低成本管线不变,并将 Andon Labs 的发现视为一个提醒——没有一张基准测试表能说明全部真相。2026 年余下时间里有趣的问题不是竞争对手能否在能力上追赶上来,而是整个行业是否会接受 Anthropic 的双轨访问模式,还是会拒绝它。

最新模型

一个 API,畅享全模态 AI。

探索全部模型

Join our Discord community

Join the Discord community for the latest model updates, prompts, and support.