我们用 10 个真实 Bug 和 15 道 AIME 数学题测试了 Qwen3.7-Plus,它在这两项测试中的表现均超越了旗舰模型。

我们在真实代码缺陷、AIME 2025 数学竞赛以及视觉任务上,对 Qwen3.7-Plus 和 Qwen3.7-Max 进行了对比测试。Plus 在 10 个缺陷修复任务中全部成功(10/10),在数学任务上与 Max 持平,且运行速度提升了 3 倍。完整数据如下。

摘要

2026 年 5 月中旬,Qwen3.7-Max 和 Qwen3.7-Plus 在 LM Arena 悄然上线。@Alibaba_Qwen 以“阿里文本排名第 6,视觉排名第 5”的评价设定了社区预期。6 月 2 日,阿里云通义千问团队正式发布了这款多模态智能体模型。目前该模型已在阿里云百炼(Model Studio)和 Qwen Chat 上线,API 访问地址为 alibaba/qwen3.7-plus,定价约为每百万输入/输出 token USD0.40 / USD1.60

官方定位十分明确:Plus 是高性价比的多模态模型;Max 是文本旗舰模型。

我们花了一个下午的时间对 Qwen3.6-plus、Qwen3.7-plus 和 Qwen3.7-

text
1Max
进行了硬核测试:自动修复 10 个真实 Bug15 道 AIME 2025 数学竞赛题,并对比了多模态能力、速度和成本。

以下结论基于 5 个任务层面的观察,而非通用的模型排名:

  1. BugFind-10 单次运行:Plus 通过了所有外部 pytest 检查。在该包含 10 个任务的套件、官方 Stirrup 框架及单次运行设置下,Plus 得分为 10/10,而 Max 和 3.6-Plus 得分为 9/10。这表明该模型在当前设置下表现良好,不应盲目推导为通用的编码排名。
  2. 数学能力:开启思考模式(Thinking)后,Plus 的单次运行得分与 Max 持平。在 15 道竞赛级数学题中,Plus 和 Max 均答对 14 道;在此次运行中,Qwen3.7-plus 的单题耗时远低于 Qwen3.7-Max(平均 113 秒 vs 303 秒)。
  3. 速度实现代际跨越:在智能体任务中,Qwen3.7-plus 的端到端吞吐量达到 147.5 t/s,而 Qwen3.6-plus 仅为 41.5 t/s,提升了 3.55 倍。上一代无法完成的数学任务现在变得轻松可解。
  4. 多模态仍有缺陷:在对照多模态测试中,Qwen3.7-plus 正确回答了简单图片问题,但对官方示例图片 dog_and_girl.jpeg 的描述却出现了“一列火车和一群人”的错误。
  5. 部分能力接近 Max,且具备延迟优势:在本次的多项测试中,Qwen3.7-plus 取得了接近 Qwen3.7-Max 的结果,同时延迟更低。这并非通用的排名结论。

以下是完整的测试数据、方法论以及给工程负责人的模型选型建议。所有比较均限于此小样本、单次运行及固定框架环境。

0. 模型能力与排行榜背景

阿里云 Qwen 的产品线在 3.6 代时已形成模式:Max = 文本旗舰,Plus = 多模态长上下文模型。3.7 版本延续了这一逻辑:

维度Qwen3.7-MaxQwen3.7-Plus
输入模态以文本为主文本 + 图像
典型卖点推理上限、长距离智能体1M 上下文、视觉、混合思维、更低单价
Arena (2026-05)文本排行榜约第 13 名视觉排行榜约第 16 名
网关价格 (06-01)每百万 USD1.25 / USD3.75每百万 USD0.40 / USD1.60

1. 官方如何定位 Plus?

阿里云 Qwen 的发布推文 将信息浓缩为一句话:

“一个模型。能看、能想、能写代码、能执行。”

其核心卖点是:结合 GUI 和 CLI 操作的统一多模态交互混合智能体、通用编码智能体,以及跨智能体框架的泛化能力。Qwen 核心开发人员 shuai bai_ 进一步解释道:

我们的目标是将多模态 AI 从被动的图像描述转向主动的问题解决者:它能观察、推理、编写代码、操作界面并验证结果。这是迈向真正具有智能体特性的多模态智能的一步。

官方帖子的性能数据给出了关键定位:

  • 文本性能“接近 Max 水平”(厂商说法)
  • 多模态改进侧重于核心智能体能力:复杂的视觉理解、视觉推理、工具使用以及代码/GUI 执行
X 平台常见观点来源我们的结果结论
Plus 文本“接近 Max”官方开启思考模式的 AIME:得分相同 14/15;Plus 快 2.68 倍数学单次运行分数相同;在此次运行中延迟更低
Max 更适合编码/长程工作Vercel 文档BugFind:Plus 10/10,Max 9/10;Plus 147.5 t/s该任务不支持盲目套用该假设
视觉排行榜表现强劲Arena官方示例图片失败;对照图片测试 ✓高排名与单张图片失败可以并存

2. 我们的评估方法:四类任务与一条铁律

为保持测试公正,我们维护了一个名为 BugFind-10 的套件:涵盖价格计算、数组边界、路径处理、并发、JSON、SQL、缓存行为、Unicode、配置等 10 个真实 Bug。每个 Bug 均配有 pytest 测试。模型必须在官方 Stirrup 智能体框架内运行,利用本地代码执行工具自主完成全流程:“复现 → 定位 → 修改生产代码 → 运行测试”。

为什么要建立自己的测试套件?

公共排行榜通常存在三个缺陷:

  1. 记忆与泄露:旗舰模型在旧问题上已经饱和。我们选择了 AIME 2025,该竞赛发布于模型可能的训练截止日期之后。
  2. 厂商自测可能与独立复测存在偏差:同一指标会随数据集版本、是否开启思维模式及是否允许使用工具而大幅波动。
  3. 智能体基准测试依赖于脚手架:不同的智能体框架可能导致得分偏离 2-3 个百分点。我们将框架固定为官方 Stirrup 并增加了外部验证。

四大测试任务

任务衡量内容核心指标
Gate check身份确认、思维支持、视觉能力通过 / 失败
BugFind-1010 个真实代码 Bug 的自动修复外部 pytest 通过率、模型调用次数、墙上时间
AIME 2025 I15 道竞赛数学题准确率、单题耗时、思维消融实验
Quick Eval8 道小学数学应用题速度基准、首字延迟(TTFT)、简单任务的思维收益

我们的铁律:代码得分仅以外部 Pytest 为准

这是本次测评的基础。它直接回应了 Hacker News 的担忧:智能体自称“测试通过”是不够的。

流程:

  1. 智能体在工作区修改代码、自行运行 pytest 并编写 CHANGELOG。
  2. 我们将修改后的生产代码复制到隔离环境中,独立运行 pytest。
  3. 我们仅发布第 2 步的退出代码和失败堆栈。

类比:智能体是考生。我们不仅要看它交上来的答案,还要把答案拿进另一个房间重新批改,而不是盲目信任它的自测结果。

3. 代码与智能体能力

三个模型的对比概览

模型pytest 结果修复率LLM 调用次数墙上时间端到端 t/s
Qwen3.6-Plus1 失败,26 通过9/1063334s41.5
Qwen3.7-Plus27 通过10/1052205s147.5
Qwen3.7-Max1 失败,26 通过9/1020249s51.8

Plus 获得更好的单次运行 BugFind 结果出乎意料:

  1. Plus 是本次测试中唯一获得 10/10 的模型。
  2. Max 使用了最少的调用次数,但未获得满分。 3.7-Max 在 20 次模型调用后即停止,是三者中最少的。它倾向于“长时间思考并进行一次大规模修改”,迭代次数较少。相比之下,3.7-Plus 使用了 52 次调用,愿意不断进行编辑、运行、检查反馈并再次编辑。
  3. Plus 的墙上时间最短且吞吐量最高。 对于 IDE 智能体体验而言,这比排行榜上的几个 Elo 点数重要得多。

一个任务,三种修复哲学:task05 深入剖析

此任务测试的是:无效 JSON 不能被静默吞掉。当解析发现错误数据时,不能伪装成功并返回空对象,而必须清晰报错。原始 Bug:

plaintext
1def safe_parse(data: str):
2    try:
3        return json.loads(data)
4    except Exception:
5        return {}   # Bug: 吞掉了异常

测试要求:

  • 对于输入如 "this is not json {",函数不得返回空字典 {}。
  • 对于没有大括号的无效输入,如 "bad",必须抛出异常。

Max 的做法(外部测试 ✗):抛出自定义 JSONParseError。

这看起来是一个干净的解决方案,但对于 "this is not json {",它立即抛出异常,导致测试在第一个断言运行前就失败了。然而 Max 的 CHANGELOG 却自信地写道“27 个测试通过”。这正是外部验证强制执行的原因:智能体的自我评估与外部审计往往大相径庭

3.6-Plus(外部 ✗):在相同的第一个障碍上失败。

3.7-Plus(外部 ✓):

plaintext
1if re.search(r'[\{\[\]\}]', data):
2    return {"error": str(e), "raw": data}
3raise ValueError(f"Invalid JSON: {e}") from e

对于包含大括号的畸形输入,它返回一个与

text
1{}
可区分的错误对象。对于根本没有大括号的输入,它会抛出异常。它精准地满足了测试合同的两端。

为什么 Max 在此任务上没能拿到满分?从调用次数来看:

calls_vs_rate.png

3.7-Max 在 20 次调用后停止。它倾向于“长时间思考并进行一次大幅修改”,迭代较少。3.7-Plus 使用了 52 次调用,并愿意反复迭代。在需要与环境反复交互的智能体编码任务中,更多次的迭代有助于覆盖边缘情况。这指出了一个常被忽略的事实:在智能体任务中,“深度推理”并不等同于更稳定的产出。善用工具反馈同样重要。

在修复质量方面,三个模型在 task03 上都表现不错。该任务直接将 user_id 连接到文件路径中,因此 ".." 可能导致路径遍历,而 "user;rm -rf" 可能携带 Shell 元字符。修复增加了白名单过滤,识别出了真实的安全性缺陷,而不是为了测试通过而盲目补丁:

plaintext
1user_id = re.sub(r'[^a-zA-Z0-9_-]', '', user_id) or "unknown"

工程启示

  • 对于智能体任务,与环境博弈的意愿(Plus 进行了 52 次对话和 98 次代码执行)比最小化迭代更重要。
  • Max 在 20 次转折后停止,过早地认为 task05 已解决。
  • 在交互式 Bug 修复中,干净的“抛出异常”并不总是比返回可区分的错误数据更有用。

4. 推理与数学:思维模式是一个成本决策

Qwen3.7 系列强调“混合思维”,通过

text
1enable_thinking
开关控制。该开关值得开启吗?我们针对两个难度截然不同的任务组进行了消融实验。硬核组是 AIME 2025 I,这是一项发布于模型可能训练截止日期后的竞赛。我们通过 AoPS 和 Areteem 两个独立来源核对每个问题和答案,然后自动评分。

token consumption comparison.png

模型 / 模式准确率平均单题耗时输出 Token
3.7-Plus · 关闭思维12/15 (80%)24.7s76,502
3.7-Plus · 开启思维14/15 (93.3%)113.4s353,424
3.7-Max · 开启思维14/15 (93.3%)303.1s307,801
3.6-Plus · 思维模式前 6 题:6/6464s25.7K/题

成本对比:

配置正确数准确率平均单题耗时总输出 Token平均 tps预估成本
Plus 关闭思维12/1580.0%24.7s76,502204.0USD0.15
Plus 开启思维14/1593.3%113.4s353,424205.4USD0.69
Max 开启思维14/1593.3%303.1s307,80168.3USD0.60

注:预估定价依据 3.6-Plus 每百万 USD0.325/USD1.95 计算。官方网关价格 USD0.40/USD1.60 更接近生产环境定价。

思维开关的边际收益

开启推理模式后,Plus 在 AIME 单次运行中达到了与 Max 相同的分数。 3.7-Plus 和 3.7-Max 均答对 14/15,但 Plus 的单题耗时为 113 秒,而 Max 为 303 秒。在此次运行中,Max 更长的延迟并未带来更高的分数。

8 道小学数学应用题中,两种模式均达到了 100% 正确率。开启思维仅增加了 24% 的 Token 消耗。综合来看结论清晰:

简单任务关闭思维模式以节省成本;困难任务开启思维模式以获取准确性。 全局开启推理意味着在简单请求上持续支付 4 倍以上的费用,且准确率毫无提升。该开关的价值在于支持根据任务难度动态路由。

Max vs Plus:此次运行的延迟来源

Max 也答对了 14/15,且也未答对 I-14(预测 69,正确答案 60)。相同的测试,相同的错题,相同的失败模式,而非“Max 更聪明并答对了另一道难题”。Max 确实答对了 I-15,而 Plus 漏掉了,因此在极难问题上存在方差,单次运行不能断言模型全局更强。

但速度差距显著。在问题 I-2 上,Max 耗时 261 秒;Plus 仅耗时 108 秒。在整个测试集中,Max 的平均速度为 68.3 tps,而 Plus 为 205.4 tps,约快 3 倍

结论:开启思维模式后,Plus 在此竞赛数学集上的得分与 Max 持平,且在延迟和成本上具有明显优势。对于实时交互场景,这种差异至关重要。

简单任务控制

我们使用 8 道小学数学应用题作为简单负载测试:

模式准确率平均耗时总输出 Token
关闭思维8/82.17s2,314
开启思维8/82.48s2,881

开启思维消耗了 24% 的额外 Token,但准确率没有提升。难度是决定是否开启思维模式的唯一合理标准。

5. 速度、代际差异及我们被迫终止的一项任务

the speed of qwen model

智能体吞吐量对比

从 BugFind runner_summary.json 提取的真实端到端速度:

  • 3.7-Plus: 147.5 t/s (52 次调用, 204.8s)
  • 3.7-Max: 51.8 t/s (20 次调用, 249.0s)
  • 3.6-Plus: 41.5 t/s (63 次调用, 334.5s)

代际提升(3.6 → 3.7 Plus)约为 3.55 倍。同代 Plus 与 Max 相比约为 2.85 倍

代际差距最典型的例子来自 3.6-Plus 的数学运算。我们本想加入它的 AIME 结果,但它太慢导致无法完成:推理过程在每个问题上都达到了上限,单题输出达到 16K-52K Token,每题耗时 297-932 秒。仅前 6 道题就耗时 46 分钟。在任何合理的时间预算内完成 15 题测试都是不可行的,因此我们终止了该进程。

我们尝试通过将 max_tokens 从 16000 降至 4096 来“限时”。结果失败了。 这是一个值得记录的工程陷阱:

  1. 在思维模式下,推理 Token 不受 max_tokens 限制;模型仍可能输出数万个推理 Token。
  2. 请求超时设置也不够。OpenAI/httpx 的超时是数据流之间的“读取超时”。只要流式响应持续输出 Token,该超时永远不会触发。

两种超时路径都被堵死,我们强制终止了进程并记录了已完成的前 6 题:6/6 正确。这意味着 3.6-Plus 的数学能力本身没问题,但**“能解决”与“在用户能忍受的时间内解决”是两个不同的主张**。对于必须响应用户的生产模型,后者往往更重要。这正是排行榜经常隐藏但用户体验会暴露的维度。

给工程团队的建议:对于思维模型,传统的超时和 max_tokens 策略可能会失效。你需要设定总 Token 预算、总墙上时间上限或推理 Token 上限

6. 核心发现四:多模态 - 对照图片通过,官方样本失败

测试样本输入模型输出判断
对照图片红/蓝色块 PNG (本地)"blue, orange"✓ 正确
官方样本dog_and_girl.jpeg (OSS)"a group of people standing beside a train..."✗ 完全错误

Arena Vision 视觉榜单将 Plus 排在第 16 名左右(预览版)。该基准测试衡量的是人类偏好下的图文对话能力。我们的测试表明,高排行榜分数与单张图片失败可以并存

模型选型建议:我们未运行 MMMU 或 ChartQA 等标准化视觉基准,因此不对 Plus 的视觉是否达到生产级水平发表广泛主张。但发现很明确:运行自己业务领域(OCR、图表、UI 截图、收据)的 20-50 张图片,比阅读排行榜可靠得多。

一些 Hacker News 用户也测试了该模型,认为“Qwen 视觉强于 Gemma”。用户反馈并不矛盾,因为他们执行的是私有任务。官方示例图片失败提醒我们,私有场景的成功与官方示例的失败可以共存。模型选择必须由你自己的数据驱动。

7. 成本:本轮测试的耗费

本文本身就是一个成本样本。在四类任务上运行三个模型后,真实的 Qwen API 用量约为 200 万 Token(已停止的 3.6-Plus 部分未完全计算),预估成本约为 USD2-3

本轮测试账单

项目Token 规模预估成本
AIME Plus 开启353K 输出~USD0.69
AIME Plus 关闭76K 输出~USD0.15
AIME Max 开启308K 输出~USD0.60
BugFind × 三个模型非常高的累计输入计入总额
总计~200 万USD2-3

洞察 1:严肃的评估成本约等于一顿饭钱。团队应该把钱花在重跑自己的任务上,而不是花在营销软文上。

洞察 2:智能体成本主要不在于单价,而在于轮次 × 每轮历史长度。BugFind 每个模型使用了 52-63 次调用,单轮输入可超过 11K Token。优化应针对历史压缩、子智能体拆解和缓存,而非仅仅寻找更便宜的模型定价。

思维模式的边际成本(以 AIME I 为例)

  • 关闭思维:USD0.15 / 15 题 ≈ USD0.01/题
  • 开启思维:USD0.69 / 15 题 ≈ USD0.046/题

两个额外的正确答案(I-9 和 I-14)成本为 +USD0.54。如果你的业务每天运行 1 万个中等难度问题,差距很容易达到每天数千美元路由策略(初始不使用思维,当置信度低时再开启)在生产中是强制性的。

网关价格对比 (2026-06-01)

模型输入 / 输出每百万价格
qwen3.7-plusUSD0.40 / USD1.60
qwen3.7-maxUSD1.25 / USD3.75

Max 比 Plus 贵约 3 倍(输出端约 2.3 倍),而本次运行显示其 AIME 得分相同,BugFind 得分低一分。时间成本通常比 Token 成本更贵:工程师等待时间和占用的智能体槽位也是金钱。

8. 给开发者的模型选型建议

场景建议
构建智能体 / 编码 / Bug 修复3.7-Plus 加入候选集。此次单次运行表现为 10/10,具有高吞吐量和更多迭代;将 Max 作为文本旗舰/高难度任务的备选,不要仅凭旗舰标签选型。
中等难度推理或数学,且对延迟敏感3.7-Plus 开启思维模式。在此次运行中,它以更低的延迟匹配了 Max 的准确性。
简单的问答 / 分类 / 提取3.7-Plus 关闭思维模式。节省额外的推理成本。
仍在运行 3.6-Plus升级。核心的代际差距在于速度,3.5 倍的吞吐量足以改变用户体验。

9. 局限性与披露

本文是一个下午的深度快照,而非学术论文。以下局限性非常重要:

  1. 单次运行:BugFind 和 AIME 均未使用 pass@k。像 task05 和 I-15 这种高方差情况需要反复验证。
  2. 无外部竞争对手比较:未测试 Claude、GPT、Gemini 和 DeepSeek。本文仅描述 Qwen 家族内部差异。
  3. 3.6-Plus 仅完成了 6 道 AIME 题:其准确率无法直接与 Plus/Max 的 15 题运行结果比较。
  4. 定价使用预估值:请查看最新的网关价格以获取官方数字;DashScope 国内定价可能有独立折扣。
  5. 仅使用了一个智能体框架 (Stirrup):切换到 SWE-agent 可能会改变排名。
  6. 多模态样本量为 n=2:不能代表广泛的视觉能力。
  7. 测试模型为邀请内测版:官方 SKU 行为可能存在细微差异。
  8. X 数据为单日快照:反映了写作时的社区情绪,发布后可能发生变化。

最终结语

2026 年 6 月的官方叙事中,Qwen3.7-Plus 是视觉排行榜上的中国旗舰梯队,是网关上的高性价比选择,也是社区评价中迭代速度快得惊人的 Qwen 家族新成员。

我们可复现的下午时空里,它是:

  • 唯一在此次真实代码 Bug 修复运行中获得 10/10 的模型
  • 在开启思维模式的竞赛数学运行中,以更低延迟达到与 Max 相同分数的模型
  • 相比上一代实现 3.55 倍吞吐量提升的模型,让“无法完成”成为过去式。
  • 在官方示例图片上依然幻觉,但在我们的对照图片测试中通过的模型,提醒你不要只通过一张截图选择视觉模型。

这些结论均限于本次小样本、单次运行及固定框架。它们支持将 Plus 纳入工程默认候选集;但不支持通用模型排名。

对于工程师而言,官方叙事负责愿景;outputs/ 目录负责证据。如果你正在进行生产环境的模型选择,请结合配套的数据可视化版本(13_Qwen3.7-Plus_Eval.html)阅读此测评:优先相信数据,再阅读我们为何愿意将其称为“评估”而非转发。

在 2026 年的 AI 模型洪流中,只有可复现的审计级证据才是技术决策的硬通货。

最新模型

一个 API,畅享全模态 AI。

探索全部模型

Join our Discord community

Join the Discord community for the latest model updates, prompts, and support.