
MiniMax M3 现已发布,简单来说:如果你需要一个原生支持图像和视频输入、能够以低成本处理百万级 Token 上下文,且在进行长代码和智能体循环时不会重置的开源权重模型,那么请选择它。 这就是它的应用场景。如果你有需要在睡眠期间自主运行的智能体,我们建议你测试一下!M3 现已在 Atlas Cloud 上线。
即使你没有长期运行的智能体,M3 值得关注的原因在于 MiniMax 实现这一目标的路径。他们通过稀疏注意力架构(MiniMax Sparse Attention,简称 MSA)保持了 1M 上下文的经济性,在全上下文状态下,将每个 Token 的计算成本降至上一代产品的约 1/20。他们达成这一目标的方式是选择在现有服务架构上运行成本最低的路径,而不是追求最前沿的技术。我们预计这会成为每个主要供应商的默认方向:通过稀疏或压缩注意力机制实现廉价的长上下文。这会将 1M 上下文窗口从一种差异化优势变成标配,并将真正的竞争推向更高层面——即如何有效地在不同模型间进行路由,而不是押注于单一模型。
MiniMax 于 2026 年 6 月 1 日宣布推出 M3。API 现已可用,该公司表示将在公告发布后的 10 天左右公布技术报告和模型权重。
如果你目前正在使用其他前沿模型
当工作任务需要更大的工作集、视觉上下文或比你当前默认模型处理得更好的长智能体循环时,M3 就值得一试。最重要的一列是最后一列:M3 在你现有的模型基础上究竟增加了什么。
| 如果你当前使用 | 针对该任务 | M3 实际带来的提升 |
|---|---|---|
| GPT-5.5 或 GPT-5.5 Pro | 智能体编程、计算机使用、研究、数据分析和知识工作自动化 | 原生 视频 输入和宣布的 开源权重 路径——通过不同的成本曲线提供第二个智能体路由,以后可以自行托管。(GPT-5.5 已具备视觉识别,因此请测试视频能力和经济性,而非图像支持。) |
| Claude Opus 4.8 | 长期运行的编程智能体、检索密集型知识工作和工具使用 | 一个更低成本的 开源权重 替代方案,用于对比全仓库编程和单次任务完成成本。Opus 4.8 已提供 1M 上下文窗口和视觉功能,因此真正的测试点是 价格、视频输入和任务经济性,而不是窗口大小。 |
| Qwen3.7-Plus (多模态) | 视觉和 GUI 智能体、截图转代码、浏览器和桌面自动化 | 具有更强编程/智能体定位的同等多模态能力,以及 开源权重 路径。(Qwen3.7-Plus 是私有的,仅提供 API。) |
| Qwen3.7-Max (纯文本旗舰) | 文本推理、长跨度智能体、办公自动化 | 在同一上下文中支持 原生图像和视频输入。Qwen3.7-Max 仅支持文本,如果要使用视觉功能,通常需要切换到 Plus。 |
| DeepSeek-V4-Pro 或 DeepSeek-V4-Flash | 成本敏感型推理、编程、工具调用和长上下文 API 工作负载 | 在长上下文的基础上增加了 原生多模态(图像和视频)能力。DeepSeek-V4 仅支持文本,因此当工作负载带有视觉信号时,M3 是多模态替代方案。 |
实战测试很简单。如果你在尝试以下操作,请尝试 M3:
- 在一个工作上下文中保持仓库、任务历史、日志和当前计划
- 让智能体在经过数十次工具调用后继续工作,而不是重置对话
- 一次性推理代码、文本、截图、图表、PDF 和视频帧
- 减少文本模型、视觉模型和独立检索层之间的切换
- 比较完成单项任务的长上下文成本,而不仅仅是每百万 Token 的价格
不要因为发布图表看起来不错就进行切换。当 M3 能完成你当前的路由堆栈无法处理、截断、溢价过高或拆分到太多模型中执行的任务时,再进行切换。
M3 的优势所在
为智能体提供发挥空间。 MiniMax 的发布示例超越了传统的聊天演示模式。在一次测试中,M3 在运行近 12 小时后,重现了 ICLR 2025 一篇杰出论文的核心实验。它产生了 18 次提交和 23 个实验图表。在另一个案例中,它在 FP8 GEMM CUDA 内核上工作了约 24 小时,提交了 147 次基准测试并进行了 1,959 次工具调用,将硬件利用率从 7.6% 提升到了 71.3%。
不要将这些示例理解为“一天的智能体工作在你的第一次提示词下就能成功”。它们确实展示了为什么 M3 值得进入你的候选名单,尤其是在模型需要规划、运行工具、检查结果、修订并能在早期尝试失败后继续执行的工作流中。
仓库级和文档级上下文。 M3 通过 API 支持高达 1M 个 Token,MiniMax 将 512K 描述为保证的最小值。在 1M Token 上下文长度下,MiniMax 报告每个 Token 的计算成本仅为上一代的 1/20,预填充速度快 9 倍以上,解码速度快 15 倍以上。
这改变了产品设计。编程智能体可以看到更多的仓库内容;研究助手可以携带更长的证据链;合同审查工具可以将源材料和分析保持在同一个工作集中。检索依然有一席之地,但模型不再需要从问题的一小部分开始。
同一请求中的视觉上下文。 MiniMax 从一开始就使用多模态数据训练 M3。该模型接受图像和视频输入,MiniMax 表示它可以处理同一上下文中的交错文本、图像和视频。
这减少了模型之间的切换。支持工作流可以同时读取用户的消息并检查截图;研究工作流可以推理论文中的图表;计算机使用智能体可以在不将视觉步骤发送到独立模型的情况下,直接查看屏幕并决定下一步操作。
现已提供托管访问,权重即将推出。 MiniMax 将 M3 视为开源权重发布,但首个路径是托管 API 访问。这为团队提供了一个实用的顺序:现在测试托管模型,然后决定稍后的权重发布是否适合私有化部署、微调或内部评估。
清晰的定价边界。 MiniMax 表示 512K 及以下的 API 调用使用标准费率。更高的长上下文定价从 512K 以上开始,通常适用于团队运行全仓库、完整文档或长视频工作负载的情况。M3 还支持同价位的“思考”开关,因此团队可以为较难的智能体工作使用推理模式,为延迟敏感的完成任务使用更快的模式。
运营成本分析
Atlas Cloud 上的 MiniMax M3 定价为每百万输入 Token USD0.30,每百万输出 Token USD1.20。Claude Opus 4.7 为输入 USD5/M,输出 USD25/M;而 GPT-5.5 为输入 USD5/M,输出 USD30/M。
这使得 M3:
- 输入成本比 Opus 4.7 和 GPT-5.5 便宜 94%
- 输出成本比 Opus 4.7 便宜 95.2%
- 输出成本比 GPT-5.5 便宜 96%
Token 价格只有在映射到工作负载形态后才有意义。一个将大型仓库置于上下文中的编程智能体,其大部分资金用于输入。具有冗长解释的研究或起草工作流则在输出上花费更多。多模态 GUI 智能体还需要为视觉上下文付费,Token 转换取决于供应商。
请将下表视为费率参考,而非基准测试。它假设使用美元定价,无缓存命中,无批量折扣,无区域溢价,无工具调用费用,且无重试。对于 GPT-5.5,OpenAI 表示超过 272K 输入 Token 的提示词在完整会话中按 2 倍输入和 1.5 倍输出定价,因此长上下文示例使用了该更高的有效费率。
| 模型 | 使用费率 | 100K 输入 + 5K 输出 | 500K 输入 + 20K 输出 | 成本解读 |
|---|---|---|---|---|
| MiniMax M3 on Atlas Cloud | $0.30 / $1.20 | $0.04 | $0.17 | 低成本多模态路径。比 DeepSeek Flash 贵,但远低于封闭前沿模型定价。 |
| DeepSeek V4 Flash | $0.14 / $0.28 | $0.02 | $0.08 | 纯文本大批量工作的最便宜路径。当任务不涉及视觉输入时使用。 |
| DeepSeek V4 Pro | $0.435 / $0.87 | $0.05 | $0.23 | 在纯 Token 成本上接近 M3,但仅支持文本。在没有视觉上下文的推理和编程上对比更佳。 |
| Qwen3.7-Plus | 256K 以下 $0.40/$1.60;以上 $1.20/$4.80 | $0.05 | $0.70 | 短多模态调用的有力竞争者。256K 以上的长上下文定价改变了经济性。 |
| Qwen3.7-Max | $2.50 / $7.50 | $0.29 | $1.40 | 比 GPT 和 Claude 便宜,但除非在任务中获胜,否则不是批量默认选择。 |
| Claude Opus 4.8 | $5 / $25 | $0.63 | $3.00 | 高风险编程、工具使用和长上下文可靠性的高端路径。 |
| GPT-5.5 | 标准 $5 / $30;超过 272K 输入 $10 / $45 | $0.65 | $5.90 | 当模型的工具使用、计算机使用行为或 Token 效率弥补了溢价时使用。 |
| GPT-5.5 Pro | $30 / $180 | $3.90 | $18.60 | 留给最困难的工作。该费率使其属于不同的预算级别。 |
成本解读:M3 在列表中不是最便宜的文本模型。如果工作负载是纯文本、高容量且能容忍 Flash 功能层级,DeepSeek V4 Flash 仍然获胜。M3 的成本主张不同:它将原生图像和视频输入、长工作上下文和智能体编程置于一个接近 DeepSeek V4 Pro 且远低于 GPT-5.5、GPT-5.5 Pro 和 Claude Opus 4.8 的价格带中。
对于 500K 输入、20K 输出的智能体单次任务,M3 比 Claude Opus 4.8 便宜约 17 倍,在应用 OpenAI 的长上下文乘数后,比 GPT-5.5 便宜约 34 倍。在同样的请求规模下,它比 Qwen3.7-Plus 便宜约 4 倍,比 Qwen3.7-Max 便宜约 8 倍。与 DeepSeek 相比,答案取决于模态:DeepSeek V4 Flash 仍然更便宜,而 V4 Pro 则落在同一个大范围内。如果任务涉及截图、图表、UI 状态或视频帧,M3 可以避免额外的切换到独立视觉模型的步骤。
在月度规模上,差距更明显。一个包含 10M 输入 Token 和 1M 输出 Token 的工作负载在 M3 上约为 $4.20,DeepSeek V4 Flash 上为 $1.68,DeepSeek V4 Pro 为 $5.22,Claude Opus 4.8 为 $75,标准费率下的 GPT-5.5 为 $80,GPT-5.5 Pro 为 $480。Qwen3.7-Plus 的价格在 $5.60 到 $16.80 之间,取决于每个请求是否保持在其 256K 定价边界之内;Qwen3.7-Max 约为 $32.50。
我们的建议: 将昂贵的模型视为需要靠自身实力获胜的路由。如果 GPT-5.5 或 Opus 4.8 能一次性完成高难度任务,而 M3 需要三次重试和人工补丁,那么廉价调用其实并不廉价。如果任务是长上下文多模态分析、仓库级编程分类、带截图的支持工单自动化,或者 M3 在文档工作中能达到质量要求,那么其经济性使其成为一个严肃的路由候选者,而非发布周的昙花一现。
将基准测试视为供应商数据

MiniMax 报告在编程和智能体任务中得分强劲:
- SWE-Bench Pro:59.0%
- Terminal-Bench 2.1:66.0%
- SWE-fficiency:34.8%
- KernelBench Hard:28.8%
- MCP-Atlas(第三方 MCP 工具使用基准——与 Atlas Cloud 无关):74.2%
- BrowseComp:83.5,而 MiniMax 的对比显示 Claude Opus 4.7 为 79.3
关于最后一行的一点说明:MiniMax 将 M3 与 Opus 4.7 进行了基准测试,但 Opus 4.8 在 M3 发布前四天(5 月 28 日)就已经发布了。发布时的对比在第一天就已经落后了一个版本——这是一个小细节,但预示了下面更重要的观点。
在要求模型在 12 小时内对四个基础模型进行合成数据、训练、评估和迭代的 PostTrainBench 上,MiniMax 在发布帖子中称 M3 得分为 0.37,等同于其模型页面上显示的 37.1。这排在 0.42 的 Opus 4.7 和 0.39 的 GPT-5.5 之后,但领先于其他报告字段。
这些分数对于分流很有用。但它们不足以作为生产决策的依据。 MiniMax 在其基础设施上运行了许多测试,且一些评估使用了特定的脚手架。在团队将分数用于销售宣传或架构决策之前,应该对照自己的代码、文档、提示词、延迟目标和预算重新运行任务。
如何评估 M3 与当前前沿模型
将 M3 作为评估候选者,而不是默认选项。如果你用无关的文件、过时的日志或用户发送过的每一条信息填满 1M Token 的窗口,它可能会掩盖糟糕的架构。
对照 GPT-5.5、Claude Opus 4.8、Qwen3.7-Plus 或 Max、DeepSeek-V4-Pro 或 Flash 以及 M3 运行同一测试集。然后按任务对比结果,而不是按供应商声誉。
从六个测试开始:
- 全仓库编程: 给每个模型提供相同的问题、仓库切片、工具访问权限和超时时间。评估补丁质量、测试通过率、差异大小和不必要的编辑。
- 长上下文检索: 将相关细节放在上下文的开头、中间和结尾。添加类似的干扰项。检查每个模型检索的是正确实例,还是仅仅是匹配的短语。
- 工具循环耐力: 运行一个需要 30、60 和 100 次以上工具调用的任务。观察每个模型是否保持稳定的计划,是否重复自身,是否丢失了先前的约束条件,或在任务完成前停止。
- 视觉智能体工作: 给每个多模态模型提供一个带有截图的支持工单、一篇带有图表的论文或一份带有 UI 截图的产品规范。对于纯文本或视觉能力较弱的路径,测量切换到独立视觉模型的额外成本。
- 实际上下文下的延迟: 在 128K、512K 和 1M 输入 Token 下比较首字响应时间和总完成时间。不要在没有延迟数据的情况下接受 1M 窗口的说法。
- 单任务完成成本: 测量输入 Token、输出 Token、重试、工具调用、缓存命中、延迟和人工修正。如果需要三次重试,更廉价的模型调用成本可能反而更高。
这是大多数团队在模型问题上犯错的地方。他们问哪个模型的启动基准测试最好。生产环境的问题更狭窄:哪个模型能以你的产品所能承受的质量、延迟和成本完成这个工作流?
MSA 如何保持长上下文可用

M3 的上下文窗口依赖于 MiniMax 稀疏注意力(MSA)。
全注意力机制允许每个 Token 关注其他每个 Token。随着序列变长,计算工作量随序列长度的平方增长。稀疏注意力增加了选择步骤,然后在对前文最重要的部分上运行注意力。
MiniMax 表示 MSA 将 KV 缓存划分为块并进行块级选择。KV 缓存存储了早期 Token 的键值向量,它在长上下文推理中占据了很大一部分内存流量。MiniMax 还描述了一种名为“KV outer gather Q”的操作符设计:KV 块成为外部循环,命中块的查询被聚集到该块中,每个块只被读取一次,内存访问保持连续。
在 MiniMax 的发布帖子中,该设计的运行速度比 M3 头部配置下的开源 Flash-Sparse-Attention 和 flash-moba 快 4 倍以上。MiniMax 还表示,MSA 在绝大多数消融测试中达到了全注意力的水平。
这项工程主张至关重要,因为如果团队无法负担,1M Token 窗口毫无价值。MSA 是 MiniMax 能够论证长上下文是 M3 正常运行模式而非一次性演示模式的原因。这并非唯一:DeepSeek 的 V4 出于同样的原因采用了压缩稀疏注意力和深度压缩注意力的混合体。廉价的长上下文正在成为架构的默认配置。
更大的趋势:模型发布正在成为路由事件
M3 并非孤立的发布。它符合整个市场正在形成的模式。
最明显的趋势是时间表。在短短六周内,四款 1M 上下文模型发布:
- DeepSeek V4-Pro 和 V4-Flash — 4 月 24 日,开源权重,1M 上下文,思考/非思考模式
- Qwen3.7-Max — 5 月 20 日,纯文本推理旗舰,1M 上下文(多模态 Qwen3.7-Plus 在 6 月初跟进)
- Claude Opus 4.8 — 5 月 28 日,Opus 系列支持 1M 上下文窗口
- MiniMax M3 — 6 月 1 日,1M 上下文加上原生多模态和开源权重路径
在短短一个季度内,百万 Token 窗口已从差异化优势变为标配。稀疏注意力、思考开关、智能体基准测试和分层长上下文定价也是如此。预计模型页面将继续向相同的核心功能汇聚。
发布节奏也超过了营销速度。MiniMax 的 M3 发布基准测试是对比 Opus 4.7,但 Opus 4.8 在四天前就发布了。你上周对比的模型不是你竞争对手这周运行的模型。这就是路由事件世界的缩影。
这并没有使 M3 变得不重要,但它改变了开发者应该优化的方向。
模型优势的衰减速度比其周边的集成工作更快。如果团队将一家供应商硬编码到其智能体栈中,每次重大发布都会变成一个迁移项目。如果团队按任务、价格、延迟、模态和评估结果进行路由,每次重大发布都会变成一次路由更新。
赢家不是那个选择一个模型并坚持一年的人。赢家是那个今天能测试 M3,明天能将其与 GPT-5.5、Claude Opus 4.8、Qwen3.7 和 DeepSeek-V4 进行对比,并在数据建议时转移流量的人。
其他供应商可以复制什么,以及他们不能复制什么
供应商可以先复制表层区域:
- 更长的上下文窗口
- 稀疏注意力变体
- 思考模式开/关
- 编程智能体基准测试页面
- 多模态发布演示
- 开源权重或类开源权重信息
较难的部分需要更长时间:
- 真实并发下的稳定长上下文服务
- 上下文深处的质量,尤其是存在干扰项时
- 多次工具调用后的智能体可靠性
- 跨文本、图像、图表和视频的多模态对齐
- 当客户使用整个窗口时依然能够成立的定价
- 生产团队可以信任的清晰模型 ID、版本控制和回退机制
这个差距就是团队应该花费评估时间的地方。不要只问其他供应商是否能宣传 1M 窗口。要问模型是否还能遵循埋在第 75 万个 Token 处的指令,是否能在不产生偏差的情况下对比两张相似的截图,延迟是否保持在可接受范围内,以及经济性是否能在真实用户流量下存活。
为什么通过 Atlas Cloud 运行它
Atlas Cloud 为跨 LLM、图像、视频和音频工作负载的 300 多个模型提供了一个 API 密钥。随着模型发布向相同的核心功能汇聚,这一点变得更加重要。
你可以根据现有栈中的模型测试 M3,将流量路由到表现良好的地方,并在新发布落地时保持集成层面的稳定。你可以在 GPT-5.5 在计算机使用任务上获胜时保持使用它,在 Claude Opus 4.8 在长期运行的编程智能体上获胜时继续使用,在多模态 GUI 智能体优胜时使用 Qwen3.7-Plus,在价格/性能优胜时使用 DeepSeek-V4,并添加 M3 以实现长上下文加原生多模态改变结果的场景。
在长上下文和多模态能带来回报的地方使用 M3。在其他模型表现更好的地方保留它们。基于评估进行切换,而不是基于发布周的炒作。
[CTA - 开发者意图:在 Atlas Cloud 上运行 M3 -> atlascloud.ai/models | 获取 API 密钥 -> console.atlascloud.ai]






