5月26日,MiniMax 研发负责人 Skyler Miao 在 X 上发布了一张图表——调色简洁,但信息量极大。标题为 MiniMax Sparse Attention,右侧两条曲线给出了令人瞩目的一组数据:在 1M 上下文长度下,预填充(prefill)速度提升 9.7 倍,解码(decode)速度提升 15.6 倍。
社区几乎一致将其解读为 M3 的预告。但其意义远不止于“又一个长上下文模型”。
去年 10 月,MiniMax 发布了一篇题为《为什么 M2 最终选择了全注意力机制(Full Attention)?》的博客。文中直言不讳:M2 没有继承 M1 的 Lightning Attention,因为“高效注意力机制尚未达到生产就绪状态”。六个月后,M3 浮出水面,其潜台词显而易见——这一次,它成熟了。
那么,“这一次”的成熟形态究竟如何?本文将解读该图表,并将其与 DeepSeek 提出的三条技术路线(NSA、DSA、CSA)进行对比,以推断 MiniMax 选择的技术路径。

1. 图表展示的实质:分两阶段,先筛选再计算
该图本质上是一个注意力块内部的逻辑展开。它所做的改进——也是最值得关注的亮点——是将“决定关注哪些 KV”和“如何计算注意力”这两个步骤清晰地拆分开了。
步骤 1:索引分支(Index Branch)——低成本扫描
上半部分是索引分支,它与主路径并行运行,任务只有一个:告诉下游应该关注哪些数据块。
每个 GQA 组共享一个索引查询(图中显示 6 个真实头配对 2 个 Idx Q,每个 GQA 组对应一个)。索引分支的 KV 维度经过了刻意缩减:

注意 K_idx 只有一个头——所有头共享同一个索引 Key。因此,Q_idx · K_idxᵀ 的计算成本几乎为零。
接着,Block Max Pool(块最大池化)将 Token 级别的分数压缩为块级别的分数:

最后,通过 TopK 决定为当前层和当前 GQA 组保留哪些 KV 块,结果即为 I₁, I₂。
步骤 2:稀疏分支(Sparse Branch)——实际的注意力计算
下半部分是真正的注意力计算区。Q ∈ ℝ^{n×H×d},K, V ∈ ℝ^{n×h×d},依然采用标准的 GQA 形式。使用步骤 1 得到的 I₁, I₂ 作为索引,从原始 K/V 中取出对应的块子集并执行计算:

一个关键设计选择: 同一 GQA 组内的查询头共享同一个 Top-K 选择结果。图中,Q1/Q2/Q3 都使用 I₁,Q4/Q5/Q6 都使用 I₂。这是 NSA 论文所强调的硬件对齐原则——一组查询加载一组 KV 块,能够一次性载入 SRAM,且可以直接沿用 FlashAttention 风格的核函数。
2. 相较于 DeepSeek 系列的三个刻意“减法”
社区立即将此设计与 DeepSeek 的 NSA、DSA、CSA 进行了对比。@eliebakouch 的总结非常精辟:“GQA 而非 MLA,块级选择类似 CSA,但注意力在真实的 K/V 上计算。” 整理成表格如下:
| 维度 | DeepSeek V3.2 DSA | DeepSeek NSA | DeepSeek V4 CSA | MiniMax M3 (推测) |
|---|---|---|---|---|
| KV 底层 | MLA (隐向量) | GQA | MLA | GQA |
| 选择粒度 | Token 级 | 块级 | 块级 | 块级 |
| 并行分支 | 1 (索引 + 选择) | 3 (压缩 + 选择 + 滑窗) | 1 | 1 (仅选择) |
| 注意力计算位置 | 真实 K/V | 三路融合 | 压缩后的 KV | 真实 K/V |
| 索引器成本 | Lightning 索引器 | 压缩分支 | 块摘要 | 单头 K + 块最大池化 |
| 门控机制 | 无 | 学习型门控 | 无 | 无 |
由此可见三个权衡取舍:
第一,以 GQA 为底层,而非 MLA。 这意味着 vLLM、SGLang 和 FlashAttention 的核函数可以几乎零修改地重复使用,无需为应对 MLA 的隐式 KV 进行复杂的工程改造。对于追求“生产就绪”的实验室来说,这是风险最低的路径。
第二,块级选择,但在真实 K/V 上计算注意力。 与在压缩后的 KV 上计算注意力的 CSA 不同,M3 保留了 Softmax 注意力的全部表达能力。代价是 KV Cache 无法随注意力稀疏化而缩小,但用 Token 经济性换取模型质量是一个理性的交易。
第三,砍掉了 NSA 的其余两个分支。 NSA 原本有三条并行路径(压缩 + 选择 + 滑动窗口)外加一个学习型门控。M3 只保留了选择分支。正如 @teortaxesTex 所述,这是“精简版 NSA”,用一句话概括:工程先行。
在被砍掉的两个分支中,滑动窗口很可能被 RoPE + 注意力汇聚(Attention Sink)取代,或者简单地作为每层的全注意力回退(Gemma 3 和 Qwen3-Next 均采用此法)。压缩分支则被吸收进了极简的“单头 K + 块最大池化”中。
3. 如何解读数据
| 阶段 | 1M 上下文加速比 | 含义 |
|---|---|---|
| 预填充 | 9.7× | 一次性处理 100 万 Token 输入 |
| 解码 | 15.6× | 逐 Token 生成 |
解码速度提升超过预填充是合理的。在预填充期间,索引分支仍需扫描全部长度,因此节省的仅是主注意力开销。在解码期间,每个查询仅与选定的 KV 块交互,KV Cache 的内存带宽压力降低了一个数量级。
推算选择比例:假设块大小为 64,则 1M Token 对应约 1.6 万个块。15.6 倍的解码加速意味着每个查询实际触及的块仅占约 6%–7%,有效感受野约为 6 万–7 万 Token。这一比例与 NSA 论文报告的稀疏率(6%–10%)几乎完全吻合——这并非巧合,而是此类设计在 1M 规模下的最佳平衡点。
4. 对 M3 其余部分的推测
从这个注意力块推演整个模型:
MoE 主干架构大概率保留。 M2 的规格是 230B 总参数 / 约 10B 激活 / Top-2 路由 / 隐藏层维度 4096;M2.7 已将专家数量提升至 256。M3 没有理由放弃这一点,最可能的变动是向更深、更宽的方向发展。
全注意力栈被块稀疏 GQA 取代。 M1 的 Lightning Attention 不太可能回归——M3 不再押注线性注意力,而是选择了“Softmax 表达能力 + Top-K 块选择”路线,在保持质量的同时实现次二次方复杂度。
极有可能是原生训练的稀疏化。 这是 NSA 论文的核心信息——稀疏模式必须在预训练过程中进入梯度计算,否则检索头会乱码。MiniMax 在检索头方面有自己的研究积累,因此不会掉入这个陷阱。
战场在于 1M+ 上下文。 M1 训练于 1M 并可在推理时外推至 4M;M3 正在锁定这一规格并大幅降低推理成本——这是非常自然的产品迭代节奏。
5. M3 在 2026 技术图谱中的定位
在 2025–2026 年间,稀疏注意力设计呈现出快速分化的态势:
- DeepSeek V3.2 DSA: MLA + Token 级 Top-K,极其轻量的索引器,质量最稳,但核函数工程极其复杂。
- DeepSeek NSA: GQA,三分支 + 门控,质量上限最高,但实现复杂。
- Qwen3-Next: 层间混合,全注意力/线性注意力交替,稳健但相对保守。
- MiniMax M3: GQA + 单分支块选择,极简设计,利用硬件协同效应。
M3 设计的潜台词不言而喻——“不要追求理论上的最优注意力,而要追求能立即运行、运行速度快且能复用现有核函数的注意力。” 这与他们在 M2 中回退到全注意力机制的决定一脉相承:先通过主流方法稳定质量,待技术真正成熟后再干净利落地进行替换。
结语
单靠一张图表无法确认更多细节:稀疏模式是否在各层间混合、是否存在全注意力回退机制、索引分支是否与主网络共享 Embedding、训练时的 Top-K 是硬选择还是软选择、索引分支的损失函数如何构建……这一切都需等待官方论文或权重发布。
但有一点已经尘埃落定:继 DeepSeek 之后,又一家中国实验室整合出了“稀疏注意力 + 长上下文 + 开放权重”的可行方案。2026 年下半年,开源领域 1M 上下文很可能将从一个卖点转变为基准线——而这一点本身,比任何单一评测分数都重要。
参考文献
- Skyler Miao (MiniMax R&D lead), original tweet: Something BIG is coming
- Community roundup: MiniMax details its M3 sparse attention architecture
- MiniMax blog: Why Did M2 End Up as a Full Attention Model?
- DeepSeek NSA paper: Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention
- DeepSeek V3.2 DSA write-up: Architectural Efficiency in LLMs: DeepSeek-V3.2-Exp and DSA
- Sebastian Raschka: A Technical Tour of the DeepSeek Models from V3 to V3.2
- MiniMax-01 tech report: Scaling Foundation Models with Lightning Attention







