MiniMax 走向稀疏化：从一张图解码 M3 的注意力机制

5 月 26 日，MiniMax 研发负责人 Skyler Miao 在 X 上发布了一张图表——配色克制，但信息量极大。标题为《MiniMax Sparse Attention》，右侧的两条曲线给出了一组引人注目的数据：在 1M token 下，预填充（prefill）速度提升 9.7 倍，解码（decode）速度提升 15.6 倍。

社区几乎一致认为这是 M3 的预告。但其意义远不止于“又一个长上下文模型”那么简单。

去年 10 月，MiniMax 发布了一篇名为《为什么 M2 最终成了全注意力模型？》的博客文章。文中直言不讳：M2 没有继承 M1 的 Lightning Attention，是因为“高效注意力机制当时还未达到生产就绪状态”。六个月后，M3 浮出水面，潜台词只有一句话——这一次，它准备好了。

那么“这一次”究竟是什么样子？本文将剖析这张图表，并将其与 DeepSeek 布局的三条路线（NSA、DSA 和 CSA）进行对比，找出 MiniMax 的选择。

Figure 1 · 原图的精确重绘：外层基于 GQA 的注意力模块包含步骤 1 和步骤 2；紫色路径汇聚于最终的稀疏注意力输出。

1. 图表揭示的本质：两阶段处理，先选择后计算

这张图表实际上展示了一个注意力模块的内部拆解。它所做的改进——也是值得关注的核心——是将“关注哪些 KV”与“如何计算注意力”明确拆分为两个步骤。

步骤 1：索引分支（Index Branch）——以低成本评分一切

上半部分是索引分支。它独立于主路径运行，任务只有一个：告诉下游该关注哪些区块（block）。

每个 GQA 组共享一个索引查询（图中为 6 个真实头配对 2 个 Idx Q，每个 GQA 组一个）。索引分支的 KV 端在维度上被刻意缩减：

请注意，K_idx 只有一个头——所有头共享相同的索引键。因此，计算 Q_idx · K_idxᵀ 的成本几乎可以忽略不计。

随后，Block Max Pool（区块最大池化） 将 token 级别的情数压缩为区块级别的分数：

最后，TopK 决定该层及该 GQA 组保留哪些 KV 区块；结果即为 I₁、I₂。

步骤 2：稀疏分支（Sparse Branch）——实际注意力计算所在

下半部分是真正的注意力计算发生之处。Q ∈ ℝ^{n×H×d}，K, V ∈ ℝ^{n×h×d}，依然保持标准的 GQA 形式。利用步骤 1 得到的 I₁、I₂ 作为索引，从原始 K/V 中提取对应的区块子集，并执行：

关键设计选择： 同一 GQA 组内的查询头共享一个 Top-K 选择。图中 Q1/Q2/Q3 均使用 I₁，Q4/Q5/Q6 均使用 I₂。这正是 NSA 论文所强调的硬件对齐原则——一组查询加载一组 KV 区块，单次传递即可装入 SRAM，且 FlashAttention 风格的内核无需修改即可重复使用。

2. 相对于 DeepSeek 系列的三个刻意减法

社区随即此设计与 DeepSeek 的 NSA / DSA / CSA 进行了并排比较。@eliebakouch 的总结非常精准：“GQA 而非 MLA，区块级选择类似 CSA，但注意力计算基于真实 K/V。”整理为表格如下：

维度	DeepSeek V3.2 DSA	DeepSeek NSA	DeepSeek V4 CSA	MiniMax M3 (推断)
KV 基质	MLA (latent)	GQA	MLA	GQA
选择粒度	token 级别	区块级别	区块级别	区块级别
并行分支	1 (索引 + 选择)	3 (压缩 + 选择 + 滑窗)	1	1 (仅选择)
注意力计算位置	真实 K/V	三路融合	压缩后 KV	真实 K/V
索引器成本	Lightning 索引器	压缩分支	区块摘要	单头 K + 区块最大池化
门控机制	无	学习型门控	无	无

三项权衡随之浮现：

第一个减法：以 GQA 为基质，而非 MLA。 这意味着 vLLM、SGLang 和 FlashAttention 内核几乎无需修改即可重用，无需为了兼容 MLA 的隐式 KV 而进行复杂的工程开发。对于旨在“生产就绪”的实验室而言，这是风险最低的路径。

第二个减法：区块级选择，但计算基于真实 K/V。 与 CSA 在压缩后的 KV 上运行注意力不同，M3 保留了 Softmax 注意力的完整表达能力。代价是 KV 缓存无法随注意力稀疏化而缩小——但以 token 经济性换取质量是一个合理的交易。

第三个减法：舍弃了 NSA 的另外两个分支。 NSA 原本有三条并行路径（压缩 + 选择 + 滑动窗口）以及一个学习型门控。M3 只保留了选择机制。@teortaxesTex 的描述很简洁——精简版的 NSA。一句话总结：工程优先。

在被砍掉的两个分支中，滑动窗口最可能被 RoPE + 注意力汇聚（Attention Sink）取代，或者干脆作为每层的稠密后备（Gemma 3 和 Qwen3-Next 均采用此法）。压缩分支则被吸收进了极简的“单头 K + 区块最大池化”中。

3. 如何解读这些数据

阶段	1M 下的加速比	含义
预填充	9.7×	一次处理 1M token 输入
解码	15.6×	逐 token 生成

解码加速比超过预填充是合理的。在预填充阶段，索引分支仍需扫描全部长度，因此节省的仅是主注意力部分；而在解码时，每个查询仅与选定的 KV 区块交互，KV 缓存的内存带宽压力降低了约一个数量级。

推算选择比例：假设区块大小为 64，那么 1M token 对应约 16k 个区块。15.6 倍的解码加速意味着每个查询实际仅触及约 6–7% 的区块，有效感受野在 60k–70k token 左右。这一比例与 NSA 论文报告的稀疏率（6–10%）几乎完全吻合——这绝非巧合，而是该类设计在 1M 规模下的最佳平衡点。

4. 对 M3 其余特性的推断

从注意力模块外推至整个模型：

MoE 主干可能会保留。 M2 的规格为 230B 总量 / 约 10B 激活 / Top-2 路由 / 隐层维度约 4096；M2.7 已将专家数量提升至 256。M3 没有理由放弃这一架构，因此最可能的变化是深度和宽度的扩展。

全注意力堆叠将被区块稀疏 GQA 取代。 M1 的 Lightning Attention 回归的可能性不大——M3 不再押注线性注意力，而是采取“Softmax 表达力 + Top-K 区块选择”路线，在保持质量的同时实现次二次方复杂度。

极大概率为原生训练的稀疏化。 这是 NSA 论文的核心观点——稀疏模式必须在预训练期间进入梯度，否则检索头将会混乱。MiniMax 在检索头方面有自己的研究积累，应该不会踩这个坑。

战场在 1M+ 上下文。 M1 在 1M 上训练，推论时外推至 4M；M3 则是锁定这一优势并大幅削减推论成本——这是一个非常自然的产品迭代节奏。

5. M3 在 2026 年设计空间的位置

在 2025–2026 年间，稀疏注意力设计已迅速分化：

DeepSeek V3.2 DSA： MLA + token 级别 Top-K，极轻量索引，质量最稳，但内核工程复杂。
DeepSeek NSA： GQA，三分支 + 门控，质量上限最高，但实现复杂。
Qwen3-Next： 层级混合，稠密/线性交替，稳健但相对保守。
MiniMax M3： GQA + 单分支区块选择，极简主义，借助硬件趋势。

M3 设计的潜台词非常明确——“不要追求理论上的最优注意力；要追求那种能立即运行、运行速度快，且能复用现有内核的设计。”这与他们在 M2 中选择回归全注意力的决策如出一辙：先通过主流方法稳定质量，待技术真正成熟后再进行干净的替换。

结语

单从一张图表无法确认过多细节：稀疏模式是否层级混合、是否有稠密后备、索引分支是否与主网络共享嵌入、训练时的 Top-K 是硬选择还是软选择、索引分支的损失函数如何构建……这一切都有待正式论文或权重发布。

但有一点已经确定：继 DeepSeek 之后，另一家中国实验室已经将“稀疏注意力 + 长上下文 + 开放权重”组合成了一套成熟的方案。在 2026 年下半年，开源领域的 1M 上下文很可能从卖点转变为基础配置——而这一点本身，比任何单项基准测试结果都更重要。

参考文献

Skyler Miao (MiniMax 研发负责人), 原文 tweet: Something BIG is coming
社区总结: MiniMax details its M3 sparse attention architecture
MiniMax 博客: Why Did M2 End Up as a Full Attention Model?
DeepSeek NSA 论文: Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention
DeepSeek V3.2 DSA 撰文: Architectural Efficiency in LLMs: DeepSeek-V3.2-Exp and DSA
Sebastian Raschka: A Technical Tour of the DeepSeek Models from V3 to V3.2
MiniMax-01 技术报告: Scaling Foundation Models with Lightning Attention

返回列表

MiniMax 迈向稀疏化：从一张图解码 M3 的注意力机制

1. 图表揭示的本质：两阶段处理，先选择后计算

步骤 1：索引分支（Index Branch）——以低成本评分一切

步骤 2：稀疏分支（Sparse Branch）——实际注意力计算所在

2. 相对于 DeepSeek 系列的三个刻意减法

3. 如何解读这些数据

4. 对 M3 其余特性的推断

5. M3 在 2026 年设计空间的位置

结语

参考文献

最新模型

Seedream v5.0 Pro Edit

Seedream v5.0 Pro Text-to-Image

Nano Banana 2 Lite Edit Developer

Nano Banana 2 Lite Text-to-Image Developer

一个 API，畅享全模态 AI。

Join our Discord community