MiniMaxのスパース化:1枚の図から紐解くM3のAttention構造

1枚の図から読み解くMiniMax M3のスパースアテンション:GQAブロック選択、100万トークンのコンテキストでプリフィル9.7倍・デコード15.6倍の高速化を実現(DeepSeek NSAとの比較)

MiniMaxのスパース化:1枚の図から紐解くM3のAttention構造

5月26日,MiniMax研发负责人Skyler Miao在X上发布了一张示意图——调色克制,但信息量极大。标题为_MiniMax Sparse Attention_(MiniMax稀疏注意力),右侧的两条曲线展示了一组引人注目的数字:在1M上下文长度下,预填充(prefill)提速9.7倍,解码(decode)提速15.6倍

社区几乎一致将其解读为M3的预告。但其意义远不止于“又一个长文本模型”。

去年10月,MiniMax曾发布一篇题为《为什么M2最终采用全注意力模型?》的博文,直言不讳地指出:M2没有继承M1的Lightning Attention,是因为“高效注意力机制尚未达到生产就绪状态”。六个月后,M3浮出水面,其潜台词其实就一句话:这一次,它准备好了。

那么,“准备好了”到底意味着什么?本文将剖析该示意图,并将其与DeepSeek提出的三条技术路线(NSA、DSA、CSA)进行对比,以推断MiniMax的选择。

Figure 1 · 原图的忠实重绘:外部基于GQA的注意力块包含第1步和第2步;紫色路径收敛于最终的稀疏注意力输出。

1. 图表展示的核心逻辑:分两阶段处理,先选择再计算

这张图本质上是一个注意力块内部的展开。它所采取的关键动作——也是值得关注的地方——是将“关注哪些KV(Key-Value)”与“如何计算注意力”明确拆分为两个步骤。

第1步:索引分支(Index Branch)——以低成本扫描一切

上半部分是索引分支。它独立于主路径运行,任务只有一个:告诉下游应该查看哪些块(Block)。

每个GQA组共享一个索引查询(图中为6个实际头配对2个Idx Q,即每个GQA组对应一个)。索引分支的KV维度被刻意降低:

function1.png

注意,K_idx只有一个头——所有头共享相同的索引键。因此,Q_idx · K_idxᵀ的计算成本几乎可以忽略不计。

随后,Block Max Pool将Token级别的分数压缩为块级别的分数:

function2.png

最后,TopK决定当前层和当前GQA组需要保留哪些KV块;结果即为I₁, I₂

第2步:稀疏分支(Sparse Branch)——实际的注意力计算

下半部分是真正的注意力计算所在。Q ∈ ℝ^{n×H×d}, K, V ∈ ℝ^{n×h×d},仍保持标准的GQA形式。利用第1步得到的I₁, I₂作为索引,从原始K/V中提取对应的块子集并运行:

function3.png

一个关键设计选择:同一GQA组内的查询头共享一个Top-k选择。图中,Q1/Q2/Q3都使用I₁,Q4/Q5/Q6都使用I₂。这是NSA论文强调的硬件对齐原则——一组查询加载一组KV块,能够一次性放入SRAM,且FlashAttention风格的核函数无需修改即可直接重用。

2. 相较于DeepSeek系列的三个核心减法

社区立即将此设计与DeepSeek的NSA/DSA/CSA进行了对比。@eliebakouch的总结一针见血:“用GQA而非MLA,像CSA一样的块级选择,但在真实的K/V上计算注意力。”对比表如下:

维度DeepSeek V3.2 DSADeepSeek NSADeepSeek V4 CSAMiniMax M3 (推测)
KV底层架构MLA (隐向量)GQAMLAGQA
选择粒度Token级块级块级块级
并行分支数1 (索引+选择)3 (压缩+选择+滑动)11 (仅选择)
注意力计算位置真实K/V三路融合压缩后KV真实K/V
索引器成本Lightning索引器压缩分支块摘要单头K + Block Max Pool
门控机制学习型门控

由此可见三个权衡取舍:

**第一个减法:以GQA为底层架构,而非MLA。**这意味着vLLM、SGLang和FlashAttention内核几乎无需修改即可直接使用——无需为适配MLA的隐式KV进行繁琐的工程改造。对于追求“生产就绪”的实验室而言,这是风险最低的路径。

**第二个减法:块级选择,但在真实的K/V上计算注意力。**与在压缩KV上计算注意力的CSA不同,M3保留了Softmax注意力的全部表达能力。代价是KV Cache不会随着注意力稀疏化而缩小,但为了性能而牺牲Token空间,是一个合理的折衷。

**第三个减法:舍弃了NSA的另外两个分支。**NSA原本有三个并行路径(压缩+选择+滑动窗口)外加一个学习型门控。M3只保留了选择。正如@teortaxesTex所言——这是一种精简后的NSA。用一句话概括:工程优先。

在被砍掉的两个分支中,滑动窗口很可能被RoPE + 注意力汇聚(Attention Sink)取代,或者简单地作为每层的密集注意力回退(Gemma 3和Qwen3-Next均采用此方案)。压缩分支则被吸收进了极简的“单头K + Block Max Pool”中。

3. 如何解读这些数字

阶段1M下的加速比含义
预填充9.7×一次性处理1M个输入Token
解码15.6×逐个生成Token

解码加速比超过预填充是合理的。预填充时,索引分支仍需扫描全长,因此节省的部分仅限于主注意力;而在解码时,每个查询仅与选定的KV块交互,KV Cache的内存带宽压力下降了约一个数量级。

反推选择比例:假设块大小为64,则1M Token对应约16k个块。15.6倍的解码加速意味着每个查询实际仅触及约6%–7%的块,有效感受野约为60k–70k Token。这一比例几乎正好落在了NSA论文报告的稀疏度范围(6%–10%)内——这并非巧合,而是此类设计在1M规模下的最佳平衡点。

4. 对M3其余部分的推测

从该注意力块扩展至整个模型:

MoE架构极有可能保留。 M2采用了230B总参数/约10B激活/Top-2路由/隐藏维度约4096的配置;M2.7已将专家数量推至256。M3没有理由放弃这一点,最可能的变化是进一步增加深度和宽度。

全注意力栈将被块稀疏GQA取代。 M1的Lightning Attention不太可能回归——M3不再押注线性注意力,而是选择了“Softmax表达力 + Top-k块选择”路线,在保持质量的同时实现了亚二次复杂度。

极大概率采用原生训练的稀疏性。 这是NSA论文的核心观点——稀疏模式必须在预训练过程中进入梯度,否则检索头会变得混乱。MiniMax在检索头方面有自己的研究积累,应该不会犯这个错误。

战场在于1M+上下文。 M1在1M规模下训练,推理时外推至4M;M3正在锁定这一领域并削减推理成本,这是一种非常自然的产品迭代节奏。

5. M3在2026年设计空间的位置

2025年至2026年间,稀疏注意力设计迅速分化:

  • DeepSeek V3.2 DSA: MLA + Token级Top-k,索引器极轻,质量最稳,但内核工程量大。
  • DeepSeek NSA: GQA,三分支+门控,质量天花板最高,但实现复杂。
  • Qwen3-Next: 层级混合,密集/线性交替,稳健但相对保守。
  • MiniMax M3: GQA + 单分支块选择,极简,顺应硬件潮流。

M3设计的潜台词毫不含糊——“不要追逐理论上的最优注意力;要追逐那些能立即运行、运行速度快且能让现有内核直接重用的方案。”这与他们在M2中退回全注意力的决定如出一辙:先用主流方法稳定质量,一旦技术真正成熟,再进行优雅的替换。

结语

虽然仅凭一张图无法确认所有细节:稀疏模式是否按层混合、是否存在密集回退、索引分支是否与主网络共享嵌入层、训练时的Top-k是硬选还是软选、索引分支的损失函数如何定义……这一切都有待官方论文或权重发布。

但有一点已经确定:继DeepSeek之后,又一家中国实验室构建出了“稀疏注意力 + 长文本 + 开放权重”的实用架构。在2026年下半年,开源领域1M的上下文容量很可能从“卖点”变为“基准”,而这一点本身,就比任何单一跑分指标都重要。

参考文献

最新モデル

300以上のモデルから始める、

すべてのモデルを探索

Join our Discord community

Join the Discord community for the latest model updates, prompts, and support.