5 月 26 日,MiniMax 研發負責人 Skyler Miao 在 X 上發佈了一張圖表——配色克制,但資訊量極大。標題為《MiniMax Sparse Attention》,右側的兩條曲線給出了一組引人注目的數據:在 1M token 下,預填充(prefill)速度提升 9.7 倍,解碼(decode)速度提升 15.6 倍。
社區幾乎一致認為這是 M3 的預告。但其意義遠不止於「又一個長上下文模型」那麼簡單。
去年 10 月,MiniMax 發佈了一篇名為《為什麼 M2 最終成了全注意力模型?》的部落格文章。文中直言不諱:M2 沒有繼承 M1 的 Lightning Attention,是因為「高效注意力機制當時還未達到生產就緒狀態」。六個月後,M3 浮出水面,潛台詞只有一句話——這一次,它準備好了。
那麼「這一次」究竟是什麼樣子?本文將剖析這張圖表,並將其與 DeepSeek 佈局的三條路線(NSA、DSA 和 CSA)進行對比,找出 MiniMax 的選擇。

1. 圖表揭示的本質:兩階段處理,先選擇後計算
這張圖表實際上展示了一個注意力模塊的內部拆解。它所做的改進——也是值得關注的核心——是將「關注哪些 KV」與「如何計算注意力」明確拆分為兩個步驟。
步驟 1:索引分支(Index Branch)——以低成本評分一切
上半部分是索引分支。它獨立於主路徑運行,任務只有一個:告訴下游該關注哪些區塊(block)。
每個 GQA 組共享一個索引查詢(圖中為 6 個真實頭配對 2 個 Idx Q,每個 GQA 組一個)。索引分支的 KV 端在維度上被刻意縮減:

請注意,K_idx 只有一個頭——所有頭共享相同的索引鍵。因此,計算 Q_idx · K_idxᵀ 的成本幾乎可以忽略不計。
隨後,Block Max Pool(區塊最大池化) 將 token 級別的分數壓縮為區塊級別的分數:

最後,TopK 決定該層及該 GQA 組保留哪些 KV 區塊;結果即為 I₁、I₂。
步驟 2:稀疏分支(Sparse Branch)——實際注意力計算所在
下半部分是真正的注意力計算發生之處。Q ∈ ℝ^{n×H×d},K, V ∈ ℝ^{n×h×d},依然保持標準的 GQA 形式。利用步驟 1 得到的 I₁、I₂ 作為索引,從原始 K/V 中提取對應的區塊子集,並執行:

關鍵設計選擇: 同一 GQA 組內的查詢頭共享一個 Top-K 選擇。圖中 Q1/Q2/Q3 均使用 I₁,Q4/Q5/Q6 均使用 I₂。這正是 NSA 論文所強調的硬體對齊原則——一組查詢加載一組 KV 區塊,單次傳遞即可裝入 SRAM,且 FlashAttention 風格的內核無需修改即可重複使用。
2. 相對於 DeepSeek 系列的三個刻意減法
社區隨即將此設計與 DeepSeek 的 NSA / DSA / CSA 進行了並排比較。@eliebakouch 的總結非常精準:「GQA 而非 MLA,區塊級選擇類似 CSA,但注意力計算基於真實 K/V。」整理為表格如下:
| 維度 | DeepSeek V3.2 DSA | DeepSeek NSA | DeepSeek V4 CSA | MiniMax M3 (推斷) |
|---|---|---|---|---|
| KV 基質 | MLA (latent) | GQA | MLA | GQA |
| 選擇粒度 | token 級別 | 區塊級別 | 區塊級別 | 區塊級別 |
| 並行分支 | 1 (索引 + 選擇) | 3 (壓縮 + 選擇 + 滑窗) | 1 | 1 (僅選擇) |
| 注意力計算位置 | 真實 K/V | 三路融合 | 壓縮後 KV | 真實 K/V |
| 索引器成本 | Lightning 索引器 | 壓縮分支 | 區塊摘要 | 單頭 K + 區塊最大池化 |
| 門控機制 | 無 | 學習型門控 | 無 | 無 |
三項權衡隨之浮現:
第一個減法:以 GQA 為基質,而非 MLA。 這意味著 vLLM、SGLang 和 FlashAttention 內核幾乎無需修改即可重用,無需為了兼容 MLA 的隱式 KV 而進行複雜的工程開發。對於旨在「生產就緒」的實驗室而言,這是風險最低的路徑。
第二個減法:區塊級選擇,但計算基於真實 K/V。 與 CSA 在壓縮後的 KV 上運行注意力不同,M3 保留了 Softmax 注意力的完整表達能力。代價是 KV 快取無法隨注意力稀疏化而縮小——但以 token 經濟性換取質量是一個合理的交易。
第三個減法:捨棄了 NSA 的另外兩個分支。 NSA 原本有三條並行路徑(壓縮 + 選擇 + 滑動窗口)以及一個學習型門控。M3 只保留了選擇機制。@teortaxesTex 的描述很簡潔——精簡版的 NSA。一句話總結:工程優先。
在被砍掉的兩個分支中,滑動窗口最可能被 RoPE + 注意力匯聚(Attention Sink)取代,或者乾脆作為每層的稠密後備(Gemma 3 和 Qwen3-Next 均採用此法)。壓縮分支則被吸收進了極簡的「單頭 K + 區塊最大池化」中。
3. 如何解讀這些數據
| 階段 | 1M 下的加速比 | 含義 |
|---|---|---|
| 預填充 | 9.7× | 一次處理 1M token 輸入 |
| 解碼 | 15.6× | 逐 token 生成 |
解碼加速比超過預填充是合理的。在預填充階段,索引分支仍需掃描全部長度,因此節省的僅是主注意力部分;而在解碼時,每個查詢僅與選定的 KV 區塊交互,KV 快取的記憶體頻寬壓力降低了約一個數量級。
推算選擇比例:假設區塊大小為 64,那麼 1M token 對應約 16k 個區塊。15.6 倍的解碼加速意味著每個查詢實際僅觸及約 6–7% 的區塊,有效感受野在 60k–70k token 左右。這一比例與 NSA 論文報告的稀疏率(6–10%)幾乎完全吻合——這絕非巧合,而是該類設計在 1M 規模下的最佳平衡點。
4. 對 M3 其餘特性的推斷
從注意力模塊外推至整個模型:
MoE 主幹可能會保留。 M2 的規格為 230B 總量 / 約 10B 激活 / Top-2 路由 / 隱層維度約 4096;M2.7 已將專家數量提升至 256。M3 沒有理由放棄這一架構,因此最可能的變化是深度和寬度的擴展。
全注意力堆疊將被區塊稀疏 GQA 取代。 M1 的 Lightning Attention 回歸的可能性不大——M3 不再押注線性注意力,而是採取「Softmax 表達力 + Top-K 區塊選擇」路線,在保持質量的同時實現次二次方複雜度。
極大可能為原生訓練的稀疏化。 這是 NSA 論文的核心觀點——稀疏模式必須在預訓練期間進入梯度,否則檢索頭將會混亂。MiniMax 在檢索頭方面有自己的研究積累,應該不會踩這個坑。
戰場在 1M+ 上下文。 M1 在 1M 上訓練,推論時外推至 4M;M3 則是鎖定這一優勢並大幅削減推論成本——這是一個非常自然的產品迭代節奏。
5. M3 在 2026 年設計空間的位置
在 2025–2026 年間,稀疏注意力設計已迅速分化:
- DeepSeek V3.2 DSA: MLA + token 級 Top-K,極輕量索引,質量最穩,但內核工程複雜。
- DeepSeek NSA: GQA,三分支 + 門控,質量上限最高,但實現複雜。
- Qwen3-Next: 層級混合,稠密/線性交替,穩健但相對保守。
- MiniMax M3: GQA + 單分支區塊選擇,極簡主義,藉助硬體趨勢。
M3 設計的潛台詞非常明確——「不要追求理論上的最優注意力;要追求那種能立即運行、運行速度快,且能複用現有內核的設計。」這與他們在 M2 中選擇回歸全注意力的決策如出一轍:先通過主流方法穩定質量,待技術真正成熟後再進行乾淨的替換。
結語
單從一張圖表無法確認過多細節:稀疏模式是否層級混合、是否有稠密後備、索引分支是否與主網絡共享嵌入、訓練時的 Top-K 是硬選擇還是軟選擇、索引分支的損失函數如何構建……這一切都有待正式論文或權重發布。
但有一點已經確定:繼 DeepSeek 之後,另一家中國實驗室已經將「稀疏注意力 + 長上下文 + 開放權重」組合成了一套成熟的方案。在 2026 年下半年,開源領域的 1M 上下文很可能從賣點轉變為基礎配置——而這一點本身,比任何單項基準測試結果都更重要。
參考文獻
- Skyler Miao (MiniMax 研發負責人), 原文 tweet: Something BIG is coming
- 社區總結: MiniMax details its M3 sparse attention architecture
- MiniMax 部落格: Why Did M2 End Up as a Full Attention Model?
- DeepSeek NSA 論文: Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention
- DeepSeek V3.2 DSA 撰文: Architectural Efficiency in LLMs: DeepSeek-V3.2-Exp and DSA
- Sebastian Raschka: A Technical Tour of the DeepSeek Models from V3 to V3.2
- MiniMax-01 技術報告: Scaling Foundation Models with Lightning Attention







