MiniMax 邁向稀疏化：從單一張圖解碼 M3 的注意力機制

MiniMax 剛剛預告了在 1M token 內容長度下，解碼速度提升 15.6 倍的技術。 如果這個數字屬實，運行百萬級 token 上下文的成本將降低近一個數量級，且在加速的同時，生成品質不會下降。

對於任何基於這些模型進行開發的團隊來說，這重新定義了成本效益的門檻。那些原本不划算的工作負載現在開始變得可行：例如將整個程式碼庫而非片段交給編碼代理 (coding agent)、處理累積了龐大歷史紀錄的長時間代理運行、針對整套文件集而非破碎片段進行檢索。每個團隊都在糾結的問題——「在費用爆炸或延遲拖垮產品之前，我能在上下文視窗裡塞多少內容？」——現在有了更高的天花板。

實現這一點的機制是稀疏注意力 (sparse attention)，且 MiniMax 並非孤例。DeepSeek 已在三條模型產品線中採用該技術，Qwen 也有自己的版本，現在則是 MiniMax。技術發展方向已定。正在改變的是其影響：當每個前沿模型都能以低成本運行長上下文時，模型本身就不再是競爭壁壘——而這正是值得你關注的部分，我們將在文末回過頭來討論。

首先提出兩點誠實的警示，因為這對任何打算部署此技術的人都很重要：

這些是 MiniMax 自家的數據，來自一份尚未發布模型的單一預告圖，且是在他們自己的環境中測得。這是一個強烈的發展信號，但並非第三方基準測試。請將其視為「MiniMax 的聲明」，並在模型權重釋出後，針對你自己的工作負載進行重新測試。
M3 尚未公開。我們預計將在它開放時，透過 Atlas Cloud 提供首日存取 (day-zero access)——詳情見文末。

那麼，MiniMax 是如何做到這一點的？5 月 26 日，MiniMax 研發負責人 Skyler Miao 在 X 上發布了一張圖表——色調簡約、資訊密度極高——標題為《MiniMax 稀疏注意力》，其中兩條曲線帶出了所有人關注的數據：在 1M token 下，預填充 (prefill) 速度快 9.7 倍，解碼 (decode) 速度快 15.6 倍。 社群一致認為這是 M3 的預告。我們對此進行了拆解，以了解這些數字背後的架構。

Figure 1 · 原圖的精確重繪：外部基於 GQA 的注意力區塊包含了步驟 1 和步驟 2；紫色路徑在最終的稀疏注意力輸出處匯聚。

在深入解析之前，先進行一些背景說明。三個術語貫穿了整個故事：

預填充 (Prefill) 是模型一次性讀取輸入的過程。
解碼 (Decode) 是較慢的、逐個 token 進行輸出的階段——而在長上下文中，解碼階段最為棘手，因為每個新生成的 token 都必須回顧之前的所有內容。
稀疏注意力 (Sparse attention) 是解決方案：模型不再讓每個 token 都關注其他所有 token（預設方式，其成本隨序列長度的平方增加），而是讓模型只關注精心挑選的「子集」——在保留大部分品質的同時，僅消耗少量的運算資源。如何選擇該子集，正是各家實驗室的差異所在。

而這個預告之所以具備分量，是因為去年 10 月，MiniMax 曾發表一篇名為《為什麼 M2 最終選擇了全注意力模型？》的文章——語氣極為直接，解釋了 M2 捨棄了 M1 的高效「Lightning Attention」，因為當時高效注意力技術尚未達到生產就緒水準。六個月後，M3 帶著稀疏注意力強勢登場。潛台詞只有一句：這次，它準備好了。

1. 圖表解析：兩個階段——先篩選，再運算

該圖表展示了一個注意力區塊的內部運作。其關鍵動作是將「要查看哪些 token」與「如何對這些 token 進行注意力運算」這兩個步驟明確分開。

關於底層架構的說明：M3 是建立在 GQA (Grouped-Query Attention，分組查詢注意力) 之上的。在標準注意力層中，每個「查詢頭 (query head)」都有自己的一組鍵 (keys) 和值 (values)，這雖然表現力強，但會導致 KV 快取（KV cache——儲存先前所有 token 的鍵與值，以便不必在每一步重新計算）膨脹。GQA 將查詢頭分組，每組「共享」一組鍵與值。這是目前大多數生產模型中使用的主流記憶體節約布局。記住這一點——這是整個設計的基礎。

步驟 1：索引分支 (Index Branch) —— 以低成本評分一切

上半部分是索引分支。它在主路徑之外運行，任務只有一個：告訴區塊中剩餘的部分，哪些 token 區塊值得關注。

每個 GQA 組共享一個索引查詢（圖中顯示了 6 個實際的頭與 2 個索引查詢「Idx Q」配對，每組一個）。該分支的鍵端經過了刻意的精簡：

請注意，K_idx 只有一個頭——每個頭都共享相同的索引鍵。這使得評分步驟 (Q_idx · K_idxᵀ) 的成本幾乎為零。

區塊最大池化 (Block Max Pool) 隨後將這些 token 層級的評分壓縮為區塊層級的評分（將序列切分為固定大小的區塊，並保留每個區塊中的最高評分）：

最後，TopK——「保留前 K 個最高分項目」——決定了哪些 KV 區塊能存活下來以供此層和此組使用。輸出是一個短小的索引列表：I₁, I₂。

步驟 2：稀疏分支 (Sparse Branch) —— 注意力實際運行的位置

下半部分是真正的運算。查詢、鍵與值仍然保持標準的 GQA 形式。利用步驟 1 得到的 I₁ 和 I₂，該區塊只從完整的鍵與值中提取選定的子集，並僅對這些子集執行注意力運算：

最重要的設計選擇： 組中的每個查詢頭共享同一個 Top-K 選擇結果。在圖中，Q1/Q2/Q3 全都使用 I₁；Q4/Q5/Q6 全都使用 I₂。這就是 DeepSeek 的 NSA 論文所強調的硬體對齊原則——一組查詢載入一組 KV 區塊，該組資料能放入 SRAM（GPU 內部極快的小型記憶體）中進行單次處理，且標準的 FlashAttention 型核心（主流的注意力實作優化）可以原封不動地重複利用。

2. 相較於 DeepSeek 家族的三個刻意減法

社群立刻將此設計與 DeepSeek 的三種稀疏注意力設計進行了對比：

NSA (Native Sparse Attention)： 「Native」意味著稀疏性從預訓練開始就已寫入，而非後期疊加。它包含三個並行分支（壓縮 + 選擇 + 滑動視窗）加上一個學習門控 (learned gate)。
DSA (DeepSeek Sparse Attention)： DeepSeek V3.2 中採用的變體；具有極輕量索引器的 token 層級選擇。
CSA： 社群對與 DeepSeek V4 相關的區塊層級方向的簡稱。（此標籤不如 NSA/DSA 標準，故僅作為工作代稱）。

社群對 M3 的一句總結：M3 使用 GQA 而非 MLA，採取類似 CSA 的區塊層級選擇，但它在「真實」鍵與值上進行注意力計算。

展開為表格如下：

維度	DeepSeek V3.2 DSA	DeepSeek NSA	DeepSeek V4 CSA	MiniMax M3 (推測)
KV 底層架構	MLA (潛在向量)	GQA	MLA	GQA
選擇粒度	token 層級	區塊層級	區塊層級	區塊層級
並行分支	1 (索引器 + 選擇)	3 (壓縮+選擇+滑動)	1	1 (僅選擇)
注意力運行位置	真實 K/V	三路融合	壓縮後的 KV	真實 K/V
索引器成本	Lightning 索引器	壓縮分支	區塊摘要	單頭 K + 區塊最大池化
門控	無	學習門控	無	無

該表隱藏了另一個值得定義的縮寫：MLA (Multi-head Latent Attention，多頭潛在注意力)，這是 DeepSeek 的標誌性招式。MLA 不快取完整的鍵與值，而是將其壓縮成一個小的共享「潛在」向量進行快取，並在運行時即時解壓。KV 快取會大幅縮小，但其數學邏輯不再符合標準注意力，因此需要自訂核心。這種對比引出了 M3 的三個權衡中的第一個。

第一個減法：以 GQA 為底層，而非 MLA。 由於 M3 保持使用標準 GQA，現有的服務堆疊——vLLM 和 SGLang（兩種廣泛使用的開源推理伺服器）加上 FlashAttention——無需修改或僅需微調即可運作。無需為了繞過 MLA 的潛在 KV 而進行繁瑣的工程作業。對於目標是「生產就緒」的實驗室來說，這是風險最低的路徑。這是整個設計中最具商業邏輯的洞見：MiniMax 優化了所有人在硬體和軟體上現有的一切。

第二個減法：區塊層級選擇，但在真實鍵與值上運行注意力。 與對「壓縮後」KV 進行注意力運算的 CSA 不同，M3 保留了標準 Softmax 注意力的完整表現力。代價是：KV 快取不會隨著稀疏化而縮小——但為了保留品質而犧牲部分記憶體，是一個明智的交易。

第三個減法：NSA 的另外兩個分支消失了。 NSA 運行三條並行路徑（壓縮 + 選擇 + 滑動視窗）加上一個學習門控。M3 僅保留了選擇機制。社群的一種總結稱其為精簡版 NSA。一句話總結：工程優先。在被刪除的兩個分支中，滑動視窗很可能被 RoPE（旋轉位置嵌入——模型編碼 token 位置的標準方法）加上注意力匯點 (attention sink) 所取代，或者乾脆像 Gemma 3 和 Qwen3-Next 那樣，作為每層的密集注意力備選方案。壓縮分支則被吸收進了極簡的「單頭 K + 區塊最大池化」中。

3. 如何解讀這些數字

階段	1M 速度提升	含義
預填充	9.7×	一次性處理 1M token 的輸入
解碼	15.6×	逐個 token 生成

解碼速度超越預填充是合理的。在預填充期間，索引分支仍需掃描完整的輸入長度，因此節省的效果僅體現在主要注意力上。在解碼期間，每個新生成的 token 只與其選定的 KV 區塊互動，KV 快取的記憶體頻寬壓力下降了約一個數量級——這正是解碼階段成本的主要來源。

反推選擇比：假設區塊大小為 64 個 token，則 1M token 約為 16,000 個區塊。15.6 倍的解碼加速意味著每個查詢實際只接觸了約 6-7% 的區塊——有效的感受野約為 60k-70k token。該比例幾乎精確地落在 NSA 論文報告的稀疏率 (6-10%) 上。這絕非巧合——這正是此類設計在 1M 規模下的甜蜜點。

4. 推測 M3 的其餘部分

從這個注意力區塊外推到整個模型——顯然是針對推理進行了優化：

MoE 主幹可能會保留。MoE (Mixture of Experts，混合專家模型) 是模型的主幹（區別於注意力）：模型不再將每個 token 通過一個巨大的網路，而是透過路由器將每個 token 發送到少數幾個專業的「專家」子網路，從而以較小的實際運算量獲得大模型的品質。M2 發布時為 230B 總參數 / 約 10B 活躍參數 / Top-2 路由；M2.7 已將專家數量提升至 256。沒有理由讓 M3 放棄這一點——可能的變化是更深、更寬。
全注意力堆疊被區塊稀疏 GQA 取代。 M1 的 Lightning Attention 不太可能回歸。M3 並未重注線性注意力；它走的是「Softmax 表現力 + Top-K 區塊選擇」路線——在保持品質的同時實現亞二次方的成本。
極有可能是原生訓練的稀疏性。 這是 NSA 論文的核心教訓：稀疏模式必須在預訓練期間進入梯度，否則模型的檢索行為會變得混亂。MiniMax 有自己的檢索頭研究路線，因此他們不應落入該陷阱。
主戰場是 1M+ 的上下文。 M1 在訓練時為 1M，在推理時外推至 4M。M3 看起來準備在鎖定該能力的同時，大幅削減推理成本——這是一個非常自然的產品節奏。

5. 將 M3 置於 2026 年的設計空間

在 2025-2026 年間，稀疏注意力設計迅速分化：

DeepSeek V3.2 DSA： MLA + token 層級 Top-K，極輕量索引器；品質最穩定，但核心工程複雜。
DeepSeek NSA： GQA，三分支 + 門控；品質天花板最高，實作最複雜。
Qwen3-Next： 層級化的密集與線性注意力混合；穩健但相對保守。
MiniMax M3： GQA + 單分支區塊選擇；極簡，乘著硬體發展的順風車。

M3 設計的潛台詞是明確的：不要追求理論上最完美的注意力——要追求那些能立即執行、運行迅速，並允許重複利用現有核心的注意力技術。這與 M2 在最終選擇回歸全注意力的決策是一致的：首先用主流方法穩定品質，一旦技術真正成熟，再乾淨地進行替換。

6. 如果你正在建構下一波 AI 應用，這意味著什麼

跳出架構層面，這背後有一個更大的規律。每家嚴肅的實驗室現在都在發布自己版本的訓練內建稀疏注意力——DeepSeek 在三條產品線中採用，Qwen 有層級混合，現在是 MiniMax。技術方向已定，結論顯而易見：當每個前沿模型都能以低成本運行長上下文時，模型本身就不再是競爭壁壘。 原始推理成本正趨向商品化。差異化轉移到了更高層次——即針對特定工作負載運行「哪個」模型、如何在它們之間進行路由，以及在下一代模型六週後推出時，你更換的速度有多快。

這是一個比「找到最便宜的端點」更難的問題。一個運行生產級應用的團隊正在同時平衡四件事——品質、延遲、成本以及該功能實際驅動的業務成果——而正確答案會因工作負載而異，並隨每個發布週期而變動。M2 在 10 月是全注意力的；M3 在 5 月就變成了區塊稀疏的。你上一季所連接的模型已經落後了。

選擇最便宜的模型對開發者而言不再是制勝策略。取而代之的是，那些建立在能讓他們選擇、路由和更換模型，而無需在前沿技術每次移動時都重新整合的層級之上的開發者，以及那些將工程預算花在自有產品上，而非每幾週追逐發布說明的人，才能贏得勝利。

這正是 Atlas Cloud 運作的層級：透過單一 API 存取超過 300 種模型，涵蓋 LLM、影片、圖像和音訊，並具備智慧路由和新模型發布時的「首日存取權」。我們拆解此圖表所用的視角，正是我們決定引進哪些模型以及如何路由它們的視角。M3 尚未公開——當它開放時，我們預計將在 Atlas 上提供首日存取權，讓基於我們開發的團隊在模型發布當天，而非數月後，就能將其呈現在使用者面前。

結語

單憑一張圖表無法確認的事項還有很多：稀疏模式是否在各層之間混合、是否有密集注意力備選、索引分支是否與主網路共享嵌入、訓練時的 Top-K 是硬 (hard) 還是軟 (soft) 的、索引分支的損失函數是如何制定的。這一切都要等待官方論文或權重的公布。

但有一點已經確定：繼 DeepSeek 之後，另一家頂尖實驗室已將稀疏注意力 + 長上下文 + 開放權重組合成了有效的技術棧。在 2026 年下半年，開源環境中的 1M 上下文很可能從賣點轉變為基礎配置——而這本身，就比任何單一基準測試分數都重要得多。

參考文獻

Skyler Miao (MiniMax 研發負責人)，X 上的原始貼文：Something BIG is coming — https://x.com/SkylerMiao7/status/2059285750458544561
社群總結：MiniMax details its M3 sparse attention architecture — https://digg.com/ai/78gnmbpg
MiniMax 部落格：Why Did M2 End Up as a Full Attention Model? — https://www.minimax.io/news/why-did-m2-end-up-as-a-full-attention-model
DeepSeek NSA 論文：Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention — https://arxiv.org/pdf/2502.11089
DeepSeek V3.2 DSA 解析：Architectural Efficiency in LLMs: DeepSeek-V3.2-Exp and DSA — https://gregrobison.medium.com/architectural-efficiency-in-large-language-models-a-comprehensive-analysis-of-deepseek-v3-2-exp-e9802adfcdbd
Sebastian Raschka：A Technical Tour of the DeepSeek Models from V3 to V3.2 — https://magazine.sebastianraschka.com/p/technical-deepseek
MiniMax-01 技術報告：Scaling Foundation Models with Lightning Attention — https://filecdn.minimax.chat/_Arxiv_MiniMax_01_Report.pdf

返回列表

MiniMax 邁向稀疏化：從一張圖解碼 M3 的注意力機制

1. 圖表解析：兩個階段——先篩選，再運算

步驟 1：索引分支 (Index Branch) —— 以低成本評分一切

步驟 2：稀疏分支 (Sparse Branch) —— 注意力實際運行的位置

2. 相較於 DeepSeek 家族的三個刻意減法

3. 如何解讀這些數字

4. 推測 M3 的其餘部分

5. 將 M3 置於 2026 年的設計空間

6. 如果你正在建構下一波 AI 應用，這意味著什麼

結語

參考文獻

最新模型

Seedream v5.0 Pro Edit

Seedream v5.0 Pro Text-to-Image

Nano Banana 2 Lite Edit Developer

Nano Banana 2 Lite Text-to-Image Developer

一個 API，暢享全模態 AI。

Join our Discord community