Am 26. Mai postete Skyler Miao, Forschungsleiter bei MiniMax, ein Diagramm auf X – in schlichter Farbpalette, aber extrem informationsdicht. Der Titel lautet MiniMax Sparse Attention, und die beiden Kurven auf der rechten Seite liefern ein beachtliches Zahlenpaar: 9,7× Prefill- und 15,6× Decode-Beschleunigung bei 1 Mio. Tokens.
In der Community wurde dies fast einstimmig als Teaser für das M3 interpretiert. Doch die Bedeutung geht weit über ein „weiteres Modell mit langem Kontext“ hinaus.
Bereits im Oktober veröffentlichte MiniMax einen Blogbeitrag mit dem Titel Why Did M2 End Up as a Full Attention Model?. Der Beitrag war ungewohnt direkt: M2 übernahm nicht die Lightning Attention von M1, da „effiziente Attention noch nicht produktionsreif war“. Sechs Monate später taucht M3 auf, und der Subtext lässt sich in einem Satz zusammenfassen: Diesmal ist sie es.
Wie genau sieht dieses „Diesmal ist sie es“ aus? Dieser Artikel analysiert das Diagramm und vergleicht es mit den drei Ansätzen, die DeepSeek eingeschlagen hat – NSA, DSA und CSA –, um herauszufinden, welchen Weg MiniMax gewählt hat.

1. Was das Diagramm zeigt: zwei Phasen, Auswahl vor der Berechnung
Das Diagramm ist im Grunde die interne Entfaltung eines einzelnen Attention-Blocks. Der entscheidende Schritt – und der, der Aufmerksamkeit verdient – ist die strikte Trennung von „Welche KV-Werte sollen betrachtet werden?“ und „Wie wird die Attention berechnet?“ in zwei klare Phasen.
Schritt 1: Index-Branch – kostengünstige Bewertung aller Daten
Die obere Hälfte ist der Index-Branch. Er läuft unabhängig vom Hauptpfad und hat nur eine Aufgabe: dem nachgelagerten System mitzuteilen, welche Blöcke betrachtet werden sollen.
Jede GQA-Gruppe teilt sich einen Index-Query (sechs echte Heads gepaart mit zwei Idx Qs im Diagramm, einer pro GQA-Gruppe). Die KV-Seite des Index-Branch ist in der Dimension bewusst reduziert:

Beachten Sie, dass K_idx nur einen Head hat – alle Heads teilen sich denselben Index-Key. Dadurch kostet die Berechnung von Q_idx · K_idxᵀ fast nichts.
Block Max Pool komprimiert anschließend die Token-Scores zu Block-Scores:

Abschließend entscheidet TopK, welche KV-Blöcke für diese Schicht und diese GQA-Gruppe beibehalten werden; das Ergebnis ist I₁, I₂.
Schritt 2: Sparse-Branch – die eigentliche Attention-Berechnung
In der unteren Hälfte findet die eigentliche Attention-Berechnung statt. Q ∈ ℝ^{n×H×d}, K, V ∈ ℝ^{n×h×d}, weiterhin in Standard-GQA-Form. Unter Verwendung von I₁, I₂ aus Schritt 1 als Indizes extrahieren wir die entsprechenden Block-Teilmengen aus dem ursprünglichen K/V und führen folgende Operation aus:

Ein wesentliches Designmerkmal: Query-Heads innerhalb derselben GQA-Gruppe teilen sich eine einzige Top-k-Auswahl. Im Diagramm nutzen Q1/Q2/Q3 alle I₁, Q4/Q5/Q6 alle I₂. Dies folgt dem hardwareorientierten Prinzip, auf dem das NSA-Paper basiert – eine Gruppe von Queries lädt einen Satz KV-Blöcke, passt in einem Durchgang in den SRAM, und FlashAttention-Kernels können unverändert wiederverwendet werden.
2. Drei bewusste Subtraktionen gegenüber der DeepSeek-Familie
Die Community verglich dieses Design sofort mit DeepSeeks NSA / DSA / CSA. Die Zusammenfassung von @eliebakouch lässt sich auf einen Punkt bringen: „GQA statt MLA, block-basierte Auswahl wie bei CSA, aber Attention wird auf den echten K/V berechnet.“ Als Tabelle:
| Dimension | DeepSeek V3.2 DSA | DeepSeek NSA | DeepSeek V4 CSA | MiniMax M3 (abgeleitet) |
|---|---|---|---|---|
| KV-Substrat | MLA (latent) | GQA | MLA | GQA |
| Auswahl-Granularität | Token-Ebene | Block-Ebene | Block-Ebene | Block-Ebene |
| Parallele Branches | 1 (Indexer + Select) | 3 (Compress + Select + Sliding) | 1 | 1 (nur Select) |
| Attention-Ausführung | echte K/V | Drei-Wege-Fusion | komprimierte KV | echte K/V |
| Indexer-Kosten | Lightning Indexer | Komprimierungs-Branch | Block-Zusammenfass. | Single-Head K + Block Max Pool |
| Gating | keine | gelernte Gate | keine | keine |
Drei Kompromisse treten hervor:
Erstens: GQA als Substrat, nicht MLA. Das bedeutet, dass vLLM-, SGLang- und FlashAttention-Kernels mit geringen bis keinen Modifikationen wiederverwendet werden können – ohne den technischen Aufwand, der bei MLAs latentem KV nötig wäre. Für ein Labor, das auf „Produktionsreife“ zielt, ist dies der risikoärmste Weg.
Zweitens: Block-basierte Auswahl, aber Attention auf den echten K/V. Anders als CSA, das Attention auf komprimierten KVs ausführt, behält M3 die volle Ausdrucksstärke der Softmax-Attention bei. Der Preis dafür ist, dass der KV-Cache nicht zusammen mit der Sparsifizierung schrumpft – aber der Tausch von Token-Effizienz gegen Qualität ist ein sinnvoller Handel.
Drittens: Die zwei anderen Branches von NSA entfallen. NSA hatte ursprünglich drei parallele Pfade (Komprimierung + Auswahl + Sliding Window) sowie ein gelerntes Gate. M3 behält nur die Auswahl. @teortaxesTex beschrieb es treffend – eine gestraffte, vereinfachte NSA. Kurz gesagt: Engineering zuerst.
Von den beiden entfallenen Branches wurde der Sliding Window höchstwahrscheinlich durch RoPE + Attention Sink ersetzt oder schlicht durch Dense Attention als Fallback pro Schicht (Gemma 3 und Qwen3-Next tun dies beide). Der Komprimierungs-Branch wurde in das minimale „Single-Head K + Block Max Pool“ integriert.
3. Wie die Zahlen zu interpretieren sind
| Phase | Beschleunigung @ 1M | Bedeutung |
|---|---|---|
| Prefill | 9,7× | 1 Mio. Tokens Eingabe in einem Durchgang |
| Decode | 15,6× | Generierung Token für Token |
Dass die Decode-Beschleunigung die Prefill-Beschleunigung übertrifft, ist logisch. Beim Prefill muss der Index-Branch weiterhin die volle Länge scannen, daher erfolgt die Einsparung nur bei der Haupt-Attention. Beim Decode interagiert jede Query nur mit den ausgewählten KV-Blöcken, wodurch der Druck auf die Speicherbandbreite des KV-Cache um etwa eine Größenordnung sinkt.
Unter Annahme der Auswahlquote: Blockgröße = 64, also entsprechen 1 Mio. Tokens ca. 16.000 Blöcken. Eine 15,6-fache Decode-Beschleunigung impliziert, dass jede Query tatsächlich nur etwa 6–7 % der Blöcke berührt, was einem effektiven rezeptiven Feld von etwa 60k–70k Tokens entspricht. Diese Quote liegt nahezu exakt bei der Sparsitätsrate, die das NSA-Paper berichtet (6–10 %) – kein Zufall, sondern der „Sweet Spot“ für diese Art von Design im 1-Mio.-Token-Maßstab.
4. Ableitungen für das M3
Extrapoliert man diesen Attention-Block auf das gesamte Modell:
Das MoE-Rückgrat bleibt wahrscheinlich erhalten. M2 wurde als 230B gesamt / ~10B aktiv / Top-2-Routing / Hidden Dim ~4096 veröffentlicht; M2.7 hat die Expertenanzahl bereits auf 256 erhöht. Es gibt keinen Grund für M3, dies aufzugeben, daher ist eine weitere Skalierung in Tiefe und Breite am wahrscheinlichsten.
Der vollständige Attention-Stack wird durch Block-Sparse-GQA ersetzt. Eine Rückkehr der Lightning Attention von M1 ist unwahrscheinlich – M3 setzt nicht erneut auf lineare Attention, sondern auf „Softmax-Ausdrucksstärke + Top-k-Block-Auswahl“, um sub-quadratische Komplexität bei gleichbleibender Qualität zu erreichen.
Höchstwahrscheinlich nativ trainierte Sparsität. Das ist die Kernbotschaft des NSA-Papers – das Sparse-Muster muss während des Pretrainings in die Gradienten einfließen, sonst drohen Retrieval-Heads zu verkümmern. MiniMax hat eine eigene Forschungslinie zu Retrieval-Heads, daher sollte dieser Fehler vermieden werden.
Das Schlachtfeld ist der Kontext von 1 Mio.+ Tokens. M1 wurde mit 1 Mio. trainiert und lässt sich bei der Inferenz auf 4 Mio. extrapolieren; M3 festigt dies und senkt die Inferenzkosten drastisch – ein sehr natürlicher Produktzyklus.
5. M3 im Design-Raum von 2026
Im Zeitraum 2025–2026 haben sich Sparse-Attention-Designs schnell differenziert:
- DeepSeek V3.2 DSA: MLA + Token-Level-Top-k, sehr leichter Indexer, höchste Qualitätsstabilität, aber komplexes Kernel-Engineering.
- DeepSeek NSA: GQA, drei Branches + Gate, höchste Qualitätsobergrenze, aber komplexe Implementierung.
- Qwen3-Next: Schichtweiser Mix, Wechsel zwischen Dense / Linear, robust, aber konservativer.
- MiniMax M3: GQA + Single-Branch-Block-Auswahl, minimalistisch, nutzt den „Hardware-Rückenwind“.
Der Subtext des M3-Designs ist eindeutig: „Jage nicht der theoretisch optimalen Attention hinterher, sondern derjenigen, die sofort läuft, schnell ist und die Wiederverwendung existierender Kernels ermöglicht.“ Dies fügt sich in die Entscheidung ein, bei M2 auf Full-Attention zurückzufallen: erst Qualität mit Mainstream-Methoden stabilisieren, dann sauber ersetzen, sobald die Technologie wirklich ausgereift ist.
Abschließende Gedanken
Viele Details lassen sich aus einem einzelnen Diagramm nicht bestätigen: ob das Sparse-Muster schichtweise gemischt wird, ob es einen Dense-Fallback gibt, ob der Index-Branch Embeddings mit dem Hauptnetzwerk teilt, ob das Top-k während des Trainings „hart“ oder „weich“ ist, wie die Verlustfunktion des Index-Branch formuliert ist... All dies erfordert das offizielle Paper oder die Veröffentlichung der Weights.
Doch eines ist bereits klar: Nach DeepSeek hat ein weiteres chinesisches Labor ein funktionierendes System aus „Sparse Attention + langem Kontext + offenen Weights“ zusammengestellt. In der zweiten Jahreshälfte 2026 wird ein 1-Mio.-Kontext im Open-Source-Bereich wahrscheinlich von einem Verkaufsargument zum Standard werden – und das allein ist wichtiger als jedes einzelne Benchmark-Ergebnis.
Referenzen
- Skyler Miao (MiniMax R&D lead), originaler Tweet: Something BIG is coming
- Community-Zusammenfassung: MiniMax details its M3 sparse attention architecture
- MiniMax Blog: Why Did M2 End Up as a Full Attention Model?
- DeepSeek NSA Paper: Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention
- DeepSeek V3.2 DSA Analyse: Architectural Efficiency in LLMs: DeepSeek-V3.2-Exp and DSA
- Sebastian Raschka: A Technical Tour of the DeepSeek Models from V3 to V3.2
- MiniMax-01 Tech-Report: Scaling Foundation Models with Lightning Attention







