5월 26일, MiniMax R&D 책임자인 Skyler Miao는 X에 다이어그램 하나를 게시했습니다. 절제된 색감이지만, 매우 밀도 높은 정보를 담고 있습니다. 제목은 _MiniMax Sparse Attention_이며, 우측의 두 곡선은 100만 토큰에서 prefill 9.7배, decode 15.6배 속도 향상이라는 눈길을 끄는 수치를 제시합니다.
커뮤니티는 이를 M3 티저로 거의 만장일치로 해석하고 있습니다. 하지만 그 의미는 단순히 "또 하나의 긴 문맥(long-context) 모델"이라는 수준을 훨씬 뛰어넘습니다.
지난 10월, MiniMax는 _왜 M2는 Full Attention 모델이 되었는가?_라는 제목의 블로그 게시물을 올렸습니다. 이 글은 매우 직설적이었습니다. M2가 M1의 Lightning Attention을 계승하지 않은 이유는 "효율적인 어텐션이 아직 상용화 준비가 되지 않았기 때문"이었습니다. 6개월 후 M3가 등장하면서, 그 이면의 메시지는 한 문장으로 요약됩니다. "이번에는 준비되었다"는 것입니다.
그렇다면 "이번에는 준비되었다"는 것은 정확히 무엇을 의미할까요? 이 글에서는 해당 다이어그램을 분석하고, DeepSeek가 제시한 세 가지 경로(NSA, DSA, CSA)와 비교하여 MiniMax가 어떤 길을 선택했는지 살펴봅니다.

1. 다이어그램의 실제 내용: 두 단계, 계산 전 선택
이 다이어그램은 본질적으로 단일 어텐션 블록의 내부 전개를 보여줍니다. 주목해야 할 핵심은 "어떤 KV를 볼 것인가"와 "어떻게 어텐션을 계산할 것인가"를 두 개의 명확한 단계로 분리했다는 점입니다.
1단계: 인덱스 브랜치(Index Branch) — 저비용으로 모든 것의 점수 매기기
상단 절반은 인덱스 브랜치입니다. 이 부분은 메인 경로와 독립적으로 작동하며, 하류(downstream) 단계에 어떤 블록을 확인해야 할지 알려주는 유일한 역할을 합니다.
각 GQA 그룹은 하나의 인덱스 쿼리를 공유합니다(다이어그램에는 6개의 실제 헤드와 2개의 Idx Q가 쌍을 이루며, GQA 그룹당 하나씩 존재). 인덱스 브랜치의 KV 측면은 의도적으로 차원이 축소되어 있습니다.

K_idx는 단 하나의 헤드만 가진다는 점에 주목하세요. 모든 헤드가 동일한 인덱스 키를 공유합니다. 결과적으로 Q_idx · K_idxᵀ 계산 비용은 거의 들지 않습니다.
그 후 Block Max Pool이 토큰 수준의 점수를 블록 수준의 점수로 압축합니다.

마지막으로 TopK가 이 레이어와 이 GQA 그룹에 유지할 KV 블록을 결정하며, 그 결과가 I₁, I₂가 됩니다.
2단계: 희소 브랜치(Sparse Branch) — 실제 어텐션이 실행되는 곳
하단 절반은 실제 어텐션 계산이 일어나는 곳입니다. Q ∈ ℝ^{n×H×d}, **K, V ∈ ℝ^{n×h×d}**는 여전히 표준 GQA 형태를 유지합니다. 1단계의 I₁, I₂를 인덱스로 사용하여 원래 K/V에서 해당 블록 하위 집합을 추출한 뒤 다음을 실행합니다.

핵심 설계 선택: 동일한 GQA 그룹 내의 쿼리 헤드들은 단일 Top-K 선택을 공유합니다. 다이어그램에서 Q1/Q2/Q3는 모두 I₁을 사용하고, Q4/Q5/Q6는 모두 I₂를 사용합니다. 이는 NSA 논문에서 강조하는 하드웨어 친화적 원칙입니다. 즉, 한 그룹의 쿼리가 한 세트의 KV 블록을 로드하여 SRAM에 한 번에 들어가게 함으로써, FlashAttention 스타일 커널을 수정 없이 재사용할 수 있게 합니다.
2. DeepSeek 제품군 대비 세 가지 의도적인 생략
커뮤니티는 즉시 이 설계를 DeepSeek의 NSA / DSA / CSA와 비교했습니다. @eliebakouch의 요약은 한 줄로 충분합니다. "MLA가 아닌 GQA, CSA와 같은 블록 수준 선택 방식, 하지만 어텐션은 실제 K/V에서 계산됨." 이를 표로 정리하면 다음과 같습니다.
| 구분 | DeepSeek V3.2 DSA | DeepSeek NSA | DeepSeek V4 CSA | MiniMax M3 (추정) |
|---|---|---|---|---|
| KV 기판 | MLA (latent) | GQA | MLA | GQA |
| 선택 단위 | 토큰 단위 | 블록 단위 | 블록 단위 | 블록 단위 |
| 병렬 브랜치 | 1 (인덱서 + 선택) | 3 (압축 + 선택 + 슬라이딩) | 1 | 1 (선택 전용) |
| 어텐션 실행 위치 | 실제 K/V | 3방향 융합 | 압축된 KV | 실제 K/V |
| 인덱서 비용 | Lightning 인덱서 | 압축 브랜치 | 블록 요약 | 단일 헤드 K + Block Max Pool |
| 게이팅 | 없음 | 학습된 게이트 | 없음 | 없음 |
세 가지 절충안이 드러납니다.
첫째, MLA가 아닌 GQA를 기반으로 사용합니다. 이는 vLLM, SGLang, FlashAttention 커널을 거의 수정 없이 재사용할 수 있음을 의미하며, MLA의 Latent KV를 다루기 위해 필요한 공학적 비용이 발생하지 않습니다. "상용화 준비 완료"를 목표로 하는 연구소 입장에서 가장 위험이 낮은 경로입니다.
둘째, 블록 단위 선택을 수행하되 어텐션은 실제 K/V에서 계산합니다. 압축된 KV에서 어텐션을 수행하는 CSA와 달리, M3는 Softmax 어텐션의 전체 표현력을 유지합니다. 대가로 KV 캐시가 어텐션 희소화와 함께 줄어들지는 않지만, 토큰 경제성보다 품질을 선택하는 것은 합리적인 거래입니다.
셋째, NSA의 다른 두 브랜치를 제거했습니다. NSA는 원래 세 개의 병렬 경로(압축 + 선택 + 슬라이딩 윈도우)와 학습된 게이트를 가집니다. M3는 오직 선택 기능만 남겼습니다. @teortaxesTex가 간결하게 표현했듯, "간소화된 NSA"입니다. 한마디로 공학적 효율을 우선시한 것입니다.
제거된 두 브랜치 중 슬라이딩 윈도우는 아마도 RoPE + 어텐션 싱크(Attention Sink)로 대체되었거나, 레이어별 폴백(fallback)으로 밀집(dense) 어텐션을 사용하는 것으로 보입니다(Gemma 3와 Qwen3-Next도 이 방식을 사용). 압축 브랜치는 최소한의 "단일 헤드 K + Block Max Pool"로 흡수되었습니다.
3. 수치 해석
| 단계 | 1M 기준 속도 향상 | 의미 |
|---|---|---|
| Prefill | 9.7배 | 100만 토큰 입력을 한 번에 처리 |
| Decode | 15.6배 | 토큰 단위 생성 |
디코딩 속도 향상이 프리필보다 큰 것은 합리적입니다. 프리필 중에는 인덱스 브랜치가 여전히 전체 길이를 스캔해야 하므로 메인 어텐션에서의 절감 효과만 나타납니다. 반면 디코딩 중에는 각 쿼리가 선택된 KV 블록과만 상호작용하므로 KV 캐시의 메모리 대역폭 압력이 약 10배가량 감소합니다.
선택 비율을 역산해 보면: 블록 크기를 64라고 가정하면 100만 토큰은 약 1만 6천 개의 블록에 해당합니다. 15.6배의 디코딩 속도 향상은 각 쿼리가 실제 블록의 약 67%에만 접근한다는 것을 의미하며, 유효 수용 영역(receptive field)은 약 6만7만 토큰이 됩니다. 이 비율은 NSA 논문이 보고하는 희소성 비율(6~10%)과 거의 정확히 일치하며, 이는 100만 토큰 규모에서 이러한 설계가 도달할 수 있는 황금 비율입니다.
4. M3의 나머지 부분 추정
이 어텐션 블록에서 전체 모델로 확장해 보면 다음과 같습니다.
MoE 백본은 유지될 가능성이 큽니다. M2는 총 230B / 활성 10B / Top-2 라우팅 / 히든 차원 약 4096으로 출시되었으며, M2.7은 전문가 수를 256개까지 늘렸습니다. M3가 이를 버릴 이유는 없으며, 더 깊고 넓어지는 방향이 가장 유력합니다.
전체 어텐션 스택이 블록 희소(block-sparse) GQA로 교체될 것입니다. M1의 Lightning Attention이 다시 돌아올 가능성은 낮습니다. M3는 다시 선형 어텐션에 베팅하는 것이 아니라 "Softmax의 표현력 + Top-K 블록 선택" 경로를 택하여 품질을 보존하면서 서브 이차(sub-quadratic) 복잡도를 달성하고 있습니다.
희소성은 네이티브로 학습될 가능성이 높습니다. 이것이 NSA 논문의 핵심 메시지입니다. 희소 패턴은 사전 학습 중 그래디언트에 반영되어야 하며, 그렇지 않으면 검색 헤드(retrieval heads)가 망가집니다. MiniMax는 검색 헤드 관련 자체 연구 라인을 보유하고 있으므로 이 함정에 빠지지는 않을 것입니다.
전장은 100만+ 문맥입니다. M1은 100만 토큰으로 학습되어 추론 시 400만까지 확장되었습니다. M3는 이를 고착화하고 추론 비용을 대폭 절감하는 아주 자연스러운 제품 업데이트 경로를 걷고 있습니다.
5. 2026년 설계 공간 내에서의 M3 위치
2025~2026년에 걸쳐 희소 어텐션 설계는 빠르게 분화되었습니다.
- DeepSeek V3.2 DSA: MLA + 토큰 단위 Top-K, 매우 가벼운 인덱서, 품질 안정성은 최고이나 복잡한 커널 엔지니어링 필요
- DeepSeek NSA: GQA, 세 개의 브랜치 + 게이트, 품질 상한선은 높으나 복잡한 구현
- Qwen3-Next: 레이어별 혼합, 밀집(dense) / 선형(linear) 교차, 견고하지만 상대적으로 보수적
- MiniMax M3: GQA + 단일 브랜치 블록 선택, 미니멀리즘, 하드웨어 친화적
M3 설계의 이면에는 "이론적으로 최적인 어텐션을 쫓지 말고, 당장 빠르고 효율적으로 실행되며 기존 커널을 재사용할 수 있는 어텐션을 쫓으라"는 분명한 메시지가 담겨 있습니다. 이는 M2에서 풀 어텐션으로 회귀했던 그들의 결정과 일맥상통합니다. 먼저 주류 방법론으로 품질을 안정화한 뒤, 기술이 실제로 성숙했을 때 깔끔하게 교체하는 방식입니다.
맺음말
단 하나의 다이어그램만으로는 희소 패턴의 레이어별 혼합 여부, 밀집 폴백의 존재 여부, 인덱스 브랜치와 메인 네트워크의 임베딩 공유 여부, 학습 시 Top-K의 경성/연성 여부, 인덱스 브랜치 손실 함수 등 많은 세부 사항을 확인할 수 없습니다. 이 모든 것은 공식 논문이나 가중치 공개를 기다려야 합니다.
하지만 한 가지는 확실합니다. DeepSeek를 따라 또 다른 중국 연구소(MiniMax)가 "희소 어텐션 + 긴 문맥 + 오픈 가중치"라는 작동 가능한 스택을 구축해냈습니다. 2026년 하반기에 오픈 소스 영역에서 100만 문맥은 차별점이 아닌 기본 사양이 될 것이며, 그 사실 자체가 그 어떤 개별 벤치마크보다 중요한 의미를 갖습니다.
참조
- Skyler Miao (MiniMax R&D lead), 트윗 원문: Something BIG is coming
- 커뮤니티 정리: MiniMax details its M3 sparse attention architecture
- MiniMax 블로그: Why Did M2 End Up as a Full Attention Model?
- DeepSeek NSA 논문: Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention
- DeepSeek V3.2 DSA 분석: Architectural Efficiency in LLMs: DeepSeek-V3.2-Exp and DSA
- Sebastian Raschka: A Technical Tour of the DeepSeek Models from V3 to V3.2
- MiniMax-01 기술 보고서: Scaling Foundation Models with Lightning Attention







