في 26 مايو، نشر "سكايلر ميا"، رئيس قسم البحث والتطوير في MiniMax، مخططاً بيانياً على منصة X — يتميز بلوحة ألوان هادئة، لكنه يحمل الكثير من المعلومات. يحمل المخطط عنوان MiniMax Sparse Attention (الانتباه المتناثر لدى MiniMax)، ويقدم المنحنيان الموجودان على اليمين زوجاً من الأرقام اللافتة: تسريع بمقدار 9.7 ضعف في مرحلة التعبئة المسبقة (Prefill) و15.6 ضعف في مرحلة فك التشفير (Decode) عند 1 مليون رمز (Tokens).
لقد فسّر المجتمع هذا المنشور شبه بالإجماع على أنه تشويق لنموذج M3. لكن الأهمية تتجاوز كونها "مجرد نموذج آخر طويل السياق".
في أكتوبر الماضي، نشرت MiniMax تدوينة بعنوان لماذا انتهى الأمر بـ M2 كنموذج انتباه كامل (Full Attention)؟. كانت التدوينة مباشرة بشكل غير معتاد: لم يرث M2 تقنية "انتباه البرق" (Lightning Attention) من M1 لأن "الانتباه الفعال لم يكن جاهزاً للإنتاج بعد". بعد ستة أشهر، يظهر M3، والسياق الضمني هو جملة واحدة: هذه المرة، هو جاهز.
إذن، كيف يبدو "هذه المرة هو جاهز"؟ يستعرض هذا المقال المخطط، ثم يقارنه بالمسارات الثلاثة التي حددتها DeepSeek — وهي NSA وDSA وCSA — لمعرفة المسار الذي اختارته MiniMax.

1. ما يظهره المخطط فعلياً: مرحلتان، اختر قبل أن تحسب
المخطط هو في الأساس كشف داخلي لكتلة انتباه واحدة. الخطوة التي يتخذها — والتي تستحق الاهتمام — هي فصل "أي مفاتيح/قيم (KV) يجب النظر إليها" و"كيفية حساب الانتباه" إلى خطوتين منفصلتين بوضوح.
الخطوة 1: فرع الفهرس — تقييم كل شيء بتكلفة منخفضة
النصف العلوي هو فرع الفهرس. يعمل بشكل مستقل عن المسار الرئيسي بمهمة واحدة فقط: إخبار المسار التالي بالكتل التي يجب النظر إليها.
تشترك كل مجموعة GQA في استعلام فهرس واحد (ستة رؤوس حقيقية مقترنة برأسي Idx Q في المخطط، واحد لكل مجموعة GQA). تم تقليل أبعاد جانب الـ KV في فرع الفهرس بشكل متعمد:

لاحظ أن K_idx لديه رأس واحد فقط — تتشارك جميع الرؤوس في نفس مفتاح الفهرس. ونتيجة لذلك، فإن حساب Q_idx · K_idxᵀ لا يكلف شيئاً تقريباً.
ثم يقوم Block Max Pool بضغط درجات مستوى الرمز إلى درجات مستوى الكتلة:

وأخيراً، يقرر TopK أي كتل KV يجب الاحتفاظ بها لهذه الطبقة وهذه المجموعة GQA؛ والنتيجة هي I₁، I₂.
الخطوة 2: الفرع المتناثر (Sparse Branch) — حيث يعمل الانتباه فعلياً
النصف السفلي هو المكان الذي يحدث فيه حساب الانتباه الحقيقي. Q ∈ ℝ^{n×H×d}، K, V ∈ ℝ^{n×h×d}، لا تزال في شكل GQA القياسي. باستخدام I₁، I₂ من الخطوة 1 كمؤشرات، نستخرج مجموعات الكتل المقابلة من K/V الأصلية ونقوم بالتشغيل:

خيار تصميم رئيسي: تتشارك رؤوس الاستعلام داخل نفس مجموعة GQA في اختيار top-k واحد. في المخطط، تستخدم Q1/Q2/Q3 جميعها I₁، وتستخدم Q4/Q5/Q6 جميعها I₂. هذا هو المبدأ المتوافق مع الأجهزة الذي تؤكد عليه ورقة NSA — مجموعة واحدة من الاستعلامات تحمل مجموعة واحدة من كتل KV، وتتناسب مع SRAM في تمريرة واحدة، ويمكن إعادة استخدام نوى (Kernels) بأسلوب FlashAttention دون تغيير.
2. ثلاث عمليات طرح متعمدة مقارنة بعائلة DeepSeek
قارن المجتمع على الفور هذا التصميم بـ NSA / DSA / CSA من DeepSeek. ملخص @eliebakouch يتلخص في سطر واحد: "GQA وليس MLA، اختيار على مستوى الكتلة مثل CSA ولكن يتم حساب الانتباه على K/V الحقيقية". وبالتوسع في جدول:
| البعد | DeepSeek V3.2 DSA | DeepSeek NSA | DeepSeek V4 CSA | MiniMax M3 (مستنتج) |
|---|---|---|---|---|
| ركيزة KV | MLA (كامنة) | GQA | MLA | GQA |
| دقة الاختيار | مستوى الرمز | مستوى الكتلة | مستوى الكتلة | مستوى الكتلة |
| الفروع المتوازية | 1 (فهرسة + اختيار) | 3 (ضغط + اختيار + نافذة منزلقة) | 1 | 1 (اختيار فقط) |
| مكان عمل الانتباه | K/V حقيقية | دمج ثلاثي الاتجاهات | KV مضغوطة | K/V حقيقية |
| تكلفة الفهرس | فهرس البرق | فرع الضغط | ملخصات الكتل | رأس K واحد + Block Max Pool |
| البوابة (Gating) | لا يوجد | بوابة متعلمة | لا يوجد | لا يوجد |
تظهر ثلاثة مفاضلات:
الطرح الأول: GQA كركيزة، وليس MLA. هذا يعني أنه يمكن إعادة استخدام نوى vLLM وSGLang وFlashAttention مع تعديلات قليلة أو بدون تعديلات — دون الحاجة إلى أي هندسة للالتفاف على KV الكامنة في MLA. بالنسبة لمختبر يهدف إلى "جاهزية الإنتاج"، فهذا هو المسار الأقل مخاطرة.
الطرح الثاني: اختيار على مستوى الكتلة، مع حساب الانتباه على K/V الحقيقية. على عكس CSA، الذي يجري الانتباه على KV مضغوطة، يحتفظ M3 بالقوة التعبيرية الكاملة لانتباه softmax. التكلفة هي أن ذاكرة التخزين المؤقت KV لا تتقلص مع تشتيت الانتباه — لكن مقايضة اقتصاد الرموز بالجودة هي صفقة معقولة.
الطرح الثالث: اختفاء فرعي NSA الآخرين. كان لدى NSA في الأصل ثلاثة مسارات متوازية (ضغط + اختيار + نافذة منزلقة) بالإضافة إلى بوابة متعلمة. يحتفظ M3 بالاختيار فقط. وصفه @teortaxesTex بإيجاز — NSA مبسط وانسيابي. باختصار: الهندسة أولاً.
من بين الفرعين اللذين تم حذفهما، من المرجح أن النافذة المنزلقة قد تم استبدالها بـ RoPE + sink الانتباه، أو ببساطة بانتباه كثيف كخيار احتياطي لكل طبقة (كلا نموذجي Gemma 3 وQwen3-Next يقومان بذلك). أما فرع الضغط فقد تم امتصاصه في "رأس K واحد + Block Max Pool" البسيط.
3. كيفية قراءة الأرقام
| المرحلة | التسريع @ 1M | ماذا يعني ذلك |
|---|---|---|
| التعبئة (Prefill) | 9.7× | معالجة 1M رمز من المدخلات في تمريرة واحدة |
| فك التشفير (Decode) | 15.6× | توليد رمز تلو الآخر |
تجاوز تسريع فك التشفير لمرحلة التعبئة أمر معقول. أثناء التعبئة، لا يزال يتعين على فرع الفهرس مسح الطول الكامل، لذا فإن التوفير يكون في الانتباه الرئيسي فقط. أثناء فك التشفير، يتفاعل كل استعلام فقط مع كتل KV المختارة، وتنخفض ضغوط نطاق الذاكرة على ذاكرة التخزين المؤقت KV بنحو درجة من حيث الحجم.
بافتراض نسبة اختيار: حجم الكتلة = 64، لذا 1M رمز تقابل ~16 ألف كتلة. تسريع فك التشفير بمقدار 15.6 ضعف يعني أن كل استعلام يلمس فعلياً حوالي 6-7% فقط من الكتل، مما يعطي مجال استقبال فعال يبلغ حوالي 60 ألف - 70 ألف رمز. تقع هذه النسبة تقريباً فوق معدل التشتت الذي تذكره ورقة NSA (6-10%) — وهذا ليس صدفة، بل هو النقطة المثالية لهذا النوع من التصميم على مقياس 1 مليون.
4. استنتاج بقية مواصفات M3
بالاستقراء من كتلة الانتباه هذه إلى النموذج الكامل:
من المرجح أن تظل بنية MoE. تم شحن M2 بـ 230 مليار إجمالي / ~10 مليار نشط / توجيه Top-2 / بعد مخفي ~4096؛ وقد رفع M2.7 عدد الخبراء إلى 256. لا يوجد سبب يدعو M3 للتخلي عن هذا، لذا فإن التغيير الأكثر ترجيحاً هو التعمق والتوسع.
سيتم استبدال كومة الانتباه الكاملة بـ GQA متناثرة الكتل. من غير المرجح أن تعود تقنية Lightning Attention الخاصة بـ M1 — فـ M3 لا يراهن على الانتباه الخطي مرة أخرى، ولكنه يتخذ مسار "تعبيرية softmax + اختيار كتل top-k"، محققاً تعقيداً دون تربيعي مع الحفاظ على الجودة.
على الأرجح تشتت مدرب محلياً. هذه هي الرسالة المركزية لورقة NSA — يجب أن يدخل النمط المتناثر في التدرجات أثناء التدريب المسبق، وإلا ستختلط رؤوس الاسترجاع. لدى MiniMax خط بحث خاص بها حول رؤوس الاسترجاع، لذا لا ينبغي أن يقعوا في هذا الفخ.
ساحة المعركة هي سياق 1M+. تم تدريب M1 على 1M ويستقرئ إلى 4M عند الاستنتاج؛ M3 يثبت ذلك ويخفض تكلفة الاستنتاج — وهو إيقاع منتج طبيعي جداً.
5. وضع M3 في مساحة تصميم 2026
عبر عامي 2025-2026، تباعدت تصميمات الانتباه المتناثر بسرعة:
- DeepSeek V3.2 DSA: MLA + top-k على مستوى الرمز، مفهرس خفيف جداً، جودة مستقرة ولكن هندسة نوى معقدة.
- DeepSeek NSA: GQA، ثلاثة فروع + بوابة، سقف جودة أعلى ولكن تنفيذ معقد.
- Qwen3-Next: مزيج على مستوى الطبقة، تناوب كثيف / خطي، قوي ولكنه متحفظ نسبياً.
- MiniMax M3: GQA + اختيار كتلة بفرع واحد، بسيط، يركب موجة الأجهزة.
السياق الضمني لتصميم M3 واضح لا لبس فيه — "لا تطارد الانتباه الأمثل نظرياً؛ طارد ذلك الذي يعمل فوراً، ويعمل بسرعة، ويسمح بإعادة استخدام النوى الموجودة". إنه جزء من قرارهم بالعودة إلى الانتباه الكامل في M2: استقرار الجودة بالأساليب السائدة أولاً، ثم الاستبدال بشكل نظيف بمجرد أن تنضج التكنولوجيا حقاً.
أفكار ختامية
لا يمكن تأكيد الكثير من التفاصيل من مخطط واحد: ما إذا كان النمط المتناثر مختلطاً على مستوى الطبقة، وما إذا كان هناك خيار احتياطي كثيف، وما إذا كان فرع الفهرس يتشارك في التضمينات مع الشبكة الرئيسية، وما إذا كان top-k وقت التدريب صعباً أم ناعماً، وكيف تمت صياغة خسارة فرع الفهرس... كل هذا يجب أن ينتظر الورقة الرسمية أو إصدار الأوزان.
لكن شيئاً واحداً قد تم حسمه بالفعل: بعد DeepSeek، قام مختبر صيني آخر بجمع "انتباه متناثر + سياق طويل + أوزان مفتوحة" كحزمة عمل. في النصف الثاني من عام 2026، من المرجح أن ينتقل سياق 1 مليون في مجال المصدر المفتوح من كونه نقطة بيع إلى كونه أساساً — وهذا في حد ذاته يهم أكثر من أي مقياس أداء فردي.
المراجع
- سكايلر ميا (رئيس البحث والتطوير في MiniMax)، تغريدة أصلية: شيء كبير قادم
- ملخص المجتمع: MiniMax توضح بنية الانتباه المتناثر لنموذج M3
- مدونة MiniMax: لماذا انتهى الأمر بـ M2 كنموذج انتباه كامل؟
- ورقة DeepSeek NSA: _الانتباه المتناثر الأصلي: _الانتباه المتناثر المتوافق مع الأجهزة والقابل للتدريب بشكل أصلي
- مقال عن DeepSeek V3.2 DSA: الكفاءة المعمارية في النماذج اللغوية الكبيرة: DeepSeek-V3.2-Exp وDSA
- سيباستيان راشكا: جولة تقنية في نماذج DeepSeek من V3 إلى V3.2
- التقرير التقني لـ MiniMax-01: توسيع نطاق النماذج التأسيسية باستخدام انتباه البرق







