قمنا بتشغيل 6 سيناريوهات، و12 مقطع فيديو، ومجموعة مطالبات (Prompts) مشتركة لمعرفة النتائج.
في 10 أبريل، أصدر فريق ATH التابع لشركة Alibaba نموذج Happy Horse 1.0. وفي غضون أيام، احتل المركز الأول في لوحة صدارة نماذج الفيديو الخاصة بـ Artificial Analysis — حيث سجل 1389 نقطة في T2V Elo و1416 نقطة في I2V Elo، متفوقاً على نموذج Seedance 2.0 من Bytedance بنحو 115 نقطة في جانب تحويل النص إلى فيديو.
إذا كنت تعمل في مجال محتوى الفيديو المعتمد على الذكاء الاصطناعي، أو اختيار المنتجات، أو أبحاث الصناعة، فإن السؤال المباشر واضح: هل يصمد هذا الترتيب أمام أعباء العمل الحقيقية؟
لقد قضينا أسبوعاً في التحقق من ذلك. نفس المطالبات، نفس الأصول المرجعية، ونفس إطار التقييم — تم تشغيل Happy Horse 1.0 وSeedance 2.0 جنباً إلى جنب عبر 6 أنواع من السيناريوهات، بإجمالي 12 مقطع فيديو. تغطي هذه المقالة ثلاثة جوانب: ما الذي جعل Happy Horse يصل إلى القمة بالفعل، ومنهجية التقييم التي استخدمناها (سيصدر ورقة بيضاء كاملة قريباً)، وما كشفته السيناريوهات الستة التي لا تظهرها لوحة الصدارة.
في النهاية، ستكون لديك صورة واضحة حول متى تختار HH، ومتى تختار SD، ولماذا يعد إجراء هذا النوع من المقارنة عبر Atlas Cloud One API — مفتاح واحد، حزمة تطوير برمجية واحدة (SDK)، تبديل بسيط لاسم النموذج — الطريقة الأكثر عملية لاختيار النماذج في الوقت الحالي.
لماذا يتصدر Happy Horse 1.0 لوحة صدارة Elo
بعض الحقائق التي يجدر معرفتها قبل استعراض النتائج.
| Happy Horse 1.0 | Seedance 2.0 | |
|---|---|---|
| الفريق | Alibaba ATH | Bytedance |
| الإصدار | تم الكشف عنه في 10/04/2026، متاح على Atlas Cloud في 27/4 | متاح للجمهور العام |
| البنية | 15B Transformer موحد (توليد مشترك للصوت والفيديو، بدون انتباه متقاطع) | بنية مزيج الخبراء (Mixture-of-experts) |
| الصوت الأصلي | ✅ | ✅ |
| متعدد اللغات | مزامنة الشفاه بـ 7 لغات (الماندرين / الكانتونية / الإنجليزية / اليابانية / الكورية / الألمانية / الفرنسية) | إدخال المطالبات بـ 6 لغات (الصينية / الإنجليزية + اليابانية / الإندونيسية / الإسبانية / البرتغالية) |
| سرعة التوليد | ~38 ثانية لكل مقطع بدقة 1080p على بطاقة H100 واحدة | — |
| تصنيف Artificial Analysis Elo | T2V 1389 (المركز الأول) / I2V 1416 (المركز الأول) | T2V ~1274 |
هناك ثلاثة أسباب جعلته يستحق المركز الأول بجدارة:
بنية Unified Transformer. يتم توليد الصوت والفيديو في نفس التسلسل، وليس دمجاً في مرحلة ما بعد الإنتاج. يتم نمذجة مزامنة الشفاه، وتوقيت الصوت، ونقاط التحرير في وقت واحد. هذا مهم لأن نهج "توليد الفيديو أولاً، ثم إضافة الصوت لاحقاً" غالباً ما ينتج عدم محاذاة مرئية — بينما يتجنب HH ذلك على مستوى البنية.
مزامنة شفاه أصلية بـ 7 لغات. الماندرين، الكانتونية، اليابانية، الكورية، الألمانية، الفرنسية، والإنجليزية. هذا هو أوسع نطاق لمزامنة الشفاه متعددة اللغات في أي نموذج فيديو متاح للجمهور حالياً، وله قيمة حقيقية لإنتاج المحتوى العالمي.
السقف البصري. بالنظر إلى الإطارات الفردية من اختباراتنا، فإن نسيج بشرة HH، وجماليات الإطار الفردي، وتصحيح الألوان السينمائي تتفوق بالفعل على SD. تستخدم Artificial Analysis تقييماً بشرياً أعمى، والمقيمون البشر حساسون للغاية لـ "أيهما يبدو أشبه بفيلم". هذا هو التفسير الرئيسي لفجوة Elo.
لكن Elo هو درجة إجمالية واحدة. يخبرك بمن فاز في المزيد من المواجهات المباشرة — وليس أين فاز، أو أين خسر. الدرجة الإجمالية تحجب الهيكل الحقيقي تحتها. وهذا هو السبب الكامل لبنائنا إطار تقييم مناسب.
إطار تقييم نماذج الفيديو بالذكاء الاصطناعي
لقد قمنا بتجميع "ورقة بيضاء لتقييم نماذج الفيديو بالذكاء الاصطناعي" كاملة — إليك المنهجية الأساسية.
ما تفعله المعايير الحالية (وما لا تفعله)
| النظام | نقاط القوة | القيود |
|---|---|---|
| VBench / VBench-2.0 (معيار أكاديمي) | أبعاد دقيقة (16 + 18 بعداً فرعياً)، تغطي الفيزياء والمنطق العام | إعداد معقد، يتطلب GPU للتشغيل، ليس بديهياً |
| Artificial Analysis Elo (ترتيب أعمى) | يعكس التفضيل البشري الذاتي، قابل للمقارنة عبر النماذج | صندوق أسود، لا يمكن تحديد نقاط الضعف، درجة إجمالية واحدة |
| FVD / CLIP Score (مقاييس كمية) | موضوعية، قابلة للبرمجة | ارتباط محدود بالإدراك البشري |
| اختيار العروض التوضيحية (معيار الصناعة) | تأثير بصري عالٍ | غير قابلة للتكرار، انحياز شديد في الاختيار |
أشارت ورقة VBench v2.0، التي نُشرت في مارس 2026، إلى شيء صريح: حتى أقوى النماذج الحالية تسجل حوالي 50% في المعقولية الفيزيائية. المعيار الذهبي لا يزال يتطور. درجة واحدة في لوحة الصدارة ليست أساساً موثوقاً لاختيار النموذج.
خمسة أبعاد للتقييم
| البعد | سؤال التقييم | العناصر الفرعية الرئيسية |
|---|---|---|
| محاذاة المطالبة بالفيديو | هل المخرجات تتبع التعليمات بدقة؟ | الموضوع / الإجراء / المشهد / الأسلوب / الكمية والعلاقات المكانية |
| الجودة البصرية | هل كل إطار فردي ممتاز؟ | الدقة / الجماليات / العرض / التفاصيل |
| الحركة والفيزياء | هل الحركة تتبع القوانين الفيزيائية؟ | الطبيعية / الفيزياء / النطاق الديناميكي / دقة حركة الكاميرا |
| الاتساق الزمني | هل الإطارات واللقطات متماسكة بمرور الوقت؟ | هوية الموضوع / المشهد / الوميض / اتساق اللقطات المتعددة |
| القدرات متعددة الوسائط | ما الذي يمكن للنموذج فعله بجانب المرئيات؟ | الصوت / مزامنة الصوت والصورة / مزامنة الشفاه / تعدد اللغات / التحكم في الأسلوب |
البعد الخامس — القدرات متعددة الوسائط (الصوت/مزامنة الشفاه/تعدد اللغات/التحكم في الأسلوب) — هو المكان الذي تبرز فيه التمايزات بين النماذج في عام 2026. وهي أيضاً الورقة الرابحة لـ HH.
طريقة الطبقات الثلاث
| الطبقة | حالة الاستخدام | الأدوات |
|---|---|---|
| L1 المقاييس الموضوعية | الفحص واسع النطاق، CI/CD | FVD / CLIP-Score / LAION Aesthetic / DINO / Optical Flow / SyncNet / MLLM-as-Judge |
| L2 مجموعة المهام الموحدة | تقييم البرامج التعليمية، مقارنة المنتجات، نشر الورقة البيضاء | VBench prompt suite / Atlas Cloud Prompt Hub / مطالبات مخصصة لأبعاد معينة |
| L3 المراجعة البشرية العمياء | القرارات النهائية، الإصدار الموجه للجمهور | Double-blind Elo + بطاقة تسجيل من خمسة أبعاد |
تؤكد أوراق بحثية متعددة من 2025-2026 أن استخدام MLLM-as-Judge (استخدام Claude أو GPT-4V كمقيمين) يرتبط بشكل أكبر بكثير بالنتائج البشرية مقارنة بالمقاييس الكمية البحتة. هذا هو العمود الفقري لطبقتنا L1.
مستويات اختيار المطالبات
أكبر مصدر للجدل في المعايير المقارنة ليس المقاييس — بل المطالبات. هيكل مستوياتنا:
| المستوى | التعريف | متى تستخدمه |
|---|---|---|
| A (افتراضي) | مطالبة محايدة للنموذج، مستهدفة لبعد معين — مطالبة واحدة يتم تشغيلها على كلا النموذجين | معيار التقييم الأساسي |
| B (تجنب) | نفس الموضوع، لكن كل نموذج يستخدم مطالبة Hub الخاصة به | لا يستخدم للتسجيل — لعروض العرض التقديمي فقط |
لماذا تضلل الدرجة الواحدة
نماذج الفيديو في 2026 ليست مجرد "نص إلى فيديو". قد يدعم النموذج T2V، I2V، المرجع إلى فيديو، تحرير الفيديو، الصوت الأصلي، ومزامنة الشفاه متعددة اللغات في وقت واحد — ويعمل بشكل مختلف جداً عبر هذه الأنماط. Elo يدمج ذلك في رقم واحد. إطار عملنا يضع علامة على كل تقييم بنمط التشغيل الخاص به ويخرج مصفوفة قدرات، وليس ترتيباً.
ستتضمن الورقة البيضاء الكاملة قالب بطاقة تسجيل، وإجراءات تشغيل قياسية (SOP)، وتوصيات سلسلة الأدوات، ومراجع أكاديمية كاملة. النتائج أدناه تم إنتاجها بموجب هذا الإطار.
6 سيناريوهات: أين يخسر متصدر لوحة الصدارة
اخترنا 6 أنواع من السيناريوهات من Prompt Hub الخاص بـ Atlas Cloud — تغطي جميع أبعاد التقييم الخمسة مع تغطية متوازنة للأنماط. معلمات موحدة عبر جميع التشغيلات: 1080p / 16:9 / seed 42 / مدة مقاسة حسب تعقيد السيناريو (5-15 ثانية).
السيناريو 1: استكشاف الكهف — الجودة البصرية + الصوت المحيط
المطالبة: استكشاف بضوء كشاف لكهف من الحجر الجيري، إضاءة جدران صخرية رطبة وانعكاسات بلورية، شعاع يمر عبر مياه ضحلة مما يخلق أنماط ضوء كاوية، صواعد تلقي بظلال طويلة تتغير مع مصدر الضوء. الصوت المحيط: تقطر الماء، خطوات على صخور رطبة، تنفس في مساحة مغلقة.
| البعد | SD | HH |
|---|---|---|
| فيزياء الضوء الكاوي | ✅ | ✅ |
| إبرازات الصخور الرطبة / نسيج المعادن | يميل إلى "الإفراط في الصقل" | أكثر واقعية ✅ (تفاصيل الصواعد تفوز) |
| الصوت المحيط | التقطير / الخطوات / التنفس — ثلاث طبقات متميزة ✅ | "جودة ذكاء اصطناعي" ملحوظة، طبقات ممتزجة معاً |
يتفوق HH في المرئيات، ويتفوق SD في الصوت. هذا السيناريو يرتبط مباشرة بميزة HH في لوحة الصدارة — تفاصيله البصرية هي بالفعل في مستوى SOTA هنا.
السيناريو 2: مطاردة سيارات هوليوود — كثافة التعليمات
تحتوي المطالبة على 7 أنواع لقطات متميزة في 15 ثانية: لقطة واسعة من الجو ← تتبع أرضي بزاوية منخفضة ← منظور غطاء المحرك (POV) ← لقطة متوسطة بزاوية هولندية ← لقطة مقربة جداً للنافذة الخلفية ← تتبع جانبي بزاوية واسعة ← تراجع جوي.
| البعد | SD | HH |
|---|---|---|
| تنفيذ 7 لقطات | 5/7 لقطات دقيقة ✅ | 2-3 لقطات فقط |
| فيزياء الدخان / الحطام | كثيف وواقعي ✅ | يميل إلى الخفة |
| صوت ثلاثي الطبقات (محرك / إطارات / سطح طريق) | متميز ✅ | مختلط معاً |
| خطأ دلالي | — | رندر "لقطة طائرة بدون طيار" كطائرة حقيقية تدخل الإطار |
يتفوق SD بوضوح. خطأ HH في "الطائرة بدون طيار" مثال واضح على فشل المحاذاة الدلالية — فهو يعرف كلمة "طائرة بدون طيار" لكنه لا يستطيع التمييز بين حركتها كزاوية كاميرا أو كجسم مادي في المشهد.
Happy Horse مقابل Seedance: فجوة فهم التعليمات
ظهر هيكل واحد ثابت:
| مستوى التعليمات | HH | SD |
|---|---|---|
| تعليمات المستوى السطحي (حوار، وضعية، معلمات، عناصر المشهد) | ✅ ينفذ | ✅ ينفذ |
| تعليمات المستوى الدلالي (عكس السرد، هوية الشخصية، التوقيت) | ❌ يفشل | ✅ ينفذ |
| تعبئة اتفاقيات النوع (الإضافة التلقائية لضحك الجمهور، إلخ) | ❌ | ✅ يضيف بشكل استباقي |
هذا ليس سؤالاً حول أي نموذج هو "أفضل". إنهما يعملان على مستويات مختلفة من فهم التعليمات.
أعطِ HH سطراً من الحوار ليقوله، أو وضعية ليقلدها، أو عنصراً في المشهد ليقوم بإنتاجه — سيتعامل مع التفاصيل بشكل جيد، وغالباً ما يكون النسيج البصري متفوقاً. اطلب منه عكس قوس سردي، أو الحفاظ على هوية شخص معين عبر اللقطات، أو اتباع تسلسل من إشارات الإيقاع — سيتوقف عند "إضافة العناصر السطحية" دون الوصول إلى "تنفيذ ما قصدته حقاً".
يعمل SD بالطريقة المعاكسة. أقل دقة في النسيج السطحي، لكنه أكثر موثوقية في السرد العام، ودقة الهوية، والتوقيت — وسيقوم بشكل استباقي بملء العناصر المناسبة للنوع التي لم تحددها المطالبة.
هذا يفسر نتيجة Elo أيضاً. التقييم الأعمى لـ Artificial Analysis حساس جداً لـ "ما الذي يبدو سينمائياً أكثر". السقف البصري لـ HH (نسيج البشرة، تصحيح الألوان، جماليات الإطار الفردي) حقيقي، ويظهر في المقارنات المباشرة. لكن Elo لا يكشف فجوات الفهم الدلالي. كلا الأمرين — المركز الأول وأنماط الفشل — صحيحان في نفس الوقت.
One API: بدل النماذج بتغيير نصي واحد
أول مشكلة هندسية واجهناها في هذا التقييم: HH و SD يستخدمان حزم SDK مختلفة، ونقاط نهاية مختلفة، وطرق مصادقة مختلفة. مجرد تكييف كود العميل سيتطلب ثلاث تنفيذات منفصلة.
لهذا السبب وضعت Atlas Cloud كلاً من Seedance 2.0 و Happy Horse 1.0 خلف نفس مجموعة النماذج ونفس One API. مفتاح واحد، SDK واحد، اسم نموذج واحد.
تفاصيل السيناريو 6 تستحق الذكر مرة أخرى — نقطة نهاية HH تسمى video-edit، ونقطة نهاية SD تسمى reference-to-video. أسماء مختلفة، قدرة مكافئة (كلاهما يقبل إدخال صورة + فيديو مركب). One API يجرد ذلك الاختلاف. المطورون يكتبون تنفيذاً واحداً.
استخدام الواجهة البرمجية (API)
الخطوة 1: احصل على مفتاح API الخاص بك من وحدة التحكم.


الخطوة 2: راجع وثائق API للحصول على تفاصيل نقاط النهاية، ومعلمات الطلب، والمصادقة.
ملاحظة حول النزاهة في قياس الأداء
قبل كتابة هذا، كان لدينا تردد حقيقي: نشر نتائج مثل "HH عرض مشهد الدفع من مبنى كمحادثة" أو "HH ولد وجه شخص خاطئ" — هل سيكون ذلك غير عادل؟
قيمة الورقة البيضاء للتقييم هي بالضبط أنها صادقة. Happy Horse قوي حقاً. الحصول على المركز الأول مرتين في Elo ليس مجرد ضجيج. سيناريوهات فشله تخبرك بدقة متى تختار الخيار الآخر — وهو الهدف الكامل من المعيار المقارن.
القادم:
الورقة البيضاء الكاملة v1.0 — منهجية الأبعاد الخمسة × الطبقات الثلاث الكاملة مع قوالب بطاقات التسجيل، وإجراءات التشغيل، والمراجع الأكاديمية الكاملة (VBench 2.0، Artificial Analysis، AIGCBench، LOVE)
مصفوفة التسجيل الكاملة — 5 أبعاد × 6 سيناريوهات × 2 نموذج، 60 خلية تم تسجيلها بشكل فردي
سلسلة أدوات التقييم — نصوص أتمتة L1 بما في ذلك تنفيذ MLLM-as-Judge
نماذج إضافية — إضافة Veo، Wan، Kling، وغيرها إلى مصفوفة المقارنة
إذا كنت تقوم باختيار نموذج فيديو، اترك حالة استخدامك في التعليقات. ستتضمن الورقة البيضاء v1.0 أبعاد المقارنة التي سأل عنها القراء أكثر من غيرها.
سيتم نشر جميع عينات التقييم، والمطالبات الأصلية، والإطارات المستخرجة، وتفاصيل التسجيل جنباً إلى جنب مع الورقة البيضاء. تم الانتهاء من التقييم الكامل من خلال Atlas Cloud One API على واجهة واحدة.






