RSpqXx0wq8Q
في 19 مايو 2026، خلال مؤتمر Google I/O، أطلقت DeepMind نموذج Gemini Omni. وفي اليوم نفسه، نُشر دليل توجيهات Gemini Omni على موقع وثائق DeepMind، بين بطاقة نموذج Omni Flash وملاحظات واجهة برمجة التطبيقات (API). شاهد معظم الناس العروض التوضيحية في الكلمة الرئيسية، بينما ظلت الوثيقة غير مقروءة إلى حد كبير.
لنبدأ بالحقائق السريعة. Gemini Omni هو نموذج التوليد متعدد الوسائط الجديد من DeepMind. المنتج الأول، Gemini Omni Flash، يقوم بتوليد فيديوهات تصل مدتها إلى 10 ثوانٍ من أي مزيج من المدخلات (نص، صورة، صوت، أو فيديو). تحمل جميع المخرجات علامة SynthID المائية. حصل مشتركو AI Plus وAI Pro وAI Ultra على وصول فوري، بينما يحصل مستخدمو YouTube Shorts وتطبيق YouTube Create على وصول مجاني بدءاً من أسبوع الإطلاق (وفقاً لتقرير Gagadget). أما الوصول عبر API فسيكون "متاحاً خلال أسابيع" وفقاً لـ Google.
بالعودة إلى دليل التوجيهات، يوضح دليل Google DeepMind التحول بشكل مباشر تحت قسم "فهم العالم" (World understanding):
مع Veo، كنت بحاجة إلى مشاركة تعليمات دقيقة للحصول على أفضل النتائج. لكن مع Gemini Omni، لست مضطراً لأن تكون مقيداً في توجيهاتك. بدلاً من ذلك، أخبر Omni بما تريد إنشاءه، وشاهد كيف تجعل مهارات الاستدلال والمعرفة بالعالم لدى النموذج التفاصيل تنبض بالحياة.
الخلاصة: اكتب أقل.
اقرأ هذا جنباً إلى جنب مع أدلة التوجيهات التي تنشرها ByteDance وKuaishou لنماذج الفيديو الخاصة بهما. تختلف الإطارات لكنها تشير إلى نفس الاتجاه.

توثق ByteDance نموذج Seedance 2.0 على منصة المطورين الدولية الخاصة بها من خلال دليل توجيهات BytePlus ModelArk. الهيكل الموصى به: الموضوع + الحركة (+ البيئة + الجماليات + حركة الكاميرا/اللقطة + الصوت). ليس كل مكون مطلوباً، اختر ما يناسب لقطتك.
يؤطر دليل ترجيح التوجيهات في Kuaishou الأمر عبر صيغة 5W1H: من، ماذا، أين، متى، لماذا، وكيف. عادة ما يحمل "من" (الموضوع) الأولوية القصوى ويأتي في مقدمة التوجيه، حيث يحدد موضع الكلمة وزنها في Kling 3.0: ما يأتي أولاً يحظى بأكبر قدر من الاهتمام الحسابي. تعمل الخيارات الأسلوبية مثل الوسيط أو المنظور بشكل أفضل في النهاية، حيث تعمل كفلتر للمشهد الذي تم إنشاؤه بالفعل. يحذر الدليل من تكديس العناصر بشكل أعمى؛ فالكثير من الكلمات المفتاحية المتعارضة تقلل من الجودة.
توصلت ثلاث شركات إلى هذه النصيحة بشكل مستقل، مما يشير إلى أن نماذجها وصلت إلى مستوى قدرات مماثل في نفس الوقت تقريباً. تخبرك Google بأن تكتب أقل، وتشير ByteDance إلى أن معظم المكونات اختيارية، وتؤكد Kuaishou على ترتيب الكلمات أكثر من حجمها. تختلف الصيغ المحددة، لكن جميع المختبرات الثلاثة توجه المبدعين نحو توجيهات أكثر مرونة وطبيعية.
الآن إلى كيفية عمل دليل توجيهات Gemini Omni في الممارسة العملية.
هيكل توجيهات Gemini Omni: 5 أبعاد تستخدمها Google DeepMind
يفتتح الدليل بمثال كامل:
لقطة تتبع واسعة الزاوية تنزلق برفق عبر بحيرة هادئة، تكشف عن جسم ضخم وعاكس يشبه حبة الكروم يطفو دون عناء في الأعلى، ويدور ببطء ليكشف عن انعكاساته المشوهة للمنحدرات المهيبة وجسم مماثل أصغر مغمور جزئياً في الماء الأزرق الصافي بالأسفل، بينما تشرق شمس ساطعة خلف الجسم العائم، فتغمر المشهد بأكمله بضوء نهار نقي وأثيري مع درجات أزرق وخضراء نابضة بالحياة، مما يخلق أجواء سينمائية ومذهلة تؤكدها موسيقى أوركسترالية مهيبة وغريبة تؤكد على اتساع وغموض المناظر الطبيعية الغريبة، مع طنين خافت وعميق ينبعث من الجسم العائم.
_SpuwEI0tIU
أكثر من 90 كلمة. قسّمها وستحصل على 5 أبعاد.
- تأطير اللقطة والحركة. زاوية واسعة، متوسطة، أم قريبة؟ هل يجب أن تنزلق الكاميرا برفق أم تندفع فجأة؟ الفعلان ينتجان مخرجات مختلفة بشكل ملحوظ، لذا فإن بضع جولات من التجربة تؤتي ثمارها عند البحث عن إحساس الحركة الصحيح.
- الأسلوب. واقعي، سينمائي، أثيري، مهيب؟ هذا البعد لا يحتاج إلى تفاصيل. أخبر النموذج بالنبرة العاطفية وهذا يكفي.
- الإضاءة. من أين يأتي الضوء؟ الشمس، مصباح شارع، على الكاميرا أم خارج الشاشة؟ هل يجب أن تبدو نقية، دافئة، أم أثيرية؟
- المشهد. جملة واحدة في الدليل تستحق تسليط الضوء عليها: "لست بحاجة لوصف كل تفصيل صغير، حيث سيعمل Omni مع نيتك العامة". هذا يتطابق مع ما تقوله Seedance وKling في وثائقهما الرسمية.
- الحركة والتفاعل. من وماذا يوجد في المشهد، كيف يتحركون، وكيف يتفاعلون.
التعديل التحادثي في Gemini Omni مقابل إعادة كتابة التوجيه في Veo
ينتج Omni وVeo جودة توليد قابلة للمقارنة. الفارق الحقيقي هو ما يمكنك القيام به بعد إنشاء الفيديو.
سابقاً، كان تغيير تفصيل واحد يعني إعادة كتابة التوجيه بالكامل، وإعادة التوليد، والأمل في الحفاظ على اتساق الإطارات. يستبدل Omni هذه الخطوة بمحادثة.
يقدم الدليل الرسمي بضع أمثلة.
فيديو بأسلوب "ستوب موشن" لطفل صغير. التعديل الأول: "غيّر الفراشة إلى نحلة". التالي: "غيّر النحلة إلى سرب صغير من اليراعات". يتغير عنصر واحد لكل دور؛ بينما يتم الحفاظ على الإطارات الأخرى تلقائياً.
5zDLZZccPTY
تعمل الكاميرا بنفس الطريقة. فيديو لعازف كمان يحصل على ثلاثة أوامر متتالية: "انقل عازف الكمان إلى بيئة الصورة"، "اجعل الكمان غير مرئي"، "غيّر زاوية الكاميرا لتكون فوق كتف عازف الكمان". تبديل البيئة، إزالة الأشياء، إعادة تموضع الكاميرا، كل ذلك عبر اللغة الطبيعية.
jXnbo0gBMHQ
هناك ملاحظة تستحق التنبيه. لاحظ المراجعون الخارجيون أنه إذا كانت تعليمات التعديل غامضة جداً، يميل Omni إلى "الإفراط في التعديل"، مما يغير عناصر كنت تريد الاحتفاظ بها. توصية Google: غيّر متغيراً واحداً في كل دور، واذكر صراحة ما يجب أن يظل كما هو.
مثال المزامنة متعددة الوسائط أكثر إثارة للاهتمام. خذ فيديو ليلي لمبنى سكني، وأضف الأمر "أضواء الشقق تبدأ في الإضاءة بالتزامن مع الموسيقى". يحلل النموذج الإيقاعات في الموسيقى التصويرية ويطابق أضواء النوافذ معها. القيام بذلك في After Effects يتطلب جدولاً زمنياً، وجهاز مِترونوم، ومفاتيح حركة يدوية لكل إطار.
93oo4Yvghl8
قدرات Gemini Omni الأربع المتقدمة: المعرفة بالعالم، عرض النصوص، مرجع الحركة، تعدد المدخلات
النصف الثاني من الدليل يوضح 4 قدرات.
المعرفة بالعالم المطبقة
مثال التوجيه: اشرح الفرق بين الحوسبة العادية والحوسبة الكمومية. تصور هذه الجملة باستخدام أسلوب الوسائط المسطحة المعاصرة التي تمزج بين الأشكال المتجهة البسيطة والقوام العضوي الغني. الأسلوب محدد بلوحة ألوان "كهربائية" عالية التباين من الوردي النيون، والسماوي، والأخضر الليموني على خلفية زرقاء داكنة. السمة المميزة لهذا الأسلوب هي استخدام التظليل المنقط والتدرجات المحببة، مما يضيف جودة ملموسة تشبه طباعة الريسوجراف إلى الأشكال الهندسية البسيطة. من خلال الجمع بين الحواف الحادة وهذه التحولات المنقطة والناعمة، يحقق الرسم إحساساً مرحاً وتحريرياً.
يعرف النموذج بالفعل ما هو التراكب الكمي وكيفية نقله من خلال مجموعة مقارنة من اللقطات. لا يحتاج المستخدم إلى شرح ميكانيكا الكم، فقط النبرة البصرية.
3b29A-7qHvE
يعمل هذا لأن Omni يعمل على نموذج استدلال متطور، وهو ما لا تستطيع نماذج فيديو "التوليد فقط" مضاهاته. ديميس هاسابيس، في مقابلة مع Semafor بعد مؤتمر I/O، وصف Omni بأنه خطوة واحدة في مشروع بناء ذكاء اصطناعي يفهم العالم الحقيقي بشكل أفضل. وأشار إلى أن Waymo، قسم السيارات ذاتية القيادة في Alphabet، تختبر بالفعل نماذج عالمية مماثلة لمنح السيارات المستقلة نوعاً من "الخيال" للتعامل مع المواقف غير المتوقعة. توليد الفيديو هو مجرد التطبيق الأكثر وضوحاً لتلك البنية.
عرض النصوص
مثال التوجيه: كلمة بكلمة، كلمة واحدة على الشاشة في كل مرة، كل كلمة بأسلوب متحرك مختلف، إيقاع مثالي مع التوقيت، فيديو ترويجي جذاب.
_NV7lrxo6Ik
مرجع الحركة المعقدة
مثال التوجيه: عدل هذا مع الحفاظ على كل شيء كما هو، أضف تأثيرات حركة متحركة تنبعث من لوح التزلج.
b94aat8s22c
مرجع تعدد المدخلات
مثال التوجيه: الطيور من الفيديو تشكل بشكل فضفاض الشكل غير المكتمل لطائر بناءً على الصورة. تتحرك على أنغام الموسيقى من الصوت وتتلاشى أثناء طيرانها.
3jdeP-az3oQ
نقل الأسلوب
مثال التوجيه: أنشئ تدرجاً أسلوبياً من أربعة أجزاء لمرجع الفيديو يبدأ بجماليات تلوين شمعية نابضة بالحياة، تتميز بضربات غنية وشمعية وملموسة وتصميمات شخصيات مرحة مرسومة باليد على خلفية من الورق المحبب بشدة. انتقل بسلاسة إلى رسم بقلم الجرافيت على ورق محبب، باستخدام التظليل المتقاطع، وأوزان خطوط متفاوتة، وتأثير "غليان الخط" بسرعة 12 إطاراً في الثانية للتأكيد على الشعور بالرسم اليدوي. بعد ذلك، تحول إلى أسلوب زجاجي شفاف ثلاثي الأبعاد فائق الواقعية، يتميز بكسر الضوء المعقد، وأنماط التوهج، وتوهجات داخلية ناعمة داخل استوديو بسيط. اختتم التسلسل بمظهر مطبوعة ريسوجراف ملموسة، باستخدام لوحة محدودة من ثلاثة ألوان، وقوام نصفي محبب، وتراكبات تسجيل مقصودة للحصول على لمسة نهائية ميكانيكية قديمة.
n9TesZsfVNw
مرجع لوحة القصة (Storyboard)
التوجيه: أرني في هذه القصة. اتبع القصة بالضبط بالترتيب بدءاً من أعلى اليسار. القصة كاملة في 10 ثوانٍ. سينمائي.
uT937Ptk9fg
اتساق اللقطات المتقاطعة
RSpqXx0wq8Q
لماذا تتقارب نصائح توجيهات Gemini Omni وSeedance من ByteDance وKling من Kuaishou
بالعودة إلى الملاحظة السابقة. التشابه في نصائح التوجيه من Seedance وKling وOmni ليس نتيجة للاقتباس المتبادل. الأكثر منطقية هو أن هذا الجيل من النماذج وصل إلى مستوى قدرات مماثل بمفرده.
بمجرد أن يتمكن النموذج من التعامل مع اللغة الطبيعية على مستوى المشهد، وتكميل التفاصيل بالمعرفة بالعالم، واستنتاج ما يقصده المستخدم فعلياً، يصبح "الإفراط في الوصف" هو عنق الزجاجة. تختلف المختبرات الثلاثة حول مقدار الهيكل الذي يجب إضافته، لكنها تتفق على أن الحل ليس في الاستمرار في الكتابة أكثر.
هذه هي نتيجة عامين من نماذج الانتشار المدربة بشكل مشترك مع نماذج لغوية كبيرة. يدفع Omni النتيجة إلى حالة مكتملة نسبياً.
استدعاء Gemini Omni عبر Atlas Cloud: واجهة برمجة تطبيقات موحدة لـ Seedance وKling وVeo
يأتي Gemini Omni إلى Atlas Cloud. تجمع Atlas Cloud أكثر من 300 نموذج ذكاء اصطناعي عبر النصوص والصور والفيديو والصوت. تعمل نماذج الفيديو الرئيسية بالفعل على المنصة: Seedance 2.0، وKling 3.0، وWan 2.7، وVeo، وغيرها. للمقارنة جنباً إلى جنب، راجع تحليل Atlas Cloud المعمق لـ Wan 2.7 مقابل Seedance 2.0 مقابل Kling 3.0.
حساب واحد يدير العملية برمتها. لا حاجة للتسجيل، أو الدفع، أو الاحتفاظ بمفاتيح API عبر منصات إقليمية متعددة. تدعم "ساحة اللعب" (Playground) التصحيح التفاعلي. وتعمل واجهة برمجة تطبيقات موحدة متوافقة مع OpenAI بسلاسة داخل سير العمل الحالي.
تحتوي مكتبة التوجيهات في Atlas Cloud على أكثر من عشرين فئة من التوجيهات الجاهزة للاستخدام التي تغطي الأنمي، والخيال العلمي، والغموض، والطعام، وتنسيقات الفيديو (Vlog). يأتي كل توجيه مع فيديو تجريبي وملاحظات حول المعلمات. انسخ، بدّل بضع كلمات، وانطلق.
واجهة برمجة تطبيقات موحدة واحدة لتوليد الفيديو الإنتاجي
بينما تطرح Google نموذج Gemini Omni Flash داخل تطبيق Gemini وGoogle Flow للمستخدمين النهائيين، يحتاج المطورون وفرق الإنتاج الذين يرغبون في دمج نفس محرك الفيديو متعدد الوسائط في سير عملهم الخاص إلى طبقة API مستقرة ويمكن التنبؤ بها.
تقدم Atlas Cloud نموذج Gemini Omni Flash عبر واجهة برمجة تطبيقات موحدة متوافقة مع OpenAI، إلى جانب أكثر من 300 نموذج آخر للصور والفيديو والنماذج اللغوية الكبيرة — حتى تتمكن من دمج نموذج Google متعدد الوسائط دون التلاعب بحسابات البائعين المنفصلة، أو بوابات الدفع، أو مجموعات تطوير البرمجيات (SDKs).
كلا نوعي Gemini Omni Flash متاحان الآن على Atlas Cloud:
| النوع | الأفضل لـ | المدخلات | الدقة | المدة | السعر الابتدائي |
| Gemini Omni Flash (نص إلى فيديو) | التوليد السينمائي المعتمد على التوجيه | نص (حتى 20,000 حرف) | 720p / 1080p / 4K | 4, 6, 8, 10 ثانية | USD0.2 + USD0.1/ثانية |
| Gemini Omni Flash (صورة إلى فيديو) | فيديو متسق الموضوع من مراجع واقعية | نص + حتى 7 صور مرجعية | 720p / 1080p / 4K | 4, 6, 8, 10 ثانية | USD0.2 + USD0.1/ثانية |
بداية سريعة — توليد فيديو Gemini Omni Flash في 5 أسطر:
plaintext1curl -X POST https://api.atlascloud.ai/api/v1/model/generateVideo \ 2 -H "Authorization: Bearer $ATLASCLOUD_API_KEY" \ 3 -H "Content-Type: application/json" \ 4 -d '{ 5 "model": "google/gemini-omni-flash/text-to-video-developer", 6 "input": { 7 "prompt": "A misty forest at golden hour, cinematic dolly shot", 8 "resolution": "1080p", 9 "duration": 8, 10 "aspect_ratio": "16:9" 11 } 12 }'
تُرجع الـ API معرف التنبؤ (prediction ID) على الفور — يمكنك الاستعلام عبر /api/v1/model/prediction/{id} للحصول على رابط ملف MP4 المولد. المخطط الكامل، ونماذج الكود بـ 7 لغات، وساحة لعب بدون كود (no-code Playground) متاحة في صفحات النماذج المرتبطة أعلاه.







