دليل أوامر Gemini Omni: الأبعاد الخمسة التي تستخدمها Google

RSpqXx0wq8Q

في 19 مايو 2026، خلال مؤتمر Google I/O، أطلقت DeepMind نموذج Gemini Omni. وفي اليوم نفسه، تم نشر دليل مطالبات Gemini Omni على موقع وثائق DeepMind، وسط بطاقة نموذج Omni Flash وملاحظات واجهة برمجة التطبيقات (API). ورغم أن معظم الناس شاهدوا العروض التقديمية الرئيسية، إلا أن الدليل ظل دون قراءة تقريباً.

حقائق سريعة أولاً: Gemini Omni هو نموذج التوليد متعدد الوسائط الجديد من DeepMind. المنتج الأول، Gemini Omni Flash، يولد فيديوهات تصل مدتها إلى 10 ثوانٍ من أي مزيج من المدخلات النصية أو الصور أو الصوت أو الفيديو. كل مخرجات النموذج تحمل علامة مائية بتقنية SynthID. حصل مشتركو AI Plus وAI Pro وAI Ultra على وصول فوري، بينما يحصل مستخدمو YouTube Shorts وتطبيق YouTube Create على وصول مجاني بدءاً من أسبوع الإطلاق (حسب تقارير Gagadget). أما الوصول عبر واجهة البرمجة (API) فـ "سيتاح خلال أسابيع" وفقاً لـ Google.

بالعودة إلى دليل المطالبات، يوضح دليل Google DeepMind التحول مباشرة تحت قسم "فهم العالم" (World understanding):

مع Veo، تحتاج إلى تقديم تعليمات دقيقة للحصول على أفضل النتائج. لكن مع Gemini Omni، لا داعي لأن تكون مقيداً بمطالبتك. بدلاً من ذلك، أخبر Omni بما تريد إنشاءه، وشاهد كيف تجسد مهارات الاستدلال والمعرفة بالعالم الخاصة بالنموذج تلك التفاصيل على أرض الواقع.

الترجمة المختصرة: اكتب أقل.

اقرأ هذا جنباً إلى جنب مع أدلة المطالبات التي تنشرها ByteDance وKuaishou لنماذج الفيديو الخاصة بهما. تختلف الإطارات لكنها تشير إلى الاتجاه نفسه.

مخطط مقارنة لهياكل المطالبات لنماذج الفيديو Seedance 2.0 وKling 3.0.

توثق ByteDance نموذج Seedance 2.0 على منصتها العالمية للمطورين من خلال دليل مطالبات BytePlus ModelArk. الهيكل الموصى به هو: الموضوع + الحركة (+ البيئة + الجماليات + حركة الكاميرا/اللقطة + الصوت). ليس من الضروري استخدام كل المكونات، اختر ما يناسب لقطتك.

أما دليل أوزان المطالبات الذكية من Kuaishou فيؤطرها من خلال صيغة 5W1H: من + ماذا + أين + متى + لماذا + كيف. وعادةً ما يكون "من" — أي الموضوع — هو صاحب الأولوية القصوى ويبدأ المطالبة، حيث يحدد ترتيب الكلمات الوزن في Kling 3.0: فكل ما يأتي أولاً يحظى بأكبر قدر من الاهتمام الحسابي. تعمل الخيارات الأسلوبية مثل الوسيط أو المنظور بشكل أفضل في النهاية، حيث تعمل كمرشح للمشهد الذي تم تأسيسه بالفعل. ويحذر الدليل من تكديس العناصر عشوائياً؛ فالكثير من الكلمات المفتاحية المتضاربة تقلل من جودة النتائج.

لقد توصلت هذه الشركات الثلاث إلى هذه النصيحة بشكل مستقل، مما يشير إلى أن نماذجها وصلت إلى مستوى مماثل من القدرة في وقت متقارب. Google تنصحك بالكتابة أقل، وByteDance تشير إلى أن معظم المكونات اختيارية، وKuaishou تؤكد على ترتيب الكلمات أكثر من حجمها. تختلف الصيغ المحددة، لكن المختبرات الثلاثة جميعها توجه المبدعين نحو مطالبات أكثر مرونة وطبيعية.

والآن، إليك كيف يتم تطبيق دليل مطالبات Gemini Omni عملياً.

هيكل مطالبات Gemini Omni: الأبعاد الخمسة التي تستخدمها Google DeepMind

يفتح الدليل بمثال كامل:

لقطة تتبع واسعة الزاوية تنزلق برفق عبر بحيرة هادئة، لتكشف عن جسم ضخم عاكس يشبه حبة الفول، يطفو دون عناء، ويدور ببطء ليكشف عن انعكاسات مشوهة للمنحدرات المهيبة وجسم أصغر مشابه مغمور جزئياً في المياه الزرقاء الصافية تحتها، بينما تشرق شمس ساطعة خلف الجسم العائم، وتغمر المشهد بالكامل بضوء نهار نقي وأثيري مع درجات ألوان زرقاء وخضراء نابضة بالحياة، مما يخلق أجواء سينمائية ومثيرة للرهبة يؤكدها مقطوعة أوركسترالية مهيبة وغريبة تعزز من اتساع وغموض المشهد الفضائي، مع طنين خافت وعميق ينبعث من الجسم الطافي.

_SpuwEI0tIU

أكثر من 90 كلمة. قم بتفكيكها وستحصل على 5 أبعاد:

تأطير اللقطة والحركة: زاوية واسعة، متوسطة، أم قريبة؟ هل يجب أن تنزلق الكاميرا برفق أم تندفع فجأة؟ الفعلان ينتجان مخرجات مختلفة بشكل ملحوظ، لذا فإن بضع جولات من التجربة تؤتي ثمارها عند البحث عن إحساس الحركة المناسب.
الأسلوب: واقعي، سينمائي، أثيري، مهيب؟ هذا البعد لا يحتاج إلى تفاصيل. أخبر النموذج بالنبرة العاطفية وهذا يكفي.
الإضاءة: من أين يأتي الضوء؟ الشمس، مصباح شارع، داخل الكاميرا أم خارج الشاشة؟ هل يجب أن تبدو نقية، دافئة، أم أثيرية؟
المشهد: جملة واحدة في الدليل تستحق تسليط الضوء عليها: "لا تحتاج إلى وصف كل تفصيل صغير، فـ Omni سيعمل بناءً على نيتك العامة". وهذا يتطابق مع ما تقوله Seedance وKling في وثائقهما الرسمية.
الفعل والتفاعل: من وماذا يوجد في المشهد، كيف يتحركون، وكيف يتفاعلون.

التحرير عبر المحادثة في Gemini Omni مقابل إعادة كتابة المطالبات في Veo

ينتج Omni وVeo جودة توليد متقاربة. الفجوة الحقيقية هي ما يمكنك القيام به بعد إنشاء الفيديو.

سابقاً، كان تغيير تفصيل واحد يعني إعادة كتابة المطالبة بالكامل، وإعادة التوليد، والأمل في الحفاظ على اتساق الإطارات. يستبدل Omni هذه الخطوة بمحادثة.

يقدم الدليل الرسمي أمثلة قليلة:

فيديو بأسلوب "إيقاف الحركة" (stop-motion) لصبي صغير. التعديل الأول: "غيّر الفراشة إلى نحلة". التالي: "غيّر النحلة إلى سرب صغير من اليراعات". يتغير عنصر واحد لكل دور؛ بينما يتم الحفاظ على الإطارات الأخرى تلقائياً.

5zDLZZccPTY

تعمل الكاميرا بنفس الطريقة. فيديو لعازف كمان يتلقى ثلاثة أوامر بالتسلسل: "انقل عازف الكمان إلى بيئة الصورة"، "اجعل الكمان غير مرئي"، "غيّر زاوية الكاميرا لتكون فوق كتف العازف". تبديل البيئة، إزالة الأشياء، تغيير موضع الكاميرا، كل ذلك من خلال اللغة الطبيعية.

jXnbo0gBMHQ

هناك ملاحظة تستحق التنبيه: لاحظ المراجعون الخارجيون أنه إذا كان تعليمات التعديل غامضة جداً، يميل Omni إلى "الإفراط في التعديل"، مما يغير عناصر كنت ترغب في الاحتفاظ بها. توصية Google: غيّر متغيراً واحداً في كل دور، وحدد بوضوح ما يجب أن يبقى كما هو.

مثال المزامنة متعددة الوسائط أكثر إثارة للاهتمام. خذ فيديو ليلي لمبنى سكني، وأضف التعليمات: "تبدأ أضواء الشقق في الإضاءة بالتزامن مع الموسيقى". يحلل النموذج نبضات الموسيقى ويقوم بمزامنة أضواء النوافذ معها. القيام بذلك في برنامج After Effects يتطلب جدولاً زمنياً، وجهاز ميتيرونوم، وتعديل الإطارات يدوياً إطاراً بإطار.

93oo4Yvghl8

قدرات Gemini Omni الأربع المتقدمة: المعرفة بالعالم، عرض النصوص، مرجع الحركة، تعدد المدخلات

يقسم النصف الثاني من الدليل 4 قدرات:

المعرفة التطبيقية بالعالم

المطالبة بالمثال: اشرح الفرق بين الحوسبة العادية والحوسبة الكمومية. تصور هذه الجملة باستخدام أسلوب الوسائط المسطحة المعاصر الذي يمزج بين الأشكال المتجهة البسيطة والقوام العضوي الغني. يتم تحديد الجمالية من خلال لوحة ألوان "كهربائية" عالية التباين من الوردي النيون والسماوي والأخضر الليموني على خلفية زرقاء داكنة. من سمات هذا الأسلوب استخدام التظليل المنقط والتدرجات المحببة، مما يضيف جودة ملموسة تشبه طباعة الريسوجراف إلى الأشكال الهندسية البسيطة. من خلال الجمع بين الحواف الحادة وهذه التحولات المنقطة والناعمة، يحقق الرسم إحساساً مرحاً وتحريرياً.

النموذج يعرف بالفعل ما هو التراكب الكمي وكيفية نقله من خلال مجموعة مقارنة من اللقطات. لا يحتاج المستخدم إلى شرح ميكانيكا الكم، بل فقط النبرة البصرية.

3b29A-7qHvE

يعمل هذا لأن Omni يعمل على نموذج استدلال رائد، وهو ما لا تستطيع نماذج توليد الفيديو فقط مضاهاة قدراته. في مقابلة مع Semafor بعد مؤتمر I/O، وصف ديميس هاسابيس نموذج Omni بأنه خطوة واحدة في مشروع بناء ذكاء اصطناعي يفهم العالم الحقيقي بشكل أفضل. وأشار إلى أن Waymo، قسم السيارات ذاتية القيادة في Alphabet، تختبر بالفعل نماذج عالمية مماثلة لمنح السيارات المستقلة نوعاً من "الخيال" للتعامل مع المواقف غير المتوقعة. توليد الفيديو هو مجرد التطبيق الأكثر وضوحاً لهذه البنية.

عرض النصوص

المطالبة بالمثال: كلمة بكلمة، كلمة واحدة على الشاشة في كل مرة، كل كلمة بأسلوب متحرك مختلف، وتيرة مثالية مع الإيقاع، شريط تشويقي.

_NV7lrxo6Ik

مرجع الحركة المعقدة

مثال المطالبة: قم بتحرير هذا مع الحفاظ على كل شيء كما هو، أضف تأثيرات حركة متحركة تخرج من لوح التزلج.

b94aat8s22c

مرجع تعدد المدخلات

مثال المطالبة: تشكل الطيور من الفيديو بشكل فضفاض شكل طائر غير مثالي بناءً على الصورة. تتحرك مع الموسيقى من الصوت وتتلاشى أثناء طيرانها.

3jdeP-az3oQ

نقل الأسلوب

مثال المطالبة: أنشئ تقدماً أسلوبياً من أربعة أجزاء لمرجع الفيديو يبدأ بجمالية تلوين الشمع النابضة بالحياة، مع ضربات غنية وشمعية ومحسوسة وتصميمات شخصيات مرحة مرسومة باليد على خلفية ورق محبب بشدة. انتقل بسلاسة إلى رسم بقلم الجرافيت على ورق مزخرف، باستخدام التظليل المتقاطع، وأوزان الخطوط المتغيرة، وتأثير "غليان الخط" بمعدل 12 إطاراً في الثانية للتأكيد على الشعور بالرسم اليدوي. بعد ذلك، تحول إلى أسلوب زجاجي شفاف ثلاثي الأبعاد واقعي للغاية، يتميز بانكسارات الضوء المعقدة، والأنماط الكاوية، والتوهجات الداخلية الناعمة داخل استوديو بسيط. اختتم التسلسل بمظهر مطبوع بأسلوب الريسوجراف الملموس، مع تطبيق لوحة من ثلاثة ألوان محدودة، وقوام نصف نغمي محبب، وتراكبات تسجيل متعمدة للحصول على لمسة نهائية كلاسيكية ميكانيكية.

n9TesZsfVNw

مرجع لوحة القصة (Storyboard)

المطالبة: أرني في هذه القصة. اتبع القصة بالضبط بالترتيب بدءاً من أعلى اليسار. القصة كاملة في 10 ثوانٍ. سينمائي.

uT937Ptk9fg

اتساق اللقطات المتقاطعة

RSpqXx0wq8Q

لماذا تتقارب نصائح المطالبات لـ Gemini Omni وSeedance وKling؟

بالعودة إلى الملاحظة السابقة. التشابه في نصائح المطالبات من Seedance وKling وOmni ليس نتيجة للاقتباس المتبادل. من المرجح أن هذا الجيل من النماذج وصل إلى مستوى مماثل من القدرة من تلقاء نفسه.

بمجرد أن يتمكن النموذج من التعامل مع اللغة الطبيعية على مستوى المشهد، وتكملة التفاصيل بالمعرفة بالعالم، واستنتاج ما يعنيه المستخدم بالفعل، يصبح الإفراط في التوجيه هو العائق. تختلف المختبرات الثلاثة حول مقدار الهيكل الذي يجب إضافته، لكنها تتفق على أن الحل ليس في كتابة المزيد.

هذه نتيجة عامين من نماذج الانتشار (diffusion models) المدربة جنباً إلى جنب مع نماذج لغوية كبيرة. يدفع Omni النتيجة إلى حالة مكتملة نسبياً.

الوصول إلى Gemini Omni عبر Atlas Cloud: واجهة برمجة تطبيقات موحدة لـ Seedance وKling وVeo

يصل Gemini Omni إلى Atlas Cloud. تجمع Atlas Cloud أكثر من 300 نموذج ذكاء اصطناعي عبر النصوص والصور والفيديو والصوت. تعمل نماذج الفيديو الرئيسية بالفعل على المنصة: Seedance 2.0، Kling 3.0، Wan 2.7، Veo، وغيرها. للمقارنة جنباً إلى جنب، راجع تحليل Wan 2.7 مقابل Seedance 2.0 مقابل Kling 3.0 على Atlas Cloud.

حساب واحد يدير العملية بالكامل. لا حاجة للتسجيل والدفع وصيانة مفاتيح API عبر منصات إقليمية متعددة. تدعم "الملعب" (Playground) التصحيح التفاعلي، كما توفر واجهة برمجة تطبيقات موحدة متوافقة مع OpenAI يمكن دمجها في سير العمل الحالي.

مكتبة مطالبات Atlas Cloud تحتوي على أكثر من عشرين فئة من المطالبات الجاهزة للاستخدام تغطي الأنمي، الخيال العلمي، الغموض، الطعام، وتنسيقات المدونات. تأتي كل مطالبة مع فيديو مثالي وملاحظات حول المعلمات. انسخ، بدّل بضع كلمات، وقم بالتشغيل.

واجهة برمجة تطبيقات موحدة لتوليد الفيديو للإنتاج

بينما تطلق Google نموذج Gemini Omni Flash داخل تطبيق Gemini وGoogle Flow للمستخدمين النهائيين، يحتاج المطورون وفرق المنتجات الذين يرغبون في تضمين محرك الفيديو متعدد الوسائط نفسه في سير عملهم الخاص إلى طبقة API مستقرة ويمكن التنبؤ بها.

توفر Atlas Cloud نموذج Gemini Omni Flash من خلال واجهة برمجة تطبيقات موحدة متوافقة مع OpenAI، إلى جانب أكثر من 300 نموذج آخر للصور والفيديو والنماذج اللغوية الكبيرة — حتى تتمكن من دمج نموذج Google متعدد الوسائط دون الحاجة إلى التوفيق بين حسابات البائعين المختلفة أو بوابات الفوترة أو حزم تطوير البرامج (SDKs).

كلا نوعي Gemini Omni Flash متاحان الآن على Atlas Cloud:

النوع	الأفضل لـ	المدخلات	الدقة	المدة	سعر البدء
Gemini Omni Flash نص إلى فيديو (مطور)	التوليد السينمائي المعتمد على المطالبة	نص (حتى 20,000 حرف)	720p / 1080p / 4K	4، 6، 8، 10 ثوانٍ	$0.2 + $0.1/ثانية
Gemini Omni Flash صورة إلى فيديو (مطور)	فيديو متسق مع المراجع الحقيقية	نص + حتى 7 صور مرجعية	720p / 1080p / 4K	4، 6، 8، 10 ثوانٍ	$0.2 + $0.1/ثانية

بداية سريعة — أنشئ فيديو Gemini Omni Flash في 5 أسطر:

plaintext
1curl -X POST https://api.atlascloud.ai/api/v1/model/generateVideo \
2  -H "Authorization: Bearer $ATLASCLOUD_API_KEY" \
3  -H "Content-Type: application/json" \
4  -d '{
5    "model": "google/gemini-omni-flash/text-to-video-developer",
6    "input": {
7      "prompt": "A misty forest at golden hour, cinematic dolly shot",
8      "resolution": "1080p",
9      "duration": 8,
10      "aspect_ratio": "16:9"
11    }
12  }'

تعيد واجهة البرمجة معرف تنبؤ (prediction ID) فوراً — قم بطلب /api/v1/model/prediction/{id} للحصول على رابط ملف MP4 المولد. المخطط الكامل، ونماذج الأكواد بـ 7 لغات، و"ملعب" بدون كود (no-code Playground) متاحة على صفحات النماذج المرتبطة أعلاه.

العودة إلى القائمة