في 19 مايو 2026، خلال مؤتمر Google I/O، أطلقت DeepMind نموذج Gemini Omni. وفي اليوم نفسه، تم نشر دليل مطالبات Gemini Omni على موقع وثائق DeepMind، بين بطاقة نموذج Omni Flash وملاحظات واجهة برمجة التطبيقات (API). معظم الناس شاهدوا العروض التقديمية الرئيسية، بينما ظلت الوثائق غير مقروءة إلى حد كبير.
إليك الحقائق السريعة أولاً. Gemini Omni هو نموذج التوليد متعدد الوسائط الجديد من DeepMind. المنتج الأول، Gemini Omni Flash، يقوم بإنشاء مقاطع فيديو تصل مدتها إلى 10 ثوانٍ من أي مزيج من مدخلات النصوص، الصور، الصوت، أو الفيديو. كل مخرجات النموذج تحمل علامة SynthID المائية. حصل مشتركو AI Plus وAI Pro وAI Ultra على وصول فوري، بينما يحصل مستخدمو YouTube Shorts وتطبيق YouTube Create على وصول مجاني بدءاً من أسبوع الإطلاق (وفقاً لتقارير Gagadget). أما الوصول عبر API فسيكون "متاحاً خلال أسابيع" وفقاً لـ Google.
بالعودة إلى دليل المطالبات، توضح Google DeepMind هذا التحول مباشرة تحت قسم "فهم العالم" (World understanding):
مع Veo، تحتاج إلى مشاركة تعليمات دقيقة للحصول على أفضل النتائج. ولكن مع Gemini Omni، لست مضطراً لأن تكون مقيداً بمطالباتك. بدلاً من ذلك، أخبر Omni بما تريد إنشاءه، وشاهد كيف يستخدم النموذج مهاراته في التفكير ومعرفته بالعالم لإضفاء الحيوية على التفاصيل.
الخلاصة: اكتب أقل.
اقرأ هذا جنباً إلى جنب مع أدلة المطالبات التي تنشرها ByteDance وKuaishou لنماذج الفيديو الخاصة بهما. الأطر تختلف ولكنها تشير إلى الاتجاه نفسه.

توثق ByteDance نموذج Seedance 2.0 على منصة المطورين الدولية الخاصة بها من خلال دليل مطالبات BytePlus ModelArk. الهيكل الموصى به هو: الموضوع + الحركة (+ البيئة + الجماليات + حركة الكاميرا/اللقطة + الصوت). ليس كل مكون مطلوباً، فأنت تختار ما يناسب اللقطة.
دليل ترجيح مطالبات الذكاء الاصطناعي من Kuaishou يؤطر العملية عبر صيغة 5W1H: من + ماذا + أين + متى + لماذا + كيف. "من" — أي الموضوع — عادةً ما يحمل الأولوية الأعلى ويوضع في بداية المطالبة، حيث أن ترتيب الكلمات يحدد الوزن في Kling 3.0: ما يأتي أولاً يحصل على أكبر قدر من الاهتمام الحسابي. تعمل الخيارات الأسلوبية مثل الوسط أو المنظور بشكل أفضل في النهاية، حيث تعمل كمرشح (فلتر) للمشهد المحدد مسبقاً. يحذر الدليل من تكديس العناصر بشكل عشوائي؛ فالكثير من الكلمات المفتاحية المتعارضة تؤدي إلى تدهور الجودة.
توصلت الشركات الثلاث إلى هذه النصيحة بشكل مستقل، مما يشير إلى أن نماذجها وصلت إلى مستوى قدرات مماثل في وقت متقارب. Google تخبرك بأن تكتب أقل، وByteDance تشير إلى أن معظم المكونات اختيارية، وKuaishou تؤكد على ترتيب الكلمات أكثر من الكمية. تختلف الأطر المحددة، لكن المختبرات الثلاثة جميعها توجه المبدعين نحو مطالبات أكثر مرونة وطبيعية.
والآن، إليك كيف يتم تطبيق دليل مطالبات Gemini Omni عملياً.
هيكل مطالبات Gemini Omni: الأبعاد الخمسة التي تستخدمها Google DeepMind
يفتتح الدليل بمثال كامل:
لقطة تتبع واسعة الزاوية تنزلق بلطف عبر بحيرة هادئة، كاشفة عن جسم ضخم عاكس يشبه حبة الفاصوليا، يطفو دون جهد في الأعلى، ويدور ببطء ليعكس انعكاسات مشوهة للمنحدرات المهيبة وجسماً آخر أصغر مشابهاً مغموراً جزئياً في المياه الزرقاء الصافية بالأسفل، بينما تشرق شمس ساطعة خلف الجسم العائم، مغمورة المشهد بأكمله بضوء نهاري نقي وأثيري مع درجات ألوان زرقاء وخضراء نابضة بالحياة، مما يخلق أجواء سينمائية ومثيرة للرهبة مع خلفية موسيقية أوركسترالية مهيبة وغامضة تؤكد على اتساع وغموض المشهد الفضائي، مع طنين خافت وعميق يصدر من الجسم الطافي.
أكثر من 90 كلمة. إذا قمت بتفكيكها، ستحصل على 5 أبعاد:
- تأطير اللقطة والحركة. زاوية واسعة، متوسطة، أم لقطة قريبة؟ هل يجب أن تنزلق الكاميرا بلطف أم تتحرك بسرعة؟ الفعلان ينتجان مخرجات مختلفة بشكل ملحوظ، لذا فإن بضع جولات من التجربة تؤتي ثمارها عند البحث عن إحساس الحركة الصحيح.
- الأسلوب. واقعي، سينمائي، أثيري، مهيب؟ هذا البعد لا يحتاج إلى تفاصيل. أخبر النموذج بالنبرة العاطفية وهذا يكفي.
- الإضاءة. من أين يأتي الضوء؟ الشمس، مصباح شارع، داخل الكاميرا أم خارجها؟ هل يجب أن يشعرك بالحدة، الدفء، أو الأثيرية؟
- المشهد. جملة واحدة في الدليل تستحق تسليط الضوء عليها: "لست بحاجة لوصف كل تفصيل صغير، حيث سيعمل Omni بناءً على نيتك العامة". هذا يتطابق مع ما تقوله Seedance وKling في وثائقهما الرسمية.
- الإجراء والتفاعل. من وماذا يوجد في المشهد، كيف يتحركون، وكيف يتفاعلون.
التحرير المحادثي في Gemini Omni مقابل إعادة صياغة المطالبات في Veo
ينتج كل من Omni وVeo جودة توليد متقاربة. الفجوة الحقيقية تكمن في ما يمكنك القيام به بعد إنشاء الفيديو.
سابقاً، كان تغيير تفصيل واحد يعني إعادة كتابة المطالبة بأكملها، وإعادة التوليد، والأمل في الحفاظ على اتساق الإطارات. يستبدل Omni هذه الخطوة بمحادثة.
يقدم الدليل الرسمي بضع أمثلة.
فيديو بأسلوب إيقاف الحركة (stop-motion) لصبي صغير. التعديل الأول: "غيّر الفراشة إلى نحلة". التالي: "غيّر النحلة إلى سرب صغير من اليراعات". عنصر واحد يتغير في كل خطوة؛ بينما يتم الحفاظ على الإطارات الأخرى تلقائياً.
تعمل الكاميرا بالطريقة نفسها. فيديو لعازف كمان يتلقى ثلاثة أوامر بالتسلسل: "انقل عازف الكمان إلى بيئة الصورة"، "اجعل الكمان غير مرئي"، "غيّر زاوية الكاميرا لتصبح فوق كتف العازف". تبديل البيئة، إزالة الكائنات، إعادة تموضع الكاميرا، كل ذلك عبر اللغة الطبيعية.
هناك ملاحظة تستحق الإشارة إليها. لاحظ المراجعون الخارجيون أنه إذا كانت تعليمات التحرير غامضة جداً، يميل Omni إلى "التحرير المفرط"، مما يغير عناصر كنت ترغب في الاحتفاظ بها. توصية Google هي: غيّر متغيراً واحداً في كل خطوة، واذكر صراحة ما يجب أن يبقى كما هو.
مثال المزامنة متعددة الوسائط أكثر إثارة. خذ فيديو ليلي لمبنى سكني، وأضف التعليمات "أضواء الشقق تبدأ في التشغيل بالتزامن مع الموسيقى". يحلل النموذج نبضات الموسيقى ويقوم بمزامنة أضواء النوافذ معها. القيام بذلك في برنامج After Effects يتطلب جدولاً زمنياً، وجهاز ميترونوم، وتحديد إطارات مفتاحية يدوياً لكل إطار.
قدرات Gemini Omni الأربع المتقدمة: المعرفة بالعالم، عرض النصوص، مرجعية الإجراء، وتعدد المدخلات
يقسم النصف الثاني من الدليل 4 قدرات أساسية.
المعرفة التطبيقية بالعالم
المطالبة المثال: اشرح الفرق بين الحوسبة العادية والحوسبة الكمومية. تخيل هذه الجملة باستخدام أسلوب فني حديث يمزج بين الأشكال المتجهة البسيطة والأنسجة العضوية الغنية. الأسلوب محدد بلوحة ألوان عالية التباين و"كهربائية" من الوردي النيوني، السماوي، والأخضر الليموني على خلفية بحرية داكنة. من سمات هذا الأسلوب استخدام التظليل المنقط والتدرجات الحبيبية، مما يضيف جودة ملموسة تشبه طباعة الريسوجراف إلى الأشكال الهندسية البسيطة. من خلال الجمع بين الحواف الحادة وهذه الانتقالات المنقطة والناعمة، يحقق الرسم طابعاً مرحاً وتحريرياً.
النموذج يعرف بالفعل ما هو التراكب الكمي وكيفية نقله من خلال مجموعة مقارنة من اللقطات. لا يحتاج المستخدم إلى شرح ميكانيكا الكم، بل فقط النبرة البصرية.
يعمل هذا لأن Omni يعمل على نموذج استنتاج متطور، وهو ما لا تستطيع نماذج الفيديو المخصصة للتوليد فقط مضاهاة. ديميس هاسابيس، في مقابلة مع Semafor بعد مؤتمر I/O، وصف Omni كخطوة في مشروع بناء ذكاء اصطناعي يفهم العالم الحقيقي بشكل أفضل. وأشار إلى أن Waymo، قسم السيارات ذاتية القيادة في Alphabet، تختبر بالفعل نماذج عالمية مشابهة لمنح السيارات ذاتية القيادة نوعاً من "الخيال" للتعامل مع المواقف غير المتوقعة. توليد الفيديو هو مجرد التطبيق الأكثر وضوحاً لهذه البنية.
عرض النصوص
المطالبة المثال: كلمة بكلمة، كلمة واحدة على الشاشة في كل مرة، كل كلمة بأسلوب متحرك مختلف، وتيرة مثالية مع الإيقاع، فيديو ترويجي جذاب (sizzle reel).
مرجعية الإجراءات المعقدة
مثال المطالبة: قم بتحرير هذا مع الحفاظ على كل شيء كما هو، أضف تأثيرات حركة متحركة تخرج من لوح التزلج.
مرجعية المدخلات المتعددة
مثال المطالبة: الطيور من الفيديو تشكل بشكل فضفاض شكل طائر غير مثالي بناءً على الصورة. تتحرك مع الموسيقى من الصوت وتتلاشى أثناء طيرانها.
نقل الأسلوب
مثال المطالبة: أنشئ تتابعاً أسلوبياً من أربعة أجزاء لمرجع الفيديو يبدأ بأسلوب أقلام التلوين النابض بالحياة، الذي يتميز بضربات غنية وشمعية وملمسية وتصميمات شخصيات مرسومة يدوياً ومرحة على خلفية من ورق محبب بشدة. انتقل بسلاسة إلى رسم بقلم الرصاص على ورق خشن، باستخدام التظليل المتقاطع، وأوزان خطوط متنوعة، وتأثير "تذبذب الخط" بمعدل 12 إطاراً في الثانية للتأكيد على المظهر المرسوم يدوياً. بعد ذلك، تحول إلى أسلوب زجاجي شفاف ثلاثي الأبعاد واقعي للغاية، يتميز بانكسارات الضوء المعقدة، والأنماط الكاوية، والتوهجات الداخلية الناعمة داخل بيئة استوديو بسيطة. اختتم التتابع بمظهر طباعة الريسوجراف الملموس، مع تطبيق لوحة محدودة من ثلاثة ألوان، وأنسجة نصفية حبيبية، وتراكبات تسجيل متعمدة للحصول على لمسة نهائية ميكانيكية قديمة.
مرجعية لوحة القصة (Storyboard)
المطالبة: أرني في هذه القصة. اتبع القصة بدقة بالترتيب بدءاً من أعلى اليسار. القصة كاملة في 10 ثوانٍ. سينمائي.
اتساق اللقطات المتقاطعة
لماذا تتقارب نصائح مطالبات Gemini Omni، وByteDance Seedance، وKuaishou Kling؟
بالعودة إلى الملاحظة السابقة. التشابه في نصائح المطالبات بين Seedance وKling وOmni ليس نتيجة للاقتباس المتبادل. من المرجح أن هذا الجيل من النماذج وصل إلى مستوى قدرات مماثل بمفرده.
بمجرد أن يتمكن النموذج من التعامل مع اللغة الطبيعية على مستوى المشهد، وتكميل التفاصيل بالمعرفة بالعالم، واستنتاج ما يعنيه المستخدم فعلياً، يصبح الإفراط في التوجيه هو العائق. تختلف المختبرات الثلاثة حول مقدار الهيكل الذي يجب إضافته، لكنها تتفق على أن الإجابة ليست في الاستمرار بكتابة المزيد.
هذه هي نتيجة عامين من نماذج الانتشار (diffusion models) التي تم تدريبها بشكل مشترك مع نماذج لغوية كبيرة. يدفع Omni النتيجة إلى حالة مكتملة نسبياً.
استدعاء Gemini Omni عبر Atlas Cloud: واجهة برمجة تطبيقات موحدة لـ Seedance وKling وVeo
Gemini Omni قادم إلى Atlas Cloud. يجمع Atlas Cloud أكثر من 300 نموذج ذكاء اصطناعي عبر النصوص، الصور، الفيديو، والصوت. نماذج الفيديو الرئيسية تعمل بالفعل على المنصة: Seedance 2.0، Kling 3.0، Wan 2.7، Veo، وغيرها. للمقارنة جنباً إلى جنب، راجع تحليل Atlas Cloud المتعمق: Wan 2.7 مقابل Seedance 2.0 مقابل Kling 3.0.
حساب واحد يدير سير العمل بالكامل. لا حاجة للتسجيل، الدفع، أو الحفاظ على مفاتيح API عبر منصات إقليمية متعددة. تدعم ساحة اللعب (Playground) التصحيح التفاعلي، كما توفر واجهة برمجة تطبيقات موحدة متوافقة مع OpenAI للاندماج في سير عملك الحالي.
تحتوي مكتبة مطالبات Atlas Cloud على أكثر من عشرين فئة من المطالبات الجاهزة للاستخدام التي تغطي الأنمي، الخيال العلمي، الغموض، الطعام، وتنسيقات المدونات المرئية (vlog). تأتي كل مطالبة مع فيديو تجريبي وملاحظات حول المعلمات. انسخ، استبدل بضع كلمات، وانطلق.







