تجربة عملية مع Gemini Omni: مبهر ولكن لم يصل للكمال بعد

بعد أسابيع من التسريبات والتكهنات، ظهر Gemini Omni أخيراً لأول مرة رسمياً في مؤتمر Google I/O 2026 في الساعات الأولى من هذا الصباح.

إنه ليس نموذجاً مخصصاً لتوليد الفيديو كما أشارت الشائعات، وليس "Veo 4" كخليفة لـ Veo 3 في سلسلة التسميات. صعد ديميس هاسابيس، الرئيس التنفيذي لشركة Google DeepMind، إلى المسرح ليعلن قائلاً:

"نحن نتخذ الخطوة المهمة التالية — Gemini Omni، نموذج جديد كلياً يمكنه إنشاء أي شيء من أي مدخلات."

Gemini Omni I/O 2026 video editing demo

بعبارة أخرى، Gemini Omni هو نموذج ضخم "متعدد القدرات" بحق، حيث يقبل أي شكل من أشكال المدخلات ويولد أي نوع من المحتوى، مع كون توليد الفيديو مجرد جزء من الصورة الكبيرة.

أصبح Gemini Omni الآن متاحاً عبر جميع منتجات Google. يمكن للمستخدمين المشتركين في خطط AI Plus وPro وUltra الوصول إليه من خلال تطبيق Gemini أو منصة إنشاء الفيديو بالذكاء الاصطناعي من Google، Flow.

لقد اشتركنا في فئة Ultra الأعلى لدى Google على الفور لنضع Gemini Omni تحت الاختبار المباشر.

خلاصة القول في البداية: إنه مخيب للآمال.

اتساق اختبار Gemini Omni: مقبول إلى حد كبير

تعد إحدى أكثر ميزات Omni ترويجاً هي قدرته على الحفاظ على الاتساق البصري عبر جولات متعددة من التعديلات باللغة الطبيعية.

في عرض Google الرسمي، تظهر اللقطات المصدرية عازف كمان يؤدي في الداخل. بعد تغيير بيئة الخلفية، وتبديل زوايا الكاميرا، وحتى إزالة الكمان تماماً، ظلت تعبيرات المؤدي وحركاته والإضاءة وحتى الوضعية الدقيقة ليديه متكيفة تماماً مع كل إعداد جديد — جنباً إلى جنب مع الموسيقى.

بدت دقة التعديلات واتساق الموضوع الرئيسي مثيرة للإعجاب حقاً.

لذا قمنا باختباره بأنفسنا، بدءاً بتبديل البيئة والجو العام.

طلبنا الأول: لقطة علوية لاصطدام سيارتين عند تقاطع طرق، إحداهما سيارة رياضية زرقاء، مع جو متوتر ومثير.

تبعنا ذلك بتعديل وتحسين أكثر تفصيلاً. الطلب: الانتقال إلى غروب شمس ذهبي، وتغيير السيارة الزرقاء إلى حمراء، وجعل السيارتين تنفجران إلى قصاصات ورقية وبالونات عند الاصطدام — بنبرة خفيفة وحالمة وغريبة الأطوار.

تغير لون السيارات والإضاءة حسب التعليمات، وظل الهيكل العام وحركة المشهد متماسكين في الغالب، دون أي تمزق أو تشويه بصري.

ومع ذلك، كانت هناك مشكلة واحدة دقيقة ولكنها واضحة: لم يتعامل Omni مع لحظة الاصطدام الفعلية بشكل جيد. في كلا الفيديوهين، بدت السيارتان وكأنهما تتجهان نحو بعضهما البعض عن قصد — حتى أنهما تباطأتا قليلاً وعدلتا زواياهما مباشرة قبل الاصطدام.

كان الأمر يبدو، بكلمة واحدة، مرتباً. وكأنك تستطيع رؤية يد Omni الخفية وهي تدفع السيارات إلى الوضعية المطلوبة لتنفيذ الطلب.

بعد ذلك، اختبرنا ما إذا كان Omni قادراً على الحفاظ على الاتساق من خلال الحركة الديناميكية. المعيار: شخصية واحدة تنتقل بين زوايا كاميرا متعددة، مع بقاء ملامح الوجه والملابس والدعائم وحتى تسريحة الشعر ثابتة — دون أخطاء مثل "نفس الزي، لون مختلف من زاوية مختلفة".

طلبنا: لقطة تتبع متوسطة لراقصة ترتدي فستاناً أحمر تؤدي رقصة معاصرة في محطة قطار قديمة، مع الانتقال إلى لقطة ثابتة واسعة بعد قفزة، مع بقاء الفستان الأحمر وخلفية محطة القطار متسقين تماماً طوال الوقت.

خرج هذا الفيديو بشكل جيد إلى حد معقول. كانت حركات الراقصة انسيابية ومستمرة، وبدت فيزياء الفستان الحريري الأحمر واقعية بشكل مقنع، وكان الانتقال من لقطة التتبع المتوسطة إلى اللقطة الثابتة الواسعة سلساً نسبياً.

أضاف Omni أيضاً مقطع موسيقى خلفية تلقائياً — لم يكن معبراً أو جوياً بشكل خاص، لكنه ناسب المزاج العام للرقصة بشكل كافٍ.

بعد ذلك أجرينا تحسيناً صغيراً، بطلب: إزالة موسيقى الخلفية والاحتفاظ فقط بالصوت المحيط — خطوات الأقدام متزامنة مع حركات الرقص وحفيف الفستان الناعم.

هنا أصبحت الأمور فوضوية بعض الشيء. التقط النصف الأول من الفيديو أصوات الفستان الخافتة وتلامس القدمين مع الأرض. لكن في النصف الثاني، عادت موسيقى الخلفية للظهور بشكل غير مبرر.

بعد ذلك، اختبرنا قدرته على فهم العلاقات المعقدة بين الشخصيات والتمركز المكاني.

المعيار: عندما تتفاعل شخصيات متعددة ذات مظاهر وأزياء مختلفة مع بعضها البعض، لا ينبغي أن تختلط ميزاتها الفردية أو تتبدل أثناء تغيير زوايا الكاميرا.

طلبنا: لقطة من فوق الكتف لأربعة إلى خمسة علماء، لكل منهم مظهر مختلف بشكل واضح، يناقشون إسقاطاً هولوغرافياً في مختبر، مع دوران الكاميرا ببطء — مع بقاء مظهر وأزياء جميع الشخصيات دون تغيير طوال الوقت.

ربما في محاولة للالتزام بطلبنا بوجود علماء يبدون مختلفين، اختار Omni بذكاء أربع شخصيات تغطي مجموعة من الأعمار والأجناس والأعراق. وطوال اللقطة الدوارة، ظلت مظاهر الشخصيات وأزياؤها وأصواتها ومواقعها النسبية متسقة إلى حد كبير.

العيب المؤسف الوحيد: نحو النصف الثاني من الفيديو، كان هناك قطع مفاجئ ومزعج كسر التدفق تماماً.

تحكم دقيق؟ يحتاج إلى مزيد من العمل

كان التحرير والتحسين ميزة أخرى وضعتها Google في صميم عرضها الرسمي.

لذا انتقلنا مباشرة إلى الأمر — أخذ فيديو مشاهدة بيسبول تم إنشاؤه بواسطة الذكاء الاصطناعي انتشر مؤخراً على وسائل التواصل الاجتماعي الكورية، وقمنا بتغذية Omni بصورة شخصية بنمط الأنمي (مأخوذة من مواد العرض الخاصة بـ Google)، وطلبنا منه استبدال الشخص في الفيديو الأصلي بالشخصية الموجودة في الصورة.

النتيجة؟ مخيبة للآمال، لنتحدث بلطف.

حافظت الشخصية البديلة تقريباً على نفس موقع الشخصية الأصلية، لكن التعبيرات الدقيقة — عض الشفاه، النظرة المريبة، الابتسامة الصغيرة عند ملاحظة الكاميرا — فقدت بالكامل تقريباً في الترجمة.

gemini demo real girl.GIF

gemini omini animation girl demo.GIF

هذا الصراع مع التفاصيل الدقيقة لم يكن حالة معزولة.

طلبنا من Omni إنشاء فيديو لرجل في منتصف العمر يقف في غرفة خافتة الإضاءة، يتحدث بهدوء إلى انعكاس صورته في المرآة: "أعلم أنك كنت أنت. توقف عن التظاهر."

كانت النتيجة الأولية جيدة في الواقع — بصرف النظر عن لهجة صينية غريبة قليلاً، تطابقت حركة الشفاه مع كل كلمة بدقة إلى حد ما. أما ما إذا كان ينقل مشاعر إنسانية حقيقية، فهذه مسألة تفسير شخصي.

لكن عندما حاولنا تغيير حوار الرجل، بدت دوائر Omni وكأنها تعطلت تماماً.

الطلب: رجل في منتصف العمر في غرفة خافتة الإضاءة، يقول بهدوء لمرآته: "20 مايو هنا مرة أخرى — ذكرى سنوية سعيدة."

أولاً، لم يتمكن من فهم مفهوم "تغيير الحوار" على الإطلاق، واكتفى بوضع السطر الجديد كترجمة في أسفل الشاشة. ثم حاول الموازنة بينهما — فألقى نصف السطر الأصلي ونصف السطر الجديد. بحلول المحاولة النهائية، خرج تماماً عن المسار.

أصبحت الإضاءة أكثر سطوعاً قليلاً، وتحول التعبير إلى ابتسامة — لكن الآن لدينا رجل يبتسم بحرارة بينما يقول "أعلم أنك كنت أنت. توقف عن التظاهر"، مع نفس موسيقى الخلفية المخيفة كما كانت من قبل. بطريقة ما، كانت النتيجة أكثر رعباً من الأصلية.

باختصار، عندما يتعلق الأمر بالتحكم الدقيق، لا يزال أمام Omni طريق طويل لنقطعه.

واجهة برمجة تطبيقات (API) موحدة لإنتاج الفيديو

بينما تطرح Google نموذج Gemini Omni Flash داخل تطبيق Gemini ومنصة Google Flow للمستخدمين النهائيين، يحتاج المطورون وفرق الإنتاج الذين يرغبون في دمج نفس محرك الفيديو متعدد الوسائط في مسارات عملهم الخاصة إلى طبقة API مستقرة ويمكن التنبؤ بها.

توفر Atlas Cloud نموذج Gemini Omni Flash عبر واجهة برمجة تطبيقات موحدة متوافقة مع OpenAI، إلى جانب أكثر من 300 نموذج آخر للصور والفيديو والنماذج اللغوية الكبيرة (LLMs) — بحيث يمكنك دمج نموذج Google متعدد الوسائط الأصلي دون التلاعب بحسابات بائعين منفصلة أو بوابات فواتير أو حزم تطوير برمجية (SDKs) مختلفة.

كلا إصداري Gemini Omni Flash متاحان الآن على Atlas Cloud:

td {white-space:nowrap;border:0.5pt solid #dee0e3;font-size:10pt;font-style:normal;font-weight:normal;vertical-align:middle;word-break:normal;word-wrap:normal;}


الإصدار	الأفضل لـ	المدخلات	الدقة	المدة	سعر البدء
Gemini Omni Flash Text-to-Video (Developer)	التوليد السينمائي المعتمد على النص فقط	نص (حتى 20,000 حرف)	720p / 1080p / 4K	4, 6, 8, 10 ثوانٍ	$0.2 + $0.1/ثانية
Gemini Omni Flash Image-to-Video (Developer)	فيديو متسق الموضوع من مراجع حقيقية	نص + حتى 7 صور مرجعية	720p / 1080p / 4K	4, 6, 8, 10 ثوانٍ	$0.2 + $0.1/ثانية

بداية سريعة — قم بإنشاء فيديو Gemini Omni Flash في 5 أسطر:

plaintext
1curl -X POST https://api.atlascloud.ai/api/v1/model/generateVideo \
2  -H "Authorization: Bearer $ATLASCLOUD_API_KEY" \
3  -H "Content-Type: application/json" \
4  -d '{
5    "model": "google/gemini-omni-flash/text-to-video-developer",
6    "input": {
7      "prompt": "A misty forest at golden hour, cinematic dolly shot",
8      "resolution": "1080p",
9      "duration": 8,
10      "aspect_ratio": "16:9"
11    }
12  }'

تعيد واجهة برمجة التطبيقات معرّف التنبؤ (prediction ID) على الفور — قم بعمل استطلاع (poll) لـ /api/v1/model/prediction/{id} للحصول على رابط MP4 المعالج. المخطط الكامل، ونماذج الأكواد بـ 7 لغات، وملعب بدون أكواد (no-code Playground) متاحة على صفحات النماذج المرتبطة أعلاه.

المعرفة العالمية: قوية في الفيزياء والتاريخ، ولكن لا تزال مليئة بالأخطاء

كان آخر ما اختبرناه هو المعرفة العالمية والاستدلال.

الادعاء الرسمي لـ Google هو أن Omni، المبني فوق نموذج Gemini الرائد، قد حسن بشكل كبير فهمه للقوانين الفيزيائية مثل الجاذبية والطاقة الحركية وديناميكيات السوائل، بالإضافة إلى تاريخ العالم والعلوم والرياضيات.

انتقلنا مباشرة إلى الاختبار بهذا الطلب: إنشاء كرة رخامية تتدحرج بسرعة على طول مسار ذو تفاعل متسلسل.

كانت النتيجة مثيرة للإعجاب حقاً. صمم Omni مساراً تفاعلياً متسلسلاً معقداً إلى حد ما بنفسه، متضمناً الجاذبية والمرونة والقوة الطاردة المركزية والمزيد — وكلها بدت واقعية بشكل مقنع.

ومع ذلك، تسلل خطأ نحو النصف الثاني: من العدم، انقسمت إحدى الكرات الرخامية إلى اثنتين بشكل غير مبرر.

جربنا واحدة أخرى: كرة تتدحرج ذهاباً وإياباً على طول الجدار الداخلي لمسار على شكل حرف U، وتستقر في النهاية عند أدنى نقطة.

كان هذا يبدو غير دقيق بعض الشيء.

تدحرجت الكرة بالفعل ذهاباً وإياباً على طول المسار على شكل حرف U واستقرت في الأسفل كما هو مطلوب — لكن الأمر برمته بدا وكأنه يحدث في مكان آخر غير الأرض. تحركت الكرة بجودة انعدام وزن غريبة، وبدت في لحظات وكأنها تتداخل قليلاً مع هندسة المسار.

أخيراً، أضفنا طلباً آخر — قصير وموجز وذو مرجعية ثقافية صينية محددة جداً: إنشاء فيديو للإمبراطور تايزونغ من تانغ وشقيقه الأكبر وهما يتواجهان عند بوابة شوانوو.

حسناً — كانت الحروف الصينية لـ "بوابة شوانوو" في الخلفية غير واضحة قليلاً، وتحدث كلتا شخصيتي أسرة تانغ بلغة الماندرين بلهجة أجنبية قليلاً. لكن Omni فهم المرجعية التاريخية وقدم مواجهة متوترة ومناسبة بالسيوف بين لي شيمين ولي يوانجي.

على الأقل فيما يخص تاريخ العالم، يبدو أن Omni قد قام بواجبه المنزلي.

أفكار ختامية: في انتظار Seedance 2.1

كان الضجيج حول Omni يتصاعد قبل وقت طويل من إعلان اليوم.

بدأ الأمر كله في أوائل شهر مايو، عندما رصد مستخدم سطراً صغيراً من النص يصعب تفويته على صفحة توليد الفيديو في Gemini: "مدعوم بواسطة Omni." أثارت هذه التفصيلة الصغيرة موجة من التكهنات عبر مجتمع التكنولوجيا في جميع أنحاء العالم.

كان الجميع يسألون نفس السؤال: ما هو Omni بالضبط؟ هل هو Veo 4، الجيل القادم من Veo 3 من مؤتمر Google I/O 2025؟ أم أنه نموذج جديد تماماً متعدد الوسائط؟ لهذا السبب استمرت التقارير المبكرة في التنقل بين "Gemini Omni" و"Veo 4".

ثم في 11 مايو، انتشر فيديو اختبار داخلي مسرب لـ "أستاذ يشتق معادلات على سبورة" على منصة X، محققاً أكثر من 2.4 مليون مشاهدة في غضون أيام قليلة.

في 10 ثوانٍ فقط، انتقل المقطع بين زوايا متعددة — ظهر الأستاذ، لمحة جانبية، لقطة مقربة للطباشير وهي تكتب المعادلات — كل ذلك مصحوباً بصوت خربشة الطباشير على السبورة، مع كون كل صيغة على السبورة صحيحة رياضياً. قفزت التوقعات إلى عنان السماء.

كان الحديث في ذلك الوقت هو أن Omni قد استوعب تماماً اللغة السينمائية وغرائز التحرير — قطع بزوايا متعددة، موسيقى خلفية أصلية مدرجة — ويمكنه "إنتاج فيديو نهائي جاهز مباشرة من الصندوق."

ولكن الآن بعد أن وصل Gemini Omni أخيراً بعد كل هذا الترقب، كان الاستقبال مختلطاً بالتأكيد.

يبدو أنه سيتعين علينا فقط مراقبة Seedance 2.1 — متى قرر الظهور.

العودة إلى القائمة

تجربة عملية لنموذج Google Gemini Omni: لم يصل إلى المستوى المطلوب بعد

اتساق اختبار Gemini Omni: مقبول إلى حد كبير

تحكم دقيق؟ يحتاج إلى مزيد من العمل

واجهة برمجة تطبيقات (API) موحدة لإنتاج الفيديو

كلا إصداري Gemini Omni Flash متاحان الآن على Atlas Cloud:

بداية سريعة — قم بإنشاء فيديو Gemini Omni Flash في 5 أسطر:

المعرفة العالمية: قوية في الفيزياء والتاريخ، ولكن لا تزال مليئة بالأخطاء

أحدث النماذج

Seedream v5.0 Pro Edit

Seedream v5.0 Pro Text-to-Image

Nano Banana 2 Lite Edit Developer

Nano Banana 2 Lite Text-to-Image Developer

واجهة برمجية واحدة لكل وسائط الذكاء الاصطناعي.

Join our Discord community