مراجعة ميزة Gemini Omni: تعديل الفيديو عبر المحادثة الطبيعية

مراجعة عملية لقدرة Gemini Omni على تحرير الفيديو من خلال المحادثة الطبيعية. نظرة على عروض I/O 2026 التوضيحية، وسير العمل الفعلي، وما يجب أن يعرفه صناع المحتوى.

مراجعة ميزة Gemini Omni: تعديل الفيديو عبر المحادثة الطبيعية

أطلقت Google نموذج Gemini Omni في مؤتمر I/O 2026، وهو نموذج متعدد الوسائط يقوم بتحرير الفيديو من خلال محادثة باللغة الإنجليزية البسيطة، بعيداً عن الجداول الزمنية أو الإطارات الرئيسية (keyframes). وتثبت العروض التوضيحية المنتشرة (تمثال الفقاعات، المرآة السائلة، عازف الكمان) التحول الحقيقي: الأمر لا يتعلق بمجرد تحويل النص إلى فيديو، بل بـ "تحويل النص لتحرير الفيديو الذي تمتلكه بالفعل". هذه هي لحظة "آيفون" الخاصة بصناعة الفيديو. ومن الملاحظ غياب ميزات الكلام، وتحرير الصوت، والنسخة الاحترافية (Pro) — وهذا مقصود.

إنها الساعة الواحدة صباحاً، وقد أمضيت أربع ساعات في تحرير مقطع مدته 30 ثانية. ملف مشروعك يحتوي على 47 طبقة، ومعصمك يؤلمك من كثرة سحب الإطارات الرئيسية. أرسل العميل رسالة للتو يقول فيها: "هل يمكننا جعل الإضاءة أكثر دفئاً؟" وأنت، كخبير، على وشك البدء من جديد.

كانت تلك هي طبيعة العمل. لقد كانت كذلك بالفعل.

في 19 مايو 2026، أخرجتها Google من الخدمة بهدوء.

في مؤتمر I/O 2026، أعلنت الشركة عن Gemini Omni — وهو نموذج متعدد الوسائط يحول تحرير الفيديو إلى شيء ظن معظمنا أنه لا يزال على بعد عقد من الزمن: محادثة عادية.

الوعد الجوهري: توقف عن "تشغيل" الفيديو. ابدأ بالتحدث إليه.

إليك الفكرة بالكامل في جملة واحدة: أنت لم تعد "تُشغل" الفيديو، بل تخبره بما تريده.

إعلان Google يوضحه دون تجميل: "كل تعليمات تبني على ما سبقها. تظل شخصياتك ثابتة، وتحافظ القوانين الفيزيائية على اتساقها، ويتذكر المشهد ما حدث من قبل."

هذا ليس مجرد تحديث لـ Veo. تقدم صفحة منتج Google DeepMind صياغة أوضح: "فكر في Gemini Omni مثل Nano Banana، ولكن للفيديو." في العام الماضي، جعل Nano Banana تحرير الصور سهلاً مثل كتابة ما تريده. والآن يقوم Omni بالأمر نفسه للصور المتحركة.

أول نموذج في هذه العائلة — Gemini Omni Flash — متاح بالفعل في تطبيق Gemini، وGoogle Flow، وYouTube Shorts.

وهذه هي الجملة التي يجب أن تعيد صياغة تفكيرك حول هذه الفئة بالكامل: في مقابلة TechCrunch مع فريق DeepMind، وصف مهندس الأبحاث غابي بارث-مارون ما يصنعه الناس باستخدام Omni بأنه "ميمز مخصصة."

هذه هي الأطروحة. لقد انتقلت صناعة الفيديو للتو من كونها حرفة إلى وسيلة للتعبير — وهو نفس الانتقال الذي حدث للتصوير الفوتوغرافي عندما قضت هواتف آيفون على هيمنة كاميرات DSLR.

العروض التي تجتاح تويتر

يمكنك قراءة مواد التسويق طوال اليوم. ما جعل هذا الإطلاق ناجحاً هو العروض التوضيحية. هناك ثلاثة منها تنتشر في كل مكان حالياً:

  • تمثال الفقاعات: زود Omni بمقطع لتمثال حجري، واكتب "اجعل التمثال مصنوعاً من الفقاعات"، وسيحافظ العرض التالي على نفس التكوين، ونفس الإضاءة، ونفس الظلال — لكن التمثال أصبح الآن صابوناً شفافاً يعكس الضوء المحيط.
  • المرآة السائلة: تلمس يدٌ مرآة؛ ويطلب التلقين من Omni "اجعل المرآة تتموج بجمال مثل السائل، وحوّل ذراع الشخص إلى مادة مرآة عاكسة."كما وثق موقع Windows Report، تنتشر التموجات فيزيائياً إلى الخارج، ويعكس كروم الذراع الغرفة الفعلية.
  • التعديلات المتسلسلة: يُظهر عرض عازف الكمان من Google موضوعاً واحداً عبر ثلاث جولات: المسرح ← بيئة منقولة ← زاوية كاميرا من منظور الكتف. ثلاثة تعديلات. شخص واحد. الوجه، والوضعية، وطريقة الإمساك بالآلة — كلها متسقة.

Three viral Gemini Omni demos: bubble sculpture, liquid mirror, and violinist shoulder-cam angle edits.jpg

هذا ليس تحويل نص إلى فيديو. إنه "تحويل النص لتعديل الفيديو الذي تملكه بالفعل". التمييز يبدو بسيطاً، لكنه يغير كل شيء.

لماذا فقد المبدعون صوابهم تجاهه

السبب وراء نجاح هذا الإطلاق أكثر من إطلاقات النماذج الأخرى بسيط: Omni يقضي على أسوأ حلقة مفرغة في توليد الفيديو.

الحلقة القديمة: توليد ← كره النتيجة ← إعادة كتابة التلقين بالكامل ← الانتظار 90 ثانية ← لا تزال النتيجة سيئة ← التكرار.

الحلقة الجديدة: توليد ← "غير الإضاءة إلى ساعة ذهبية" ← تم ← "الآن أبطئ حركة الكاميرا" ← تم.

Gemini Omni conversational refinement loop.jpg

لم يلطف موقع Android Central من حكمه: "قد تجعل Gemini Omni تطبيقات تحرير الفيديو التقليدية تبدو قديمة." وقدم TechRadar نفس النقطة بمزيد من التفصيل، مشيراً إلى أن الحركة تظل الآن متماسكة عبر التعديلات بدلاً من إعادة تعيينها مع كل تلقين.

بدأ المطورون بالتحرك بالفعل. على منصة المطورين V2EX، قام مطور صيني باختباره في يوم الإطلاق وكتب: "التعديل القائم على الدردشة للأشياء داخل الفيديو — هذا النوع من التفاعل هو بوضوح الاتجاه المستقبلي. السرعة والاتساق تجاوزا توقعاتي." وعلى منصة X، غرد عالم المناعة والمعلق في مجال الذكاء الاصطناعي الدكتور ديريا أونوتمز بعد دقائق من الكلمة الرئيسية: "واو! أطلقت Google DeepMind للتو نموذجاً جديداً مذهلاً للذكاء الاصطناعي متعدد الوسائط يسمى Gemini Omni. الفيديوهات تبدو جيدة جداً! يجب تجربته في أسرع وقت ممكن!"

عندما تتفق نخبة تويتر في مجال الذكاء الاصطناعي ومنتديات المطورين الصينية على نفس النغمة في غضون ساعات، فأنت تشهد تحولاً حقيقياً.

أين تتحفظ Google بهدوء

سيكون من غير المسؤول كتابة رسالة مديح دون ذكر التحذيرات.

Half-human half-AI portrait illustrating Gemini Omni uncanny valley and deepfake detection challenge.jpg

أشار موقع Engadget إلى المشكلة الواضحة: "المشكلة الرئيسية في Veo 3.1 وتطبيقات توليد الفيديو الأخرى هي أن الفيديو يتمتع بمظهر 'وادي الغرابة' (uncanny valley)، وغالباً ما يكرهه المستخدمون النهائيون. سيكون من المثير للاهتمام معرفة ما إذا كانت جودة المخرجات تطابق ادعاءات Google المتحمسة."

وقد كشفت اختبارات DataCamp العملية بالفعل عن خطأ فيزيائي حقيقي — آلة منجنيق أطلقت حمولتها إلى الخلف. وأشار المراجع إلى أن النموذج لا يزال يفتقر أيضاً إلى نتائج معايير منشورة، لذا فإن التحقق المستقل سيستغرق أسابيع.

هناك أيضاً إغفال متعمد: تحرير الكلام والصوت داخل الفيديوهات الموجودة. كما اعترفت Google نفسها، فإن الشركة "لا تزال تعمل على اختبار هذا وفهم كيفية تقديم هذه القدرة للمستخدمين بمسؤولية." الترجمة: خطر التزييف العميق حقيقي، وهم يحتفظون بالقدرة الأكثر خطورة خلف الستار.

يأتي كل مقطع من Omni مزوداً بعلامة SynthID المائية غير المرئية من Google بالإضافة إلى بيانات C2PA — وهي بيانات يمكن التحقق من مصدرها داخل تطبيق Gemini، وChrome، وSearch. هذا ليس اختيارياً، بل هو الحد الأدنى من المتطلبات الآن.

ما يعنيه هذا بالفعل لسير عملك

بإزالة الضجيج، ستجد شيئاً جديداً حقاً:

  • الأداة هي المحادثة. لا جداول زمنية، لا طبقات، لا إطارات رئيسية. مجرد كلمات.
  • حلقة التغذية الراجعة تتقلص. ما كان يتطلب 90 ثانية لإعادة التوليد أصبح يتطلب 10 ثوانٍ للتعديلات.
  • خندق المحترفين يتقلص. عندما يتمكن أي شخص لديه ذوق من تكرار التعديلات على الفيديو بنفس سرعة تكرار الرسائل على Slack، ينتقل عنق الزجاجة من التنفيذ إلى الأفكار.

بالنسبة لفرق التسويق، والمبدعين المستقلين، والمعلمين، وأي شخص احتاج يوماً إلى "مقطع سريع مدته 10 ثوانٍ" — هذه هي نقطة التحول. ليس لأن النموذج مثالي، بل لأن نمط التفاعل أصبح صحيحاً أخيراً.

تحرير الفيديو في المستقبل لن يحتاج إلى برمجيات، بل سيحتاج إلى مفردات.

شيء أخير — لأي شخص يبني بالفعل باستخدام هذه الأدوات

إليك الحقيقة المحرجة وراء كل إطلاق لنموذج مثل هذا: بحلول الربع القادم، سيتم الإعلان عن ثلاثة نماذج أخرى تدعي أنها "أفضل نموذج فيديو في العالم". سيكون لكل منها SDK مختلف، ومسار مصادقة مختلف، ونظام مختلف لحدود السرعة، ونموذج تسعير مختلف. سيضيع فريقك أسبوعاً في تهيئة كل واحد منها، ثم أسبوعاً في إيقاف استخدام السابق.

تلك هي المشكلة التي تحلها Atlas Cloud بالضبط.

نحن نمنح المطورين نقطة وصول واحدة (endpoint) تتيح الوصول إلى أكثر من 300 نموذج — كل نموذج أساسي رئيسي، والإصدارات الرائدة مفتوحة المصدر، والمتخصصون سريعو التطور في مجالات الصور والفيديو والاستنتاج. بدّل النماذج بسطر واحد من التعليمات البرمجية. قم بتشغيل معايير مقارنة جنباً إلى جنب دون الحاجة لإعادة دمج الـ SDK. أطلق النموذج الرائج اليوم، وانتقل إلى أي شيء يروج في الشهر المقبل — دون إعادة كتابة أي شيء.

لأن الشيء الوحيد المؤكد بشأن الذكاء الاصطناعي الآن هو أن لوحة المتصدرين تتغير كل يوم ثلاثاء. ابنِ مع وضع ذلك في الحسبان.

أحدث النماذج

ابدأ من أكثر من 300 نموذج

استكشف جميع النماذج

Join our Discord community

Join the Discord community for the latest model updates, prompts, and support.