وداعاً للملاعق الطافية: كيف جعل نموذج Gemini Omni من Google فيديوهات الذكاء الاصطناعي تحاكي قوانين الفيزياء في العالم الحقيقي

نختبر ما إذا كان بإمكان Gemini Omni حقاً إنشاء مخرجات تتبع قوانين الفيزياء في العالم الحقيقي. يتناول هذا التقرير عرض الرخام التوضيحي، وزاوية الروبوتات، وما يجب على المطورين معرفته.

وداعاً للملاعق الطافية: كيف جعل نموذج Gemini Omni من Google فيديوهات الذكاء الاصطناعي تحاكي قوانين الفيزياء في العالم الحقيقي

مقطع فيديو سينمائي تم إنشاؤه بالذكاء الاصطناعي — إضاءة رائعة، وشخص يسير في طوكيو ليلاً — ثم، في منتصف المشهد، تمر قدمه عبر الرصيف. أو يتوقف المطر فجأة في منتصف الإطار. أو يحتوي كوب القهوة على نفسه للحظة.

كان الوهم مثالياً لمدة ست ثوانٍ بالضبط، حتى تدخلت قوانين الفيزياء.

على مدى ثلاث سنوات، كان هذا هو العيب الذي لا يمكن إصلاحه في جوهر الفيديو التوليدي. كانت النماذج قادرة على محاكاة المظهر، لكنها لم تكن قادرة على محاكاة العالم.

في 19 مايو في مؤتمر I/O 2026، قدم نموذج Gemini Omni من Google حجة مفادها أن هذا العيب أصبح قابلاً للإصلاح أخيراً، وقدم للجمهور بهدوء عرضاً تجريبياً واحداً أثبت هذه النقطة بشكل أفضل من أي مقياس أداء.

العرض التجريبي للكرة الرخامية الذي هز عالم الذكاء الاصطناعي على تويتر

العرض: كرة زجاجية واحدة تتدحرج على مسار معقد من التفاعلات المتسلسلة. ترتد عن الأطباق، وتقرع الأجراس، وتنزلق على المنحدرات، وتطيح بأحجار الدومينو التي تسقط أشياء أخرى. كل تلامس له قوة رد فعل معقولة، وكل هبوط له صوت متوافق.

لم تخفِ تغطية 9to5Google دهشتها: "يعد فيديو الكرة المتدحرجة مثالاً رائعاً، مع فيزياء واقعية للكرة ومؤثرات صوتية مقنعة لكل ارتداد ورنين جرس."

قد تبدو هذه الجملة مملة، لكنها في الواقع تمثل علامة فارقة في الصناعة.

انتشر العرض التجريبي بشكل فيروسي في غضون ساعات. حتى عمالقة الذكاء الاصطناعي لم يتمكنوا من البقاء صامتين — حيث غرد عالم المناعة والمعلق في مجال الذكاء الاصطناعي الدكتور ديريا أونوتمز بعد دقائق من الكلمة الرئيسية: "واو! أطلقت Google DeepMind للتو نموذجاً جديداً ومذهلاً متعدد الوسائط للذكاء الاصطناعي يسمى Gemini Omni. تبدو الفيديوهات جيدة للغاية! يجب تجربته في أسرع وقت ممكن!"

لماذا كان "مجرد دحرجة كرة" أمراً مستحيلاً لثلاث سنوات؟

لفهم لماذا يستحق عرض الكرة الرخامية لقب علامة فارقة في الصناعة، عليك أن تنظر إلى ما فشل فيه فيديو الذكاء الاصطناعي منذ عام 2023.

في عصر Sora، كانت الجودة البصرية موجودة بالفعل. كان بإمكان النموذج تقديم مقطع سينمائي بدقة 4K لشخص يسير عبر طوكيو ليلاً. لكن:

  • كانت المياه في النافورات تتدفق للأعلى.
  • كانت الملعقة تمر عبر وعاء الحبوب.
  • كانت ساق الشخصية تصبح شفافة لفترة وجيزة في منتصف الخطوة.
  • كانت الجاذبية تعمل... في معظم الأحيان.

كانت المرئيات مكتملة بنسبة 90%، لكن نموذج العالم مكتمل بنسبة 50%. وبمجرد أن يلاحظ المشاهد كسراً واحداً في قوانين الفيزياء، لا يمكنه تجاهله، وينهار الوهم بالكامل.

بالنسبة للمبدعين المحترفين، لم تكن هذه مشكلة تلميع، بل كانت عائقاً أمام الاستخدام. لم يكن بإمكانك تسليم فيديو الذكاء الاصطناعي للعملاء دون فحص الإطارات يدوياً بحثاً عن أي اختلالات فيزيائية، مما يعني أن معظم فرق المؤسسات تجاهلت هذه الوسيلة تماماً.

تستهدف Google من خلال Omni هذه الفجوة مباشرة. وتلخص صفحة الإطلاق الرسمية الأمر في جملة واحدة: "يتمتع Omni بفهم بديهي ومحسن للقوى مثل الجاذبية، والطاقة الحركية، وديناميكيات الموائع، مما يسمح لك بإنشاء مشاهد أكثر واقعية."

هاسابيس قال للتو الجزء الصامت بصوت عالٍ

لم يأتِ السطر الأكثر كشفاً في مؤتمر I/O 2026 من شريحة تسويقية، بل جاء من الرئيس التنفيذي لشركة DeepMind، ديميس هاسابيس، على المسرح: حيث وصف Omni بأنه "خطوة نحو الذكاء الاصطناعي العام (AGI)."

وكما ذكرت Decrypt، ربط هاسابيس صراحة بين محاكاة الفيزياء وطموح الذكاء الاصطناعي العام الأوسع — واصفاً Gemini بأنه "ذكاء اصطناعي لنمذجة العالم يمكنه فهمه ومحاكاته."

هذا هو الإطار الذي يجب أن يجعل الناس ينتبهون. هاسابيس لا يدعي أن Omni مجرد لعبة فيديو أفضل، بل يقول: إن النموذج الذي يفهم الفيزياء حقاً هو نموذج يمكنه في النهاية العمل في العالم المادي. وهو بالضبط ما تحتاجه الروبوتات.

زاوية الروبوتات التي لم يلاحظها أحد خارج الصين

Gemini Omni world model diagram linking AI video generation, physics simulation, and robotics training.jpg

هذه زاوية غفلت عنها معظم التغطية باللغة الإنجليزية تماماً، لكن الصحافة التقنية الصينية التقطتها أولاً.

وفقاً لـ تقرير من Sina Finance نقلاً عن كبير مسؤولي التكنولوجيا في DeepMind كوراي كافوكوغلو، فإن فهم Omni للفيزياء "طُبق بشكل مباشر على تدريب الروبوتات المتقدمة."

وقد التقط Technobezz نفس الإطار: حيث يحمل Omni "معرفة بالعالم أكثر بكثير من Veo" لأنه يرثها من بيانات التدريب الأساسية لـ Gemini — والتي تتضمن الآن كميات هائلة من أساسيات المحاكاة الفيزيائية.

الترجمة: عرض الكرة الرخامية ليس خدعة للمبدعين. إنه معاينة عامة للمحاكي الذي تستخدمه Google لتعليم الروبوتات كيفية الإمساك، والرمي، والتوازن، ورد الفعل. نموذج الفيديو هو الطرف المرئي لجبل جليدي أكبر بكثير لنمذجة العالم — يمتد من الفيديو المولد ← الفهم المادي ← الذكاء الاصطناعي المتجسد.

فجأة، تبدو الكرة المتدحرجة مختلفة. ليس كـ "جوجل صنعت عرضاً فيزيائياً رائعاً"، بل كـ "جوجل أظهرت للعالم بهدوء أن خط أنابيب تدريب الروبوتات الخاص بها يعمل بكفاءة."

الدليل المخفي الذي فاته الجميع: عرض السبورة

إليك دليلاً ثانياً على الفيزياء كان يتداول بهدوء في المنتديات التقنية الصينية.

قبل أيام من مؤتمر I/O 2026، بدأ تداول عرض تجريبي مسرب لـ Omni: أستاذ على سبورة، يكتب إثباتاً كاملاً لهوية مثلثية. وكما ورد في تغطية 36Kr، كانت الصيغة صحيحة رياضياً، والخطوات مرتبة بشكل مترابط، وخط اليد طبيعياً — كل ذلك تم إنشاؤه من مطالبة إنجليزية واحدة.

يبدو هذا إنجازاً في عرض النصوص، لكنه في الواقع إنجاز فيزيائي متنكر.

يتطلب خط اليد الصحيح من الذكاء الاصطناعي نمذجة:

  • آليات حركة اليد لتشكيل كل حرف.
  • التسلسل الذي يُكتب به الإثبات عادة.
  • الضغط المادي للطباشير على السبورة.
  • المنطق الزمني لخطوات الاشتقاق.

في المقابل، أنتج Sora نصاً على السبورة، بكلمات مقال 36Kr، "بدا ككتابة ولكن عند الفحص الدقيق كان مجرد هراء كامل."

نفس القدرة الأساسية — الاتساق المادي والزماني — طُبقت على مجال مختلف. الكرة ترتد بشكل صحيح، والطباشير تضرب السبورة بشكل صحيح. كلاهما هو نفس نموذج العالم الذي يظهر في اختبارات سطحية مختلفة.

لكن دعونا لا نتوج أحداً بعد

سيكون من غير المسؤول كتابة رسالة مدح دون ملاحظات.

مراجعة DataCamp العملية ضبطت Omni بالفعل وهو يكسر قوانين الفيزياء. طلب المراجع إطلاق "منجنيق" — فطار المقذوف للخلف. كان العيب حقيقياً، لكنه كان مضحكاً أكثر من كونه مأساوياً لأن المراجع اختار نمطاً بصرياً يشبه النسيج (tapestry)، لذا اندمج العيب كأنه فن من العصور الوسطى.

وقد انتقد Engadget التغطية المبالغ فيها قائلاً: "المشكلة الرئيسية في Veo 3.1 وتطبيقات توليد الفيديو الأخرى هي أن الفيديو يتمتع بمظهر 'وادي الغرابة'، وغالباً ما يكرهه المستخدمون النهائيون. سيكون من المثير للاهتمام معرفة ما إذا كانت جودة المخرجات تتطابق مع ادعاءات Google المتحمسة."

ثلاثة اختبارات واقعية أخرى:

  1. لم يتم نشر مقاييس أداء. لم تنشر Google تقييمات رقمية إلى جانب الإطلاق. ولن تصل مقاييس الأداء المستقلة من جهات خارجية لعدة أسابيع.
  2. حد 10 ثوانٍ للمقطع. وفقاً لـ مقابلة TechCrunch مع DeepMind، يقتصر Omni Flash حالياً على مخرجات مدتها 10 ثوانٍ. القادم أطول، لكن في الوقت الحالي، هذا مجال للمقاطع القصيرة.
  3. تأجيل تحرير الصوت/الكلام.اعترفت Google نفسها بأن الشركة "ما زالت تعمل على اختبار هذا وفهم كيفية تقديم هذه القدرة للمستخدمين بمسؤولية" — أي أن خطر التزييف العميق في تحرير الصوت حقيقي، ولا تقوم Google بشحن هذه القدرة عمداً حتى الآن.

يأتي كل مقطع من Omni مزوداً بعلامة SynthID المائية غير المرئية من Google بالإضافة إلى بيانات الاعتماد الخاصة بالمحتوى C2PA، والتي يمكن التحقق منها في تطبيق Gemini، وChrome، والبحث. تجدر الإشارة إلى أنه مع زيادة واقعية الفيزياء، تصبح الحجة لصالح المصدر المشفّر أقوى، وليس أضعف. كلما بدا التزييف أفضل، زادت حاجتنا لمعرفة أنه تزييف.

مقارنة Omni بـ Sora وVeo وSeedance من حيث الفيزياء

إليك كيفية ترتيب نماذج فيديو الذكاء الاصطناعي الرائدة من حيث الفيزياء وفهم العالم اعتباراً من مايو 2026:

النموذجواقعية الفيزياءمعرفة العالمالتحرير الحواريالحالة
Gemini Omni Flashالقائد الجديد (مزعوم)الأفضل — يرث تدريب Geminiنعم، متعدد الجولاتمباشر منذ 19 مايو 2026
Sora 2 (OpenAI)مُحسّن لكن لا يزال به خللمحدودلاإيقاف تطبيق Sora؛ إنهاء الـ API سبتمبر 2026
Veo 3.1 (Google)جيد، بدون معرفة بالعالممحدودنص + مدخلات صورة فقطمباشر، قيد الاستبدال بـ Omni
Seedance 2.0 (ByteDance)قوي في الحركةجيدمحدودمباشر؛ مرتب في المركز الأول في Artificial Analysis Video Arena

القراءة الصادقة: يقدم Omni الادعاء الأكثر قوة حول الفيزياء، بينما يمتلك Seedance أقوى مقياس أداء عام حالي، وSora يخرج من سباق المستهلكين، وVeo يتم امتصاصه بهدوء.

ماذا يغير هذا فعلياً — صناعة بصناعة

إذا أصبحت الفيزياء محلولة (أو شبه محلولة)، فإليك ما سيتم فتحه من آفاق:

لصناع الأفلام ومبدعي الإعلانات: لا مزيد من مراقبة الجودة الفيزيائية إطاراً بإطار. نوع التنظيف الدقيق الذي كان يستهلك يوماً من وقت المحرر — إصلاح كائن واحد به خلل، إعادة تحريك ارتداد سيء — ينهار. يصبح إعداد لوحة القصة (Storyboarding) لما قبل الإنتاج أسرع بشكل كبير، وتتقلص الفجوة بين المفهوم والتحريك من أسابيع إلى دقائق.

للمعلمين: شرح علمي دقيق بدون محرك رسوم متحركة. العرض التوضيحي للصلصال الذي يطوي البروتينات الذي عرضه هاسابيس في مؤتمر I/O ليس حيلة — بل لمحة عما يمكن لكل معلم فيزياء في المدرسة الثانوية صنعه قريباً بتكلفة أقل من 20 دولاراً من الحوسبة. مسارات التفاعل المتسلسل، وديناميكيات الموائع، وحركة الكواكب: كلها تصبح قابلة للشرح عند الطلب.

لفرق الروبوتات: تأكيد أن DeepMind لديها محاكيات فيزيائية عاملة على نطاق واسع. حتى لو كنت لا تستخدم حزمة Google، فإن وجود فيزياء بمستوى Omni من مختبر رئيسي واحد يغير الجدول الزمني للذكاء الاصطناعي المتجسد عبر الصناعة بأكملها.

لاستوديوهات الألعاب: مشاهد سينمائية تم إنشاؤها بالذكاء الاصطناعي لا تكسر الانغماس. كانت المشاهد السينمائية للألعاب دائماً المكان الذي تهم فيه دقة الفيزياء أكثر — وحيث فشلت أدوات فيديو الذكاء الاصطناعي بشدة. مستوى Omni يرفع سقف التحدي.

للمعلنين: فيديوهات منتجات لا تبدو مزيفة. السبب في تجنب العلامات التجارية لفيديو الذكاء الاصطناعي ليس الجودة — بل العيوب غير الطبيعية. عندما تُصب الصودا بشكل صحيح في كوب، وعندما ينثني نعل الحذاء بشكل واقعي عند الارتطام، يصبح فيديو الذكاء الاصطناعي قابلاً للتسويق تجارياً.

خط التقسيم الجديد — ولماذا أصبح الارتباط بنموذج واحد مخاطرة

إليك الاستنتاج الذي يهم أي شخص يبني منتجات الذكاء الاصطناعي في عام 2026.

كان المعيار القديم لفيديو الذكاء الاصطناعي هو الجودة البصرية. المعيار الجديد هو فهم العالم. مع حدوث هذا التحول، يتشظى مشهد النماذج إلى قادة متخصصين للغاية:

  • Gemini Omni يدعي الآن تاج الفيزياء + التفكير.
  • Seedance من ByteDance لا يزال يقود في الحركة السينمائية وتحريك الشخصيات.
  • نماذج أخرى تقود في التوليد طويل الأمد، والتحرير في الوقت الفعلي، ومزامنة الصوت، أو المخرجات الدفعية منخفضة التكلفة.

بالنسبة للمطورين، هذا التشظي يمثل صداعاً تشغيلياً حقيقياً. النموذج الأفضل في الفيزياء هذا الربع ليس هو الأفضل في اتساق الشخصيات في الربع التالي. النموذج الأفضل في مخرجات 4K السينمائية اليوم ليس هو الأفضل في التوليد الدفعي الفعال من حيث التكلفة بعد ستة أشهر من الآن. وكل واحد منها يأتي مع SDK الخاص به، وتدفق المصادقة، ونموذج التسعير، وخصائص تحديد المعدل. يمكن لفريقك بسهولة خسارة دورة هندسية كاملة لكل تكامل نموذج — ودورة أخرى لكل إيقاف.

هذه هي الفجوة التي بُنيت Atlas Cloud لسدها. نحن نمنح المطورين نقطة نهاية واحدة مع الوصول إلى أكثر من 300 نموذج — كل نموذج أساسي رئيسي، والإصدارات الرائدة مفتوحة المصدر، والمتخصصون سريعو الحركة عبر الصورة، والفيديو، والصوت، والتفكير. انتقل بين النماذج بسطر واحد من التعليمات البرمجية. قم بإجراء تقييمات جنبًا إلى جنب دون إعادة بناء تكاملك. اشحن النموذج الأقوى للقدرة المحددة التي تحتاجها الآن، وانتقل إلى القائد التالي في اللحظة التي يتحرك فيها المتصدرون — دون إعادة كتابة نقطة نهاية واحدة.

الرياضيات بسيطة: في عالم تقوده الفيزياء، واتساق الشخصيات، والحركة السينمائية، وعرض النصوص من قبل نماذج مختلفة، فإن أسوأ قرار معماري ممكن هو حبس نفسك في أي منها.

Atlas Cloud هي طبقة التجريد التي تجعل مشهد النماذج المتشظي قابلاً للتنقل — بدلاً من أن تكون عبئاً على فريقك.

الاستنتاج الحقيقي

عصر "أي ذكاء اصطناعي ينتج الفيديو الأجمل" ينتهي أسرع مما يدركه معظم الناس.

ما يبدأ هو عصر "أي ذكاء اصطناعي يفهم العالم حقاً." وفي ذلك السباق، كرة متدحرجة واحدة — ترتد بشكل متوقع، وتقرع جرساً بالدرجة الصحيحة، وتهبط حيث تقول الفيزياء إنها يجب أن تهبط — تبين أنها عرض تجريبي أكثر أهمية من أي مشهد واقعي كان بإمكان Google تقديمه.

البيكسلات الجميلة ولت. ونماذج العالم هي السائدة.

السنوات الثلاث القادمة من فيديو الذكاء الاصطناعي ستقرر هنا.

أحدث النماذج

ابدأ من أكثر من 300 نموذج

استكشف جميع النماذج

Join our Discord community

Join the Discord community for the latest model updates, prompts, and support.