لقد قمنا بتشغيل نموذجي Grok Imagine Image و GPT Image-2 عبر 6 مطالبات (Prompts) متطابقة ومحايدة، تغطي دلالات التكوين، والتشريح الواقعي، وعرض النصوص متعددة اللغات، والتحويل الهندسي، والتعديل المحلي، ودمج مراجع متعددة.
كلا النموذجين Grok Imagine Image و GPT Image-2 متاحان عبر مفتاح API واحد من Atlas Cloud، مما يجعل هذا المعيار الدقيق قابلاً للتكرار في دقائق.
لماذا يوجد معيار مقارنة نماذج صور AI هذا؟
كل "مقارنة لنماذج صور الذكاء الاصطناعي" تجدها عبر الإنترنت تقع في نفس الفخ: مطالبات منتقاة بعناية، واختيار لأفضل النتائج من بين خمس محاولات، وادعاءات غير مختبرة. تم بناء هذا المعيار حول مبادئ المستوى (Tier A): مطالبات محايدة للنماذج، مدخلات متطابقة عبر جميع النماذج، مخرجات افتراضية ببذرة واحدة (بدون انتقاء)، ومعايير تسجيل يمكن صياغتها في جملة واحدة لكل فئة.
تتضمن النماذج الستة في المعيار الكامل: Grok، وGPT Image 2، وNano Banana 2، وNano Banana Pro، وWan 2.7، وSeedream 5.0. يركز هذا المقال على المقارنة المباشرة بين Grok وGPT Image 2، باعتبارهما الخيار الأكثر أهمية تجارياً للمطورين الذين يختارون نموذج صور افتراضي.
كيف اختبرنا Grok Imagine Image مقابل GPT-Image 2: 6 فئات، وقاعدة واحدة من المستوى (Tier A)
تستهدف كل مطالبة بُعد قدرة واحد محدد بوضوح. تم تحديد معايير النجاح/الفشل قبل تشغيل النماذج، وليس بعد رؤية المخرجات.
| الفئة | البُعد الأساسي المختبر | معيار النجاح/الفشل في جملة واحدة |
|---|---|---|
| 1 · دلالات التكوين | محاذاة التعليمات | هل أحصى النموذج 7 كائنات، ووضعها بشكل صحيح، والتزم بقائمة النفي؟ |
| 2 · التشريح الواقعي والإضاءة | الجودة البصرية والفيزياء | هل الأصابع الخمسة صحيحة تشريحياً، وهل تظهر أنماط الإضاءة الكاوية على الوجه؟ |
| 3 · ملصق متعدد اللغات | عرض النص داخل الصورة | هل تم عرض الحروف الصينية والإنجليزية بشكل صحيح دون فقدان ضربات أو رموز وهمية؟ |
| 4 · التحويل الهندسي (I2I) | التحكم في التعديل + الهوية | بعد دوران 45 درجة، هل لا يزال الشخص معروفاً مع بقاء تفاصيل الملابس سليمة؟ |
| 5 · التعديل المحلي وحفظ المنطقة | دقة التعديل | هل تم إجراء 3 تعديلات بالضبط، مع بقاء كل شيء آخر دون تغيير على مستوى البكسل؟ |
| 6 · دمج مراجع متعددة | الاتساق عبر الصور | هل اندمجت الهوية والأسلوب والمشهد من 3 مراجع منفصلة في صورة واحدة متماسكة؟ |
الفئة 1 · دلالات التكوين (T2I)
المطالبة:
صورة فوتوغرافية علوية لطاولة طعام خشبية تحتوي على سبعة عناصر خزفية بالضبط: ثلاثة أكواب شاي بيضاء متطابقة مرتبة في مثلث متساوي الأضلاع في المركز، ووعاءان أسودان موضوعان على يمين أكواب الشاي، وتفاحة حمراء داخل الوعاء الأسود الموجود في أقصى اليسار، وملعقة خشبية فارغة مستندة فوق الوعاء الأسود الموجود في أقصى اليمين مع توجيه مقبضها نحو الزاوية العلوية اليسرى من الإطار. لا أكواب قهوة، لا عناصر معدنية، لا أطباق، لا أدوات زجاجية. إضاءة نافذة ناعمة منتشرة من أعلى اليسار، منتصف الصباح. تصوير واقعي، بدون أدوات تصفيف.
هذا الاختبار عدائي عن قصد. فالحساب، واللغة المكانية ("إلى يمين"، "أقصى اليسار")، وبنود النفي هي أنماط فشل معروفة لجميع بنى الانتشار الحالية.
قائمة التحقق من التسجيل
| # | المعيار | التحقق |
|---|---|---|
| 1 | إجمالي عدد الكائنات | 7 عناصر خزفية بدقة |
| 2 | ثلاثة أكواب شاي بيضاء | ترتيب مثلث متساوي الأضلاع |
| 3 | وعاءان أسودان | موضوعان على يمين أكواب الشاي |
| 4 | تفاحة حمراء | داخل الوعاء الأسود في أقصى اليسار |
| 5 | ملعقة خشبية | مستندة على الوعاء الأيمن، المقبض يشير لأعلى اليسار |
| 6 | الامتثال للنفي | لا أكواب قهوة / لا معدن / لا أطباق / لا أدوات زجاجية |
| 7 | مصدر الضوء | ضوء ناعم منتشر من أعلى اليسار، ظلال متسقة |
| 8 | أسلوب التصوير | لا توجد كليشيهات تصفيف (أوراق نخيل، شموع، إلخ) |
Grok Imagine object count: يظهر بوضوح 5 أكواب شاي (ليس 3)، مرتبة في مجموعة بدلاً من مثلث متساوي الأضلاع. الوعاءان الأسودان موجودان، مع وجود التفاحة الحمراء بشكل صحيح داخل أحدهما. الملعقة الخشبية موجودة ومستندة على الوعاء الأيمن، واتجاه المقبض تقريباً نحو أعلى اليسار - هذا المعيار مقبول. الامتثال للنفي نظيف: لا أكواب قهوة، لا معدن، لا أطباق، لا أدوات زجاجية. مصدر الضوء من أعلى اليسار مع ظلال متسقة مقبول. لا توجد أدوات تصفيف.
أظهر GPT Image 2 اتباعاً أقوى للتعليمات في المكونات المكانية، على الرغم من أن أياً من النموذجين لم يحقق عدداً دقيقاً من 7 كائنات مع استيفاء جميع قيود الوضع في وقت واحد.
الفئة 2 · التشريح الواقعي والإضاءة (T2I)
المطالبة:
صورة مقربة لامرأة من شرق آسيا في أوائل الثلاثينيات تحمل كأساً كريستالياً نصف ممتلئ بالنبيذ الأحمر في يدها اليمنى، الأصابع الخمسة والإبهام تظهر بالكامل وتلتف بشكل طبيعي حول الساق وجزئياً حول الوعاء. تجلس بجانب نافذة طويلة تواجه الغرب أثناء الساعة الذهبية. أشعة شمس الظهيرة المتأخرة تخترق النبيذ لتخلق أنماطاً قرمزية دافئة على عظمة الخد الأيسر وخط الفك. يدها اليسرى تستقر على كتاب بغلاف مقوى مفتوح على حضنها. انعكاسات الضوء من النافذة مرئية في كلتا العينين. يظهر الجلد مساماً مفصلة للغاية، وزغباً ناعماً، وتشتتاً تحت السطح على شحمة الأذن وجسر الأنف. الشعر مضاء من الخلف بإضاءة حواف. عدسة 85 مم، فتحة f/2.0، عمق ميدان ضحل، واقعية فوتوغرافية.
هذا هو أصعب اختبار لصورة واحدة تاريخياً بالنسبة للنماذج التوليدية.
قائمة التحقق من التسجيل
| # | المعيار | التحقق |
|---|---|---|
| 1 | تشريح اليد | 5 أصابع + إبهام، قبضة طبيعية على الساق والوعاء |
| 2 | الإضاءة الكاوية | أنماط قرمزية دافئة من النبيذ مسقطة على عظمة الخد |
| 3 | اتساق انعكاس الضوء | نفس الموضع والشكل في كلتا العينين |
| 4 | التشتت تحت السطح (SSS) | مرئي على شحمة الأذن وجسر الأنف عند الإضاءة الخلفية |
| 5 | فيزياء إضاءة الحواف | الاتجاه يطابق موضع مصدر الضوء |
| 6 | واقعية الجلد | لا يوجد تنعيم مفرط "بلاستيكي"؛ المسام والزغب مرئيان |
قدم Grok Imagine أداءً قوياً فيما يتعلق بميزته الرئيسية. كان تشريح اليد صحيحاً - عدد الأصابع دقيق، وضعية القبضة طبيعية حول الساق والوعاء، زاوية المعصم مقبولة فيزيائياً. هذا وحده يتجاوز حاجزاً تفشل فيه العديد من النماذج تماماً. أظهر نسيج الجلد تفاصيل حقيقية على مستوى المسام مع وجود زغب ناعم مرئي وبدون تنعيم بلاستيكي مفرط، وأنتج التشتت تحت السطح على جسر الأنف وعظام الخد جودة دافئة وقابلة لنفاذ الضوء تبدو واقعية فوتوغرافياً. اتبعت إضاءة الحواف على الشعر اتجاه مصدر النافذة بشكل متسق.
كان إسقاط الضوء الكاوي أضعف نقطة لدى Grok. ظهرت أنماط الضوء القرمزية على الوجه، لكن تم تقديمها كطبقة حمراء مبالغ فيها ومنمقة بشكل درامي - تشبه تأثيراً لونياً أكثر من كونها خيوط ضوئية دقيقة ناتجة فيزيائياً عن مرور ضوء الشمس عبر النبيذ. فشلت المعقولية الفيزيائية للضوء الكاوي في معيار الدقة.
عكس GPT Image 2 هذه المقايضة. كان عرض الضوء الكاوي لديه أكثر دقة من الناحية الفيزيائية - فالأنماط القرمزية الدافئة على عظمة الخد كانت أصغر وأكثر انتشاراً واتبعت الهندسة المكانية للضوء المار عبر كأس النبيذ بالزاوية الصحيحة. هذه هي التفاصيل التي افتقدها Grok. ومع ذلك، دفع GPT Image 2 الثمن في مكان آخر: كان تشريح اليد أقل طبيعية قليلاً، مع زوايا أصابع حول الساق تظهر صلابة طفيفة. مال نسيج الجلد نحو الجودة الأكثر نعومة وتسطيحاً الشائعة في صور الذكاء الاصطناعي، مع دفء SSS أقل وضوحاً وإضاءة حواف أضعف مقارنة بـ Grok.
الفئة 3 · ملصق متعدد اللغات (T2I)
المطالبة:
ملصق سفر بأسلوب الستينيات القديم لمهرجان سينمائي خيالي، مصمم بأسلوب التصميم التجاري في منتصف القرن. أعلى الملصق، حروف صينية عريضة بخط serif تقرأ "时光电影节" (السطر 1)، وأدناه بحروف صينية أصغر "第七届 · 上海 · 1965年5月" (السطر 2).
المركز: رسم منمق لجهاز عرض أفلام قديم يلقي حزمة ضوئية على شاشة سينما منحنية قليلاً.
أسفل المركز: كأس شمبانيا طويل مع نص إنجليزي "GRAND OPENING NIGHT" يلتف على طول منحنى وعاء الكأس، متبعاً المنظور الإهليلجي.
الحافة اليمنى، نص عمودي يقرأ "presented by 时代影业 · TIMES PICTURES" يمتد من الأعلى للأسفل.
الشريط السفلي: نص حقوق إنجليزي صغير "music · HUANG ZHAN / cinematography · GU CHANGWEI / poster design · ZHANG GUANGYU" في سطر واحد.
لوحة الألوان: خلفية كريمية، أحمر قرمزي عميق، لمسات أصفر خردلي. نسيج ورق قديم قليلاً، حبيبات دقيقة.
قائمة التحقق من التسجيل
| # | المعيار | التحقق |
|---|---|---|
| 1 | دقة الصينية | لا توجد ضربات مفقودة، لا رموز وهمية |
| 2 | تخطيط ثنائي اللغة | الصينية والإنجليزية غير مختلطتين؛ كل منهما في منطقته الصحيحة |
| 3 | نص منحني على الكأس | الإنجليزية تتبع المنظور الإهليلجي لكأس الشمبانيا |
| 4 | نص الحافة اليمنى العمودي | مقروء من الأعلى للأسفل |
| 5 | التسلسل الهرمي الطباعي | تمييز واضح بين العنوان |
| 6 | الأسلوب مقابل الوضوح | الحفاظ على جمالية الستينيات دون التضحية بوضوح النص |
أنتج Grok Imagine ملصقاً ملفتاً للنظر بطاقة رسومية قوية تعود لمنتصف القرن. ومع ذلك، فشل في معيار النص الأكثر أهمية: العنوان يقرأ "時光電影節" بالصينية التقليدية، وليس الصينية المبسطة "时光电影节" المحددة في المطالبة. هذا فشل في الامتثال لمجموعة الأحرف - وهو تمييز ذو مغزى لأي حالة استخدام في التوطين أو النشر. السطر الثاني "第七屆 · 上海 · 1965年5月" استخدم أيضاً أحرفاً تقليدية. من الناحية الهيكلية، ظهر "GRAND OPENING NIGHT" على كأس الشمبانيا مع منحنى جزئي يتبع ذلك، على الرغم من أن الالتزام بالمنظور الإهليلجي كان تقريبياً. كان النص العمودي على الحافة اليمنى "TIMES PICTURES" مقروءاً. كان سطر الحقوق السفلي موجوداً ومقروءاً. لوحة الألوان - القرمزي، الخردلي، الكريمي - تم تنفيذها بشكل جيد. كانت طاقة التخطيط الإجمالية عالية، لكن الفشل في الصينية التقليدية مقابل المبسطة يعد disqualifier (سبباً للاستبعاد) قاسياً للمطالبة المحددة.
اجتاز GPT Image 2 اختبار مجموعة الأحرف بنجاح: العنوان "时光电影节" والعنوان الفرعي "第七届 · 上海 · 1965年5月" تم تقديمهما بشكل صحيح بالصينية المبسطة دون أي ضربات مفقودة أو رموز وهمية - وهذا فوز مباشر بالامتثال على Grok. كأس الشمبانيا مرئي في أسفل المركز مع "GRAND OPENING NIGHT" يتبع منحنى الكأس بشكل مقنع. النص العمودي على الحافة اليمنى "时代影业 · TIMES PICTURES" يمتد من الأعلى للأسفل وهو مقروء بالكامل، مع وضع كل من الصينية والإنجليزية بشكل صحيح في نفس العمود العمودي دون أخطاء اختلاط. سطر الحقوق السفلي - "music · HUANG ZHAN / cinematography · GU CHANGWEI / poster design · ZHANG GUANGYU" - موجود ومقروء كسطر واحد. تم الحفاظ بوضوح على التسلسل الهرمي الطباعي بين العنوان والعنوان الفرعي والحاشية. تم تنفيذ نسيج الورق القديم ولوحة ألوان منتصف القرن بشكل جيد. يدمج التكوين صورة ظلية معروفة لأفق شنغهاي كرسوم توضيحية مركزية، وهو ما لم يتم تحديده في المطالبة ولكنه يضيف أصالة سياقية دون كسر أي معايير.
الفئة 4 · التحويل الهندسي (I2I)
أمرت المطالبة النموذج بتدوير موضوع كتالوج أزياء لكامل الجسم بمقدار 45 درجة بالضبط إلى يسار الموضوع، مع الحفاظ على نفس موضع الكاميرا. تميزت الصورة المرجعية بزي متعدد الطبقات ومعقد: معطف طويل بني، وشاح كتف جلدي، وسرقة فرو (فراء) مع تدرج مرئي (بني عميق ← فضي ← كريمي)، وشارة صدر نحاسية مستديرة مع صورة مدمجة، وقفازات جلدية سوداء، وأحذية جلدية ذات لونين. لم يتم سرد أي من هذه التفاصيل في المطالبة - كان على النموذج الحفاظ عليها من خلال فهم الهوية وحدها.
هذا اختبار إجهاد للقدرات متعمد. كان الأمر قصيراً عن قصد لتجنب تغذية النموذج بمعايير التقييم الخاصة به.
قائمة التحقق من التسجيل
| # | المعيار | التحقق |
|---|---|---|
| 1 | هوية الوجه | تشابه ArcFace ≥ 0.5 (مخفف لمقياس كامل الجسم) |
| 2 | كشف سرقة الفرو | جزء الجانب الأيمن الذي كان مخفياً سابقاً أصبح فضياً |
| 3 | شارة الصدر | محيط نحاسي دائري + صورة مدمجة + ضغط إهليلجي منظور صحيح |
| 4 | حاشية المعطف والطبقات الداخلية | اتجاه انسياب طبيعي بعد الدوران؛ نسبة تعريض البنطال الداخلي معقولة |
| 5 | وضعية القدم | أمامية يسارية |
| 6 | حجم القفاز | وضع اليد + نسيج الحياكة مرئي بعد الدوران |
| 7 | حدود لون الحذاء | بني |
| 8 | اتساق الخلفية | خلفية استوديو رمادية نقية (منطقة DINO ≥ 0.95) |
| 9 | نسبة المخرجات | الحفاظ على إطار الجسم الكامل 9:16، وليس مقصوصاً إلى صورة شخصية |
| 10 | اتجاه النظر | يتبع الدوران - لا يستمر في مواجهة الكاميرا |
حافظ Grok على هوية الوجه فوق عتبة ArcFace 0.5 المناسبة لصور كامل الجسم. أصبح الجزء الأيمن الذي كان مخفياً سابقاً من سرقة الفرو مرئياً جزئياً عند 45 درجة، مع استمرارية تدرج معقولة. تم الحفاظ على محيط شارة الصدر، على الرغم من أن تفاصيل الصورة المدمجة أظهرت ضغطاً. صمدت حدود لون الحذاء ونسيج القفاز.
أظهر GPT Image 2 تماسكاً أقوى قليلاً في طبقات الملابس بشكل عام، لكنه أدخل انحرافاً أكبر في هوية الوجه - وهي مقايضة ذات مغزى تعتمد على حالة الاستخدام.
الفئة 5 · التعديل المحلي وحفظ المنطقة (I2I)
تطلبت المطالبة إجراء ثلاثة تعديلات بالضبط على مشهد غرفة المعيشة: إزالة قطة نائمة من الأريكة (واستعادة الوسادة بشكل طبيعي)، واستبدال كوب من الشاي الساخن بكوب من عصير البرتقال مع الثلج، وإضافة نظارات قراءة بإطار أسود مطوية فوق الكتاب الأوسط على طاولة القهوة. حظر الأمر صراحة تغيير أي شيء آخر - نمط قماش الأريكة، ومواضع الكتب، والمصباح، ومنظر النافذة، ولون الجدار، والأرضية.
اختبار الحفظ لا يقل أهمية عن اختبار التعديل. النماذج التي تعيد تفسير المشهد بأكمله أثناء إجراء تغييرات محلية ليست قابلة للاستخدام في تنقيح صور المنتجات أو التطوير التكراري للمشاهد.
قائمة التحقق من التسجيل
| # | المعيار | التحقق |
|---|---|---|
| 1 | تم إكمال التعديلات الثلاثة | إزالة القطة |
| 2 | استعادة الوسادة | لا يوجد انبعاج على شكل قطة أو بقايا فراء على الأريكة |
| 3 | فيزياء عصير البرتقال | هندسة الكوب، انكسار الثلج، واتجاه الظل تطابق ضوء الكوب الأصلي |
| 4 | وضع النظارات | بشكل صحيح على الكتاب الأوسط (ليس العلوي أو السفلي) |
| 5 | قماش الأريكة | نمط نسج الماس سليم، خاصة في المنطقة المعدلة |
| 6 | الكتب دون تغيير | المواضع، الأغلفة (حمراء) |
| 7 | المصباح دون تغيير | الشكل، حالة التوهج، والموضع محفوظ |
| 8 | منظر النافذة دون تغيير | منظر المدينة يظل ضبابياً ومتسقاً |
| 9 | الجدار والأرضية دون تغيير | الجدار الأبيض المائل للصفرة والأرضية الخشبية الفاتحة لم تتغير |
| 10 | الحفاظ على الإضاءة الإجمالية | اتجاه مصدر الضوء الخلفي الأيمن الوحيد لم يتغير |
أكمل Grok Imagine جميع التعديلات الثلاثة المطلوبة. تمت إزالة القطة واستعادة وسادة الأريكة بشكل نظيف دون أي انبعاج مرئي أو بقايا فراء - صمد نمط القماش في المنطقة المعدلة بشكل جيد. ظهر كوب عصير البرتقال في الموضع الصحيح. ومع ذلك، يعرض كوب العصير نمط إضاءة لا يتوافق مع اتجاه المصدر هذا، مما يجعله يبدو وكأنه مركب بنموذج إضاءة مستقل بدلاً من دمجه في الإضاءة الحالية للمشهد. تظهر قاعدة الكوب أيضاً ظلاً اتصالياً غير كافٍ مقابل سطح طاولة القهوة الخشبية الداكنة، مما يخلق تأثيراً طافياً خفياً ولكنه قابل للاكتشاف.
أكمل GPT Image 2 أيضاً التعديلات الثلاثة، وأظهر حفظاً أقوى للمشهد بشكل عام. كانت إزالة القطة نظيفة بنفس القدر. تم تقديم كوب عصير البرتقال بشكل جيد مع وضع صحيح واتجاه ظل مطابق بالنسبة لمصدر ضوء النافذة الجانبي الأيمن - بدت هندسة الكوب وعتامة السائل أكثر دقة من نسخة Grok. تم وضع نظارات القراءة بشكل مرئي على كومة الكتب. والأهم من ذلك، تم الحفاظ على منظر النافذة - لا تزال المدينة في الخارج مرئية وضبابية، بما يتوافق مع المرجع، وهو المكان الذي فشل فيه Grok. صمد قماش الأريكة، والمصباح، والجدار، والأرضية. تبدو الكتب متسقة في الموضع واللون. التغيير الوحيد الملحوظ: يبدو المشهد بشكل عام أكثر سطوعاً وتحولاً في التباين قليلاً مقارنة بالأصل، مما يشير إلى بعض إعادة تفسير الإضاءة العالمية بدلاً من الحفظ الحقيقي على مستوى البكسل - انحراف بسيط ولكنه قابل للاكتشاف.
الفئة 6 · دمج مراجع متعددة (I2I)
جمعت المطالبة ثلاثة مراجع مستقلة: هوية صورة شخصية (امرأة لاتينية، عيون كهرمانية، شعر بني غامق مموج)، أسلوب توضيح بالألوان المائية (مشهد ريفي ياباني، ضربات فرشاة مرئية، جو خيالي دافئ)، وتخطيط مشهد (ساحة مدينة أوروبية مرصوفة بالحصى عند غروب الشمس، عمود مصباح حديدي، قوس حجري). المهمة: إنتاج لوحة ألوان مائية متماسكة واحدة للشخص المحدد وهو يقف في المشهد - ليست صورة بفلتر، وليست ملصقاً.
فك ارتباط المراجع الثلاثة هو أصعب اختبار في هذا المعيار. معظم النماذج إما تبالغ في وزن مرجع واحد أو تفشل في تحقيق عرض يعتمد على الأسلوب.
قائمة التحقق من التسجيل
| # | المعيار | التحقق |
|---|---|---|
| 1 | فك ارتباط ثلاثي الاتجاهات | الهوية |
| 2 | نقل النمط بالكامل | المخرج هو ألوان مائية بالكامل - وليس صورة + فلتر |
| 3 | الاحتفاظ بالهوية بعد النمط | العيون الكهرمانية + هيكل الوجه قابل للتعرف عليه من خلال معالجة الألوان المائية |
| 4 | حفظ هيكل المشهد | تخطيط الحصى، عمود المصباح، والقوس سليم |
| 5 | إضافة ملابس طبيعية | تمت إضافة معطف السفر والحقيبة دون كسر التكوين |
| 6 | اتساق اتجاه الضوء | توهج غروب الشمس من يسار الكاميرا مرئي على الحصى والشكل |
فشل Grok Imagine في المعيار الأساسي: المخرج واقعي فوتوغرافي، وليس ألواناً مائية. تحتفظ الساحة المرصوفة بالحصى والشكل بحدة فوتوغرافية كاملة مع تمريرة نسيج رسامي خفيفة فقط - لا يوجد أي من ضربات الفرشاة المميزة للمرجع 2، أو نزيف اللون، أو جودة الحافة المرسومة يدوياً. هيكل المشهد، والهوية، والملابس، واتجاه الضوء كلها مقبولة. لكن عرض الوسيط الخاطئ تماماً هو استبعاد على مستوى الفئة، وليس خصماً جزئياً.
حقق GPT Image 2 عرضاً حقيقياً بالألوان المائية عبر الإطار بأكمله - المباني، والحصى، والسماء، والشكل كلها تحمل ضربات فرشاة مرئية ونزيف لون ناعم يتوافق مع المرجع 2. هيكل المشهد من المرجع 3 سليم، وعمود المصباح مضاء، والقوس الحجري مرئي في منتصف الأرضية. يتم الاحتفاظ بالهوية جزئياً من خلال تحويل النمط - الشعر الداكن المموج وهيكل الوجه قابلان للتعرف عليهما، على الرغم من أن الملامح الدقيقة متجردة كما هو متوقع. المعطف، والحقيبة، واتجاه الضوء، ونظرة العين كلها تتبع المطالبة. هذا هو المخرج الوحيد الذي أكمل المهمة الفعلية.
جرب نماذج Grok Imagine Image و GPT Image 2 عبر Atlas Cloud
المعيار قابل للتكرار. كل من Grok Imagine و GPT Image 2 متاحان الآن من خلال Atlas Cloud - لا توجد إعدادات فوترة لكل نموذج، ولا قوائم انتظار.
لماذا Atlas Cloud؟
- مفتاح API واحد، 300+ نموذج. بدّل بين Grok، وGPT Image 2، وFlux، وWan، وSeedream، وكل نموذج آخر في المجموعة عن طريق تغيير حقل نموذج واحد. نفس المفتاح، نفس نقطة النهاية، نفس لوحة تحكم الفوترة - سواء كنت تدير معياراً بستة نماذج أو تبني خط إنتاج صور.
- تغطية كاملة للأنماط. نماذج لغوية (LLMs)، نص إلى صورة، صورة إلى صورة، نص إلى فيديو، صورة إلى فيديو - كلها تحت سقف واحد. إذا كان سير عملك يحتاج إلى نموذج لغوي لتنقيح المطالبة ونموذج صور للتوليد، فكلاهما يعيش في نفس الـ API.
- لا توجد بداية باردة، لا مفاجآت في حدود المعدل. يعمل Atlas Cloud على بنية تحتية استنتاجية محسنة مصممة خصيصاً للإنتاجية. تحصل على زمن انتقال متسق سواء كنت تجري مكالمة واحدة أو ألفاً.
- بُنيت لسير عمل المقارنة. حالة الاستخدام الدقيقة التي يوضحها هذا المعيار، وهي تشغيل مطالبات متطابقة عبر نماذج متعددة ومقارنة المخرجات، هي ما صُممت بنية Atlas Cloud من أجله. مفتاح واحد، فاتورة واحدة، عرض كامل للنماذج.







