قمنا بتجربة 6 مطالبات (Prompts) على كل من GPT Image 2 وGrok Imagine. إليك النتائج بالتفصيل.

مقارنة بين XAI Grok Imagine وGPT Image 2 في مجالات التشريح، والنصوص الصينية، والتعديلات المحلية، ودمج المراجع المتعددة. تم الاختبار باستخدام بذور (Seed) واحدة وبدون اختيار انتقائي للنتائج. كلاهما عبر Atlas Cloud.

قمنا بتجربة 6 مطالبات (Prompts) على كل من GPT Image 2 وGrok Imagine. إليك النتائج بالتفصيل.

لقد قمنا بتشغيل نموذجي Grok Imagine Image و GPT Image-2 عبر 6 مطالبات (Prompts) متطابقة ومحايدة، تغطي دلالات التكوين، والتشريح الواقعي، وعرض النصوص متعددة اللغات، والتحويل الهندسي، والتعديل المحلي، ودمج مراجع متعددة.

كلا النموذجين Grok Imagine Image و GPT Image-2 متاحان عبر مفتاح API واحد من Atlas Cloud، مما يجعل هذا المعيار الدقيق قابلاً للتكرار في دقائق.

لماذا يوجد معيار مقارنة نماذج صور AI هذا؟

كل "مقارنة لنماذج صور الذكاء الاصطناعي" تجدها عبر الإنترنت تقع في نفس الفخ: مطالبات منتقاة بعناية، واختيار لأفضل النتائج من بين خمس محاولات، وادعاءات غير مختبرة. تم بناء هذا المعيار حول مبادئ المستوى (Tier A): مطالبات محايدة للنماذج، مدخلات متطابقة عبر جميع النماذج، مخرجات افتراضية ببذرة واحدة (بدون انتقاء)، ومعايير تسجيل يمكن صياغتها في جملة واحدة لكل فئة.

تتضمن النماذج الستة في المعيار الكامل: Grok، وGPT Image 2، وNano Banana 2، وNano Banana Pro، وWan 2.7، وSeedream 5.0. يركز هذا المقال على المقارنة المباشرة بين Grok وGPT Image 2، باعتبارهما الخيار الأكثر أهمية تجارياً للمطورين الذين يختارون نموذج صور افتراضي.

كيف اختبرنا Grok Imagine Image مقابل GPT-Image 2: 6 فئات، وقاعدة واحدة من المستوى (Tier A)

تستهدف كل مطالبة بُعد قدرة واحد محدد بوضوح. تم تحديد معايير النجاح/الفشل قبل تشغيل النماذج، وليس بعد رؤية المخرجات.

الفئةالبُعد الأساسي المختبرمعيار النجاح/الفشل في جملة واحدة
1 · دلالات التكوينمحاذاة التعليماتهل أحصى النموذج 7 كائنات، ووضعها بشكل صحيح، والتزم بقائمة النفي؟
2 · التشريح الواقعي والإضاءةالجودة البصرية والفيزياءهل الأصابع الخمسة صحيحة تشريحياً، وهل تظهر أنماط الإضاءة الكاوية على الوجه؟
3 · ملصق متعدد اللغاتعرض النص داخل الصورةهل تم عرض الحروف الصينية والإنجليزية بشكل صحيح دون فقدان ضربات أو رموز وهمية؟
4 · التحويل الهندسي (I2I)التحكم في التعديل + الهويةبعد دوران 45 درجة، هل لا يزال الشخص معروفاً مع بقاء تفاصيل الملابس سليمة؟
5 · التعديل المحلي وحفظ المنطقةدقة التعديلهل تم إجراء 3 تعديلات بالضبط، مع بقاء كل شيء آخر دون تغيير على مستوى البكسل؟
6 · دمج مراجع متعددةالاتساق عبر الصورهل اندمجت الهوية والأسلوب والمشهد من 3 مراجع منفصلة في صورة واحدة متماسكة؟

الفئة 1 · دلالات التكوين (T2I)

المطالبة:

صورة فوتوغرافية علوية لطاولة طعام خشبية تحتوي على سبعة عناصر خزفية بالضبط: ثلاثة أكواب شاي بيضاء متطابقة مرتبة في مثلث متساوي الأضلاع في المركز، ووعاءان أسودان موضوعان على يمين أكواب الشاي، وتفاحة حمراء داخل الوعاء الأسود الموجود في أقصى اليسار، وملعقة خشبية فارغة مستندة فوق الوعاء الأسود الموجود في أقصى اليمين مع توجيه مقبضها نحو الزاوية العلوية اليسرى من الإطار. لا أكواب قهوة، لا عناصر معدنية، لا أطباق، لا أدوات زجاجية. إضاءة نافذة ناعمة منتشرة من أعلى اليسار، منتصف الصباح. تصوير واقعي، بدون أدوات تصفيف.

هذا الاختبار عدائي عن قصد. فالحساب، واللغة المكانية ("إلى يمين"، "أقصى اليسار")، وبنود النفي هي أنماط فشل معروفة لجميع بنى الانتشار الحالية.

قائمة التحقق من التسجيل

#المعيارالتحقق
1إجمالي عدد الكائنات7 عناصر خزفية بدقة
2ثلاثة أكواب شاي بيضاءترتيب مثلث متساوي الأضلاع
3وعاءان أسودانموضوعان على يمين أكواب الشاي
4تفاحة حمراءداخل الوعاء الأسود في أقصى اليسار
5ملعقة خشبيةمستندة على الوعاء الأيمن، المقبض يشير لأعلى اليسار
6الامتثال للنفيلا أكواب قهوة / لا معدن / لا أطباق / لا أدوات زجاجية
7مصدر الضوءضوء ناعم منتشر من أعلى اليسار، ظلال متسقة
8أسلوب التصويرلا توجد كليشيهات تصفيف (أوراق نخيل، شموع، إلخ)

Grok Imagine object count: يظهر بوضوح 5 أكواب شاي (ليس 3)، مرتبة في مجموعة بدلاً من مثلث متساوي الأضلاع. الوعاءان الأسودان موجودان، مع وجود التفاحة الحمراء بشكل صحيح داخل أحدهما. الملعقة الخشبية موجودة ومستندة على الوعاء الأيمن، واتجاه المقبض تقريباً نحو أعلى اليسار - هذا المعيار مقبول. الامتثال للنفي نظيف: لا أكواب قهوة، لا معدن، لا أطباق، لا أدوات زجاجية. مصدر الضوء من أعلى اليسار مع ظلال متسقة مقبول. لا توجد أدوات تصفيف.

أظهر GPT Image 2 اتباعاً أقوى للتعليمات في المكونات المكانية، على الرغم من أن أياً من النموذجين لم يحقق عدداً دقيقاً من 7 كائنات مع استيفاء جميع قيود الوضع في وقت واحد.

الفئة 2 · التشريح الواقعي والإضاءة (T2I)

المطالبة:

صورة مقربة لامرأة من شرق آسيا في أوائل الثلاثينيات تحمل كأساً كريستالياً نصف ممتلئ بالنبيذ الأحمر في يدها اليمنى، الأصابع الخمسة والإبهام تظهر بالكامل وتلتف بشكل طبيعي حول الساق وجزئياً حول الوعاء. تجلس بجانب نافذة طويلة تواجه الغرب أثناء الساعة الذهبية. أشعة شمس الظهيرة المتأخرة تخترق النبيذ لتخلق أنماطاً قرمزية دافئة على عظمة الخد الأيسر وخط الفك. يدها اليسرى تستقر على كتاب بغلاف مقوى مفتوح على حضنها. انعكاسات الضوء من النافذة مرئية في كلتا العينين. يظهر الجلد مساماً مفصلة للغاية، وزغباً ناعماً، وتشتتاً تحت السطح على شحمة الأذن وجسر الأنف. الشعر مضاء من الخلف بإضاءة حواف. عدسة 85 مم، فتحة f/2.0، عمق ميدان ضحل، واقعية فوتوغرافية.

هذا هو أصعب اختبار لصورة واحدة تاريخياً بالنسبة للنماذج التوليدية.

قائمة التحقق من التسجيل

#المعيارالتحقق
1تشريح اليد5 أصابع + إبهام، قبضة طبيعية على الساق والوعاء
2الإضاءة الكاويةأنماط قرمزية دافئة من النبيذ مسقطة على عظمة الخد
3اتساق انعكاس الضوءنفس الموضع والشكل في كلتا العينين
4التشتت تحت السطح (SSS)مرئي على شحمة الأذن وجسر الأنف عند الإضاءة الخلفية
5فيزياء إضاءة الحوافالاتجاه يطابق موضع مصدر الضوء
6واقعية الجلدلا يوجد تنعيم مفرط "بلاستيكي"؛ المسام والزغب مرئيان

قدم Grok Imagine أداءً قوياً فيما يتعلق بميزته الرئيسية. كان تشريح اليد صحيحاً - عدد الأصابع دقيق، وضعية القبضة طبيعية حول الساق والوعاء، زاوية المعصم مقبولة فيزيائياً. هذا وحده يتجاوز حاجزاً تفشل فيه العديد من النماذج تماماً. أظهر نسيج الجلد تفاصيل حقيقية على مستوى المسام مع وجود زغب ناعم مرئي وبدون تنعيم بلاستيكي مفرط، وأنتج التشتت تحت السطح على جسر الأنف وعظام الخد جودة دافئة وقابلة لنفاذ الضوء تبدو واقعية فوتوغرافياً. اتبعت إضاءة الحواف على الشعر اتجاه مصدر النافذة بشكل متسق.

كان إسقاط الضوء الكاوي أضعف نقطة لدى Grok. ظهرت أنماط الضوء القرمزية على الوجه، لكن تم تقديمها كطبقة حمراء مبالغ فيها ومنمقة بشكل درامي - تشبه تأثيراً لونياً أكثر من كونها خيوط ضوئية دقيقة ناتجة فيزيائياً عن مرور ضوء الشمس عبر النبيذ. فشلت المعقولية الفيزيائية للضوء الكاوي في معيار الدقة.

عكس GPT Image 2 هذه المقايضة. كان عرض الضوء الكاوي لديه أكثر دقة من الناحية الفيزيائية - فالأنماط القرمزية الدافئة على عظمة الخد كانت أصغر وأكثر انتشاراً واتبعت الهندسة المكانية للضوء المار عبر كأس النبيذ بالزاوية الصحيحة. هذه هي التفاصيل التي افتقدها Grok. ومع ذلك، دفع GPT Image 2 الثمن في مكان آخر: كان تشريح اليد أقل طبيعية قليلاً، مع زوايا أصابع حول الساق تظهر صلابة طفيفة. مال نسيج الجلد نحو الجودة الأكثر نعومة وتسطيحاً الشائعة في صور الذكاء الاصطناعي، مع دفء SSS أقل وضوحاً وإضاءة حواف أضعف مقارنة بـ Grok.

الفئة 3 · ملصق متعدد اللغات (T2I)

المطالبة:

ملصق سفر بأسلوب الستينيات القديم لمهرجان سينمائي خيالي، مصمم بأسلوب التصميم التجاري في منتصف القرن. أعلى الملصق، حروف صينية عريضة بخط serif تقرأ "时光电影节" (السطر 1)، وأدناه بحروف صينية أصغر "第七届 · 上海 · 1965年5月" (السطر 2).

المركز: رسم منمق لجهاز عرض أفلام قديم يلقي حزمة ضوئية على شاشة سينما منحنية قليلاً.

أسفل المركز: كأس شمبانيا طويل مع نص إنجليزي "GRAND OPENING NIGHT" يلتف على طول منحنى وعاء الكأس، متبعاً المنظور الإهليلجي.

الحافة اليمنى، نص عمودي يقرأ "presented by 时代影业 · TIMES PICTURES" يمتد من الأعلى للأسفل.

الشريط السفلي: نص حقوق إنجليزي صغير "music · HUANG ZHAN / cinematography · GU CHANGWEI / poster design · ZHANG GUANGYU" في سطر واحد.

لوحة الألوان: خلفية كريمية، أحمر قرمزي عميق، لمسات أصفر خردلي. نسيج ورق قديم قليلاً، حبيبات دقيقة.

قائمة التحقق من التسجيل

#المعيارالتحقق
1دقة الصينيةلا توجد ضربات مفقودة، لا رموز وهمية
2تخطيط ثنائي اللغةالصينية والإنجليزية غير مختلطتين؛ كل منهما في منطقته الصحيحة
3نص منحني على الكأسالإنجليزية تتبع المنظور الإهليلجي لكأس الشمبانيا
4نص الحافة اليمنى العموديمقروء من الأعلى للأسفل
5التسلسل الهرمي الطباعيتمييز واضح بين العنوان
6الأسلوب مقابل الوضوحالحفاظ على جمالية الستينيات دون التضحية بوضوح النص

أنتج Grok Imagine ملصقاً ملفتاً للنظر بطاقة رسومية قوية تعود لمنتصف القرن. ومع ذلك، فشل في معيار النص الأكثر أهمية: العنوان يقرأ "時光電影節" بالصينية التقليدية، وليس الصينية المبسطة "时光电影节" المحددة في المطالبة. هذا فشل في الامتثال لمجموعة الأحرف - وهو تمييز ذو مغزى لأي حالة استخدام في التوطين أو النشر. السطر الثاني "第七屆 · 上海 · 1965年5月" استخدم أيضاً أحرفاً تقليدية. من الناحية الهيكلية، ظهر "GRAND OPENING NIGHT" على كأس الشمبانيا مع منحنى جزئي يتبع ذلك، على الرغم من أن الالتزام بالمنظور الإهليلجي كان تقريبياً. كان النص العمودي على الحافة اليمنى "TIMES PICTURES" مقروءاً. كان سطر الحقوق السفلي موجوداً ومقروءاً. لوحة الألوان - القرمزي، الخردلي، الكريمي - تم تنفيذها بشكل جيد. كانت طاقة التخطيط الإجمالية عالية، لكن الفشل في الصينية التقليدية مقابل المبسطة يعد disqualifier (سبباً للاستبعاد) قاسياً للمطالبة المحددة.

اجتاز GPT Image 2 اختبار مجموعة الأحرف بنجاح: العنوان "时光电影节" والعنوان الفرعي "第七届 · 上海 · 1965年5月" تم تقديمهما بشكل صحيح بالصينية المبسطة دون أي ضربات مفقودة أو رموز وهمية - وهذا فوز مباشر بالامتثال على Grok. كأس الشمبانيا مرئي في أسفل المركز مع "GRAND OPENING NIGHT" يتبع منحنى الكأس بشكل مقنع. النص العمودي على الحافة اليمنى "时代影业 · TIMES PICTURES" يمتد من الأعلى للأسفل وهو مقروء بالكامل، مع وضع كل من الصينية والإنجليزية بشكل صحيح في نفس العمود العمودي دون أخطاء اختلاط. سطر الحقوق السفلي - "music · HUANG ZHAN / cinematography · GU CHANGWEI / poster design · ZHANG GUANGYU" - موجود ومقروء كسطر واحد. تم الحفاظ بوضوح على التسلسل الهرمي الطباعي بين العنوان والعنوان الفرعي والحاشية. تم تنفيذ نسيج الورق القديم ولوحة ألوان منتصف القرن بشكل جيد. يدمج التكوين صورة ظلية معروفة لأفق شنغهاي كرسوم توضيحية مركزية، وهو ما لم يتم تحديده في المطالبة ولكنه يضيف أصالة سياقية دون كسر أي معايير.

الفئة 4 · التحويل الهندسي (I2I)

أمرت المطالبة النموذج بتدوير موضوع كتالوج أزياء لكامل الجسم بمقدار 45 درجة بالضبط إلى يسار الموضوع، مع الحفاظ على نفس موضع الكاميرا. تميزت الصورة المرجعية بزي متعدد الطبقات ومعقد: معطف طويل بني، وشاح كتف جلدي، وسرقة فرو (فراء) مع تدرج مرئي (بني عميق ← فضي ← كريمي)، وشارة صدر نحاسية مستديرة مع صورة مدمجة، وقفازات جلدية سوداء، وأحذية جلدية ذات لونين. لم يتم سرد أي من هذه التفاصيل في المطالبة - كان على النموذج الحفاظ عليها من خلال فهم الهوية وحدها.

هذا اختبار إجهاد للقدرات متعمد. كان الأمر قصيراً عن قصد لتجنب تغذية النموذج بمعايير التقييم الخاصة به.

قائمة التحقق من التسجيل

#المعيارالتحقق
1هوية الوجهتشابه ArcFace ≥ 0.5 (مخفف لمقياس كامل الجسم)
2كشف سرقة الفروجزء الجانب الأيمن الذي كان مخفياً سابقاً أصبح فضياً
3شارة الصدرمحيط نحاسي دائري + صورة مدمجة + ضغط إهليلجي منظور صحيح
4حاشية المعطف والطبقات الداخليةاتجاه انسياب طبيعي بعد الدوران؛ نسبة تعريض البنطال الداخلي معقولة
5وضعية القدمأمامية يسارية
6حجم القفازوضع اليد + نسيج الحياكة مرئي بعد الدوران
7حدود لون الحذاءبني
8اتساق الخلفيةخلفية استوديو رمادية نقية (منطقة DINO ≥ 0.95)
9نسبة المخرجاتالحفاظ على إطار الجسم الكامل 9:16، وليس مقصوصاً إلى صورة شخصية
10اتجاه النظريتبع الدوران - لا يستمر في مواجهة الكاميرا

حافظ Grok على هوية الوجه فوق عتبة ArcFace 0.5 المناسبة لصور كامل الجسم. أصبح الجزء الأيمن الذي كان مخفياً سابقاً من سرقة الفرو مرئياً جزئياً عند 45 درجة، مع استمرارية تدرج معقولة. تم الحفاظ على محيط شارة الصدر، على الرغم من أن تفاصيل الصورة المدمجة أظهرت ضغطاً. صمدت حدود لون الحذاء ونسيج القفاز.

أظهر GPT Image 2 تماسكاً أقوى قليلاً في طبقات الملابس بشكل عام، لكنه أدخل انحرافاً أكبر في هوية الوجه - وهي مقايضة ذات مغزى تعتمد على حالة الاستخدام.

الفئة 5 · التعديل المحلي وحفظ المنطقة (I2I)

تطلبت المطالبة إجراء ثلاثة تعديلات بالضبط على مشهد غرفة المعيشة: إزالة قطة نائمة من الأريكة (واستعادة الوسادة بشكل طبيعي)، واستبدال كوب من الشاي الساخن بكوب من عصير البرتقال مع الثلج، وإضافة نظارات قراءة بإطار أسود مطوية فوق الكتاب الأوسط على طاولة القهوة. حظر الأمر صراحة تغيير أي شيء آخر - نمط قماش الأريكة، ومواضع الكتب، والمصباح، ومنظر النافذة، ولون الجدار، والأرضية.

اختبار الحفظ لا يقل أهمية عن اختبار التعديل. النماذج التي تعيد تفسير المشهد بأكمله أثناء إجراء تغييرات محلية ليست قابلة للاستخدام في تنقيح صور المنتجات أو التطوير التكراري للمشاهد.

قائمة التحقق من التسجيل

#المعيارالتحقق
1تم إكمال التعديلات الثلاثةإزالة القطة
2استعادة الوسادةلا يوجد انبعاج على شكل قطة أو بقايا فراء على الأريكة
3فيزياء عصير البرتقالهندسة الكوب، انكسار الثلج، واتجاه الظل تطابق ضوء الكوب الأصلي
4وضع النظاراتبشكل صحيح على الكتاب الأوسط (ليس العلوي أو السفلي)
5قماش الأريكةنمط نسج الماس سليم، خاصة في المنطقة المعدلة
6الكتب دون تغييرالمواضع، الأغلفة (حمراء)
7المصباح دون تغييرالشكل، حالة التوهج، والموضع محفوظ
8منظر النافذة دون تغييرمنظر المدينة يظل ضبابياً ومتسقاً
9الجدار والأرضية دون تغييرالجدار الأبيض المائل للصفرة والأرضية الخشبية الفاتحة لم تتغير
10الحفاظ على الإضاءة الإجماليةاتجاه مصدر الضوء الخلفي الأيمن الوحيد لم يتغير

أكمل Grok Imagine جميع التعديلات الثلاثة المطلوبة. تمت إزالة القطة واستعادة وسادة الأريكة بشكل نظيف دون أي انبعاج مرئي أو بقايا فراء - صمد نمط القماش في المنطقة المعدلة بشكل جيد. ظهر كوب عصير البرتقال في الموضع الصحيح. ومع ذلك، يعرض كوب العصير نمط إضاءة لا يتوافق مع اتجاه المصدر هذا، مما يجعله يبدو وكأنه مركب بنموذج إضاءة مستقل بدلاً من دمجه في الإضاءة الحالية للمشهد. تظهر قاعدة الكوب أيضاً ظلاً اتصالياً غير كافٍ مقابل سطح طاولة القهوة الخشبية الداكنة، مما يخلق تأثيراً طافياً خفياً ولكنه قابل للاكتشاف.

أكمل GPT Image 2 أيضاً التعديلات الثلاثة، وأظهر حفظاً أقوى للمشهد بشكل عام. كانت إزالة القطة نظيفة بنفس القدر. تم تقديم كوب عصير البرتقال بشكل جيد مع وضع صحيح واتجاه ظل مطابق بالنسبة لمصدر ضوء النافذة الجانبي الأيمن - بدت هندسة الكوب وعتامة السائل أكثر دقة من نسخة Grok. تم وضع نظارات القراءة بشكل مرئي على كومة الكتب. والأهم من ذلك، تم الحفاظ على منظر النافذة - لا تزال المدينة في الخارج مرئية وضبابية، بما يتوافق مع المرجع، وهو المكان الذي فشل فيه Grok. صمد قماش الأريكة، والمصباح، والجدار، والأرضية. تبدو الكتب متسقة في الموضع واللون. التغيير الوحيد الملحوظ: يبدو المشهد بشكل عام أكثر سطوعاً وتحولاً في التباين قليلاً مقارنة بالأصل، مما يشير إلى بعض إعادة تفسير الإضاءة العالمية بدلاً من الحفظ الحقيقي على مستوى البكسل - انحراف بسيط ولكنه قابل للاكتشاف.

الفئة 6 · دمج مراجع متعددة (I2I)

جمعت المطالبة ثلاثة مراجع مستقلة: هوية صورة شخصية (امرأة لاتينية، عيون كهرمانية، شعر بني غامق مموج)، أسلوب توضيح بالألوان المائية (مشهد ريفي ياباني، ضربات فرشاة مرئية، جو خيالي دافئ)، وتخطيط مشهد (ساحة مدينة أوروبية مرصوفة بالحصى عند غروب الشمس، عمود مصباح حديدي، قوس حجري). المهمة: إنتاج لوحة ألوان مائية متماسكة واحدة للشخص المحدد وهو يقف في المشهد - ليست صورة بفلتر، وليست ملصقاً.

فك ارتباط المراجع الثلاثة هو أصعب اختبار في هذا المعيار. معظم النماذج إما تبالغ في وزن مرجع واحد أو تفشل في تحقيق عرض يعتمد على الأسلوب.

قائمة التحقق من التسجيل

#المعيارالتحقق
1فك ارتباط ثلاثي الاتجاهاتالهوية
2نقل النمط بالكاملالمخرج هو ألوان مائية بالكامل - وليس صورة + فلتر
3الاحتفاظ بالهوية بعد النمطالعيون الكهرمانية + هيكل الوجه قابل للتعرف عليه من خلال معالجة الألوان المائية
4حفظ هيكل المشهدتخطيط الحصى، عمود المصباح، والقوس سليم
5إضافة ملابس طبيعيةتمت إضافة معطف السفر والحقيبة دون كسر التكوين
6اتساق اتجاه الضوءتوهج غروب الشمس من يسار الكاميرا مرئي على الحصى والشكل

فشل Grok Imagine في المعيار الأساسي: المخرج واقعي فوتوغرافي، وليس ألواناً مائية. تحتفظ الساحة المرصوفة بالحصى والشكل بحدة فوتوغرافية كاملة مع تمريرة نسيج رسامي خفيفة فقط - لا يوجد أي من ضربات الفرشاة المميزة للمرجع 2، أو نزيف اللون، أو جودة الحافة المرسومة يدوياً. هيكل المشهد، والهوية، والملابس، واتجاه الضوء كلها مقبولة. لكن عرض الوسيط الخاطئ تماماً هو استبعاد على مستوى الفئة، وليس خصماً جزئياً.

حقق GPT Image 2 عرضاً حقيقياً بالألوان المائية عبر الإطار بأكمله - المباني، والحصى، والسماء، والشكل كلها تحمل ضربات فرشاة مرئية ونزيف لون ناعم يتوافق مع المرجع 2. هيكل المشهد من المرجع 3 سليم، وعمود المصباح مضاء، والقوس الحجري مرئي في منتصف الأرضية. يتم الاحتفاظ بالهوية جزئياً من خلال تحويل النمط - الشعر الداكن المموج وهيكل الوجه قابلان للتعرف عليهما، على الرغم من أن الملامح الدقيقة متجردة كما هو متوقع. المعطف، والحقيبة، واتجاه الضوء، ونظرة العين كلها تتبع المطالبة. هذا هو المخرج الوحيد الذي أكمل المهمة الفعلية.

جرب نماذج Grok Imagine Image و GPT Image 2 عبر Atlas Cloud

المعيار قابل للتكرار. كل من Grok Imagine و GPT Image 2 متاحان الآن من خلال Atlas Cloud - لا توجد إعدادات فوترة لكل نموذج، ولا قوائم انتظار.

لماذا Atlas Cloud؟

  • مفتاح API واحد، 300+ نموذج. بدّل بين Grok، وGPT Image 2، وFlux، وWan، وSeedream، وكل نموذج آخر في المجموعة عن طريق تغيير حقل نموذج واحد. نفس المفتاح، نفس نقطة النهاية، نفس لوحة تحكم الفوترة - سواء كنت تدير معياراً بستة نماذج أو تبني خط إنتاج صور.
  • تغطية كاملة للأنماط. نماذج لغوية (LLMs)، نص إلى صورة، صورة إلى صورة، نص إلى فيديو، صورة إلى فيديو - كلها تحت سقف واحد. إذا كان سير عملك يحتاج إلى نموذج لغوي لتنقيح المطالبة ونموذج صور للتوليد، فكلاهما يعيش في نفس الـ API.
  • لا توجد بداية باردة، لا مفاجآت في حدود المعدل. يعمل Atlas Cloud على بنية تحتية استنتاجية محسنة مصممة خصيصاً للإنتاجية. تحصل على زمن انتقال متسق سواء كنت تجري مكالمة واحدة أو ألفاً.
  • بُنيت لسير عمل المقارنة. حالة الاستخدام الدقيقة التي يوضحها هذا المعيار، وهي تشغيل مطالبات متطابقة عبر نماذج متعددة ومقارنة المخرجات، هي ما صُممت بنية Atlas Cloud من أجله. مفتاح واحد، فاتورة واحدة، عرض كامل للنماذج.

أحدث النماذج

ابدأ من أكثر من 300 نموذج

استكشف جميع النماذج

Join our Discord community

Join the Discord community for the latest model updates, prompts, and support.