Comment créer un jeu 3D style Zelda avec une seule API d'IA

À partir d'une simple phrase décrivant un environnement, j'ai obtenu un personnage 3D riggé capable de marcher et de sauter dans un moteur de jeu, évoluant au cœur d'un canyon bioluminescent dans l'esprit visuel de Zelda. Je n'ai jamais ouvert de logiciel de modélisation, ni écrit une seule ligne de code de rendu bas niveau.

Cet article retrace l'ensemble du processus, y compris les erreurs que j'ai commises en chemin. Toutes les capacités d'IA que j'ai utilisées proviennent de la même plateforme, Atlas Cloud, et l'intégralité du flux de travail a été pilotée par une seule clé API.

La version courte : ce qui demandait une équipe nécessite désormais une seule API

Par le passé, créer un jeu 3D jouable signifiait surmonter plusieurs obstacles techniques. Il fallait savoir modéliser dans des outils comme ZBrush ou Blender, rigguer un personnage avec un squelette, l'animer via des images clés ou de la capture de mouvement, puis écrire le code nécessaire pour intégrer ces ressources dans un moteur de jeu. Pour la plupart des débutants, n'importe laquelle de ces étapes suffisait à arrêter le projet avant même qu'il ne commence.

Ce que je voulais tester était simple : l'IA peut-elle désormais connecter ces étapes de bout en bout, permettant à quelqu'un sans expérience en modélisation ou en programmation de créer une démo de jeu 3D réellement fonctionnelle dans un moteur ?

La réponse, après essai, est oui. Tout le pipeline d'IA, de la génération d'images et la conversion 3D au texturage et à la création de skybox, a transité par une seule clé API. Le travail d'ingénierie plus technique, incluant l'assemblage dans Blender et la configuration du projet Godot, a été orchestré par Claude. Mon rôle a principalement consisté à inspecter les résultats et à décrire ce que je souhaitais ensuite.

Une seule clé API a supporté tout le flux de travail. GPT Image 2, YouChuan MJ V8.1, Nano Banana 2, Seed 3D, Hunyuan 3D et d'autres modèles ont tous tourné via Atlas Cloud avec la même clé. Il n'a jamais été nécessaire de s'inscrire sur plusieurs plateformes, de recharger des comptes séparés ou d'intégrer manuellement différentes API.

Une seule clé API a supporté tout le flux de travail

Aperçu complet du flux de travail, dans l'ordre chronologique

plaintext
1①  GPT Image 2       →  Concept art de l'environnement, définition de l'esthétique : rendu style Zelda et canyon bioluminescent sombre
2②  GPT Image 2 edit  →  Transformation de l'environnement en « diorama 3D » par nettoyage en image de base isométrique
3③  Hunyuan 3D        →  Test de résistance de la scène complète en convertissant le diorama en 3D en une passe
4④  GPT Image 2       →  Génération d'une skybox 360° avec le même modèle, utilisée comme arrière-plan étoilé
5⑤  YouChuan MJ V8.1  →  Conception du personnage de ranger, définition de l'âme du protagoniste
6⑥  Nano Banana 2     →  Préservation de la cohérence du personnage et redessin en référence T-pose de face
7⑦  Seed 3D           →  Conversion de l'image du personnage en 3D, avec géométrie propre (cheveux/doigts), structure compatible avec le rigging, PBR intégré et modèle Seed de ByteDance
8⑧  Nano Banana 2 + Hunyuan 3D  →  Création séparée de l'accessoire lanterne
9⑨  Mixamo + Blender × Claude →  Rigging automatique et animations (marche/course/saut) avec Mixamo, puis Claude via MCP gère l'importation, l'application des matériaux, l'alignement et l'export GLB dans Blender
10⑩  Godot 4           →  Intégration totale : contrôleur de personnage, caméra à la troisième personne, skybox, brouillard volumétrique et lanterne lumineuse

Les étapes ① à ⑧ utilisaient toutes les capacités d'IA disponibles sur Atlas Cloud, qui se positionne comme « Une API pour toute l'IA média », une interface unique pour appeler plus de 300 modèles. Cela inclut YouChuan MJ à l'étape ⑤. Mixamo à l'étape ⑨, Godot à l'étape ⑩ et Blender en coulisses pour la configuration des matériaux étaient tous des outils tiers gratuits.

Vous trouverez ci-dessous le processus pratique, avec les prompts réels utilisés à chaque étape.

Étape 1 | GPT Image 2 : D'abord, dessiner le monde

Le point de départ n'était pas le personnage, mais l'esthétique du monde entier. J'ai utilisé GPT Image 2 sur Atlas Cloud pour générer une image conceptuelle de l'environnement et définir le ton : rendu type Zelda combiné à un canyon sombre et bioluminescent.

Prompt environnement ('text-to-image' ; ratio '16:9' dans les paramètres du playground) :

plaintext
1bioluminescent fantasy canyon at night, stylized painterly game concept art, towering deep-indigo and magenta rock cliffs glowing with teal veins, tall bell-shaped glowing flora with crystal tips, ancient carved standing stones with angular constellation glyphs, winding ridge path, a small hooded ranger with a warm lantern beside a campfire for scale, misty atmospheric depth, starry night sky, cool teal-and-violet palette with warm amber accent, dreamy magical mood, soft cel-shaded painterly rendering, cinematic wide establishing shot, high detail

Cette image est devenue l'ancre esthétique de tout le projet. La palette de couleurs, l'éclairage et le world-building ont été décidés ici. À ce stade, la seule question était de savoir si l'image était réussie. La possibilité de la modéliser serait traitée plus tard.

Pourquoi GPT Image 2 pour l'environnement : Pour le pipeline « scène d'environnement puis conversion en diorama », GPT Image 2 a été l'option la plus stable lors de mes tests. Ses compositions étaient claires et ses couleurs restaient fidèles. Lorsque j'ai essayé d'autres modèles d'image pour la conversion en diorama, ils transformaient souvent l'image en un modèle d'argile blanche, perdant les informations de couleur et de matériau nécessaires à la modélisation ultérieure. Pour l'environnement, j'ai donc conservé GPT Image 2.

GPT Image 2

Étape 2 | GPT Image 2 'edit' : Transformer l'environnement en diorama 3D

Ensuite, l'image conceptuelle devait être transformée en quelque chose qu'un modèle 3D peut comprendre. Une peinture conceptuelle grand angle ne fonctionne pas bien comme entrée de modélisation directe : l'éclairage est trop dramatique et l'arrière-plan trop encombré. J'ai donc utilisé la fonction edit de GPT Image 2 pour nettoyer l'image en une base de type diorama isométrique, préparant efficacement le matériau pour l'étape suivante.

Prompt de conversion en diorama (GPT Image 2 'edit', en utilisant l'image de l'étape 1) :

plaintext
1Convert this scene into a clean 3D-renderable isometric diorama, keeping ALL original colors and textures fully intact — purple-magenta rock, teal glowing bell flowers, carved runestones, mossy ground. Plain simple background. Even soft neutral lighting so the true surface colors read clearly; remove only the heavy colored rim-light, fog and warm campfire glow. Do NOT desaturate, do NOT turn into grey clay. Preserve material and texture detail, single connected terrain chunk, 3/4 orthographic view, no text, no characters.

Le piège classique ici : ne pas laisser l'image se transformer en modèle d'argile gris-blanc. Hunyuan lit les informations de texture de l'étape suivante directement depuis les couleurs de l'entrée. Si vous lui fournissez une image grisâtre, il ne pourra retourner qu'un modèle gris. C'est pourquoi le prompt précise explicitement « keeping ALL original colours » (garder TOUTES les couleurs originales) et « Do NOT desaturate » (ne PAS désaturer).

Hunyuan

Étape 3 | Hunyuan 3D : Exporter tout le diorama en 3D en une seule passe

Cette étape était un test de résistance délibéré. Au lieu de découper la scène en ressources distinctes, j'ai soumis l'image entière du diorama à Hunyuan 3D pour voir s'il pouvait reconstruire toute la scène d'un seul bloc.

Le résultat a été plus exploitable que prévu. Le diorama comptait environ 100 000 polygones. Sa structure globale, les formes rocheuses et les relations de terrain étaient bien préservées, et il incluait des textures PBR plutôt qu'un simple maillage blanc. Je m'attendais à quelque chose de plus proche d'un relief aplati. Après le prétraitement du diorama, le modèle de scène complète était bien plus utilisable qu'anticipé. Une excellente surprise.

Note sur le principe : Cette partie a utilisé la génération image unique, ou image-vers-3D, de Hunyuan 3D. Lorsqu'il reçoit une image grand angle, le modèle s'appuie sur l'inférence stylistique pour combler la structure tridimensionnelle manquante. Ce qui est impressionnant, c'est qu'avec une seule image, il peut déduire raisonnablement l'arrière et le dessous invisibles dans le même style. Pour un diorama, c'est déjà très performant. Pour des environnements plus raffinés, l'approche orthodoxe consiste toujours à séparer la scène en ressources distinctes.

Hunyuan image-to-3D

Pourquoi Hunyuan pour l'environnement, et pas Seed 3D : J'ai exécuté les deux modèles sur la même image de diorama. Pour les environnements, Hunyuan a produit des textures plus pleines et plus solides. Les motifs de roche et les détails du sol ressortaient mieux. La tentative de Seed pour l'environnement manquait de texture et semblait plus grossière. Pour les personnages, en revanche, la conclusion était l'inverse (voir étape 7).

Hunyuan au lieu de Seed 3D

Une règle s'applique à tout le projet : maintenir le nombre de polygones sous les 100 000. Dans un jeu, un modèle fluide compte plus qu'un modèle surchargé de détails. Au-delà, le rigging devient difficile et le moteur ralentit. Pour des ressources de jeu jouables, 50 000 à 100 000 polygones suffisent généralement.

Étape 4 | GPT Image 2 : Générer une skybox 360° avec le même modèle

Le ciel étoilé n'a pas été modélisé. C'est une skybox dans le moteur, une image panoramique qui enveloppe tout le monde. J'ai utilisé GPT Image 2, en deux étapes :

J'ai utilisé l'image concept de l'environnement (étape 1) comme référence image-vers-image pour générer un ciel étoilé propre, en supprimant le terrain. La couleur et l'atmosphère restaient cohérentes : indigo profond, ciel bleu roi, étoiles denses, aurores boréales bleu-vert, météores.
J'ai utilisé edit pour convertir cette image en un panorama équirectangulaire 360° au ratio 2:1, avec des bords gauche-droite homogènes pour une intégration parfaite.

Prompt ciel propre (image-vers-image, ratio '2:1') :

plaintext
1A pure night sky only, no terrain and no horizon line, bioluminescent dark fantasy game sky: smooth deep indigo-to-royal-blue gradient, a dense field of bright white and pale-cyan stars, soft flowing teal-green aurora ribbons, a faint cyan-and-magenta nebula glow, one or two thin meteor streaks, dreamy magical atmosphere, soft cel-shaded painterly rendering, no ground, no mountains, no characters, sky fills the entire frame.

ciel propre avec GPT-image-2

Convertir en panorama 360° ('edit', ratio '2:1') :

plaintext
1Convert this night sky into a full 360-degree equirectangular spherical panorama with a 2:1 aspect ratio, for use as a seamless game skybox. Wrap horizontally so the left and right edges line up with no visible seam. Keep the same teal-and-violet palette, bright stars and soft aurora. No ground, no characters, seamless tiling.

panorama 360 avec GPT-image-2

Étape 5 | YouChuan MJ V8.1 : Dessiner le protagoniste ranger

Une fois l'environnement fixé, place au protagoniste. J'ai utilisé YouChuan MJ V8.1 sur Atlas Cloud pour sa cohérence de style et son atmosphère visuelle. Je voulais une ranger aux cheveux bleus : queue-de-cheval, tunique en cuir ajustée avec bordure de runes cyan, sous-couche à manches longues, gants sans doigts, pantalon ajusté et bottes robustes.

Prompt personnage (description simple, paramètres de style réglés dans le panneau) :

plaintext
1full body character design of a young female explorer-ranger, athletic slim build, short tousled hair or a low tied-back ponytail (no long loose hair over the shoulders), wearing a fitted sleeveless leather tunic with glowing teal-rune trim over a slim close-fitting long-sleeve underlayer, fitted trousers tucked into sturdy boots, fingerless gloves and forearm bracers, a small warm-amber lantern clipped at the hip, gentle determined expression, bioluminescent dark fantasy style, cool teal-and-violet palette with warm amber accent glow, soft cel-shaded painterly rendering, calm neutral standing pose with arms held clearly away from the torso, clean plain background, full body visible head to toe, clearly separated arms and legs, NO cape, NO robe, NO flared sleeves, NO face-covering hood, game character concept art, high detail

Leçon la plus importante : choisir un personnage compatible avec le rigging.

Ma première version était une prêtresse avec de larges manches, des robes longues et une capuche. C'était beau, mais le rigging s'est effondré. La robe fusionnait les jambes en un cône, les manches évasées créaient des zones de tissu flottant ingérables. Le fait de choisir un personnage avec des membres clairement séparés et des vêtements ajustés a sauvé la mise.

Étape 6 | Nano Banana 2 : Préserver la cohérence et redessiner en T-pose

L'image de MJ était une illustration. Pour la 3D, il fallait une référence T-pose de face : bras étendus horizontalement, membres séparés, symétrie claire. Nano Banana 2 a effectué cette transformation tout en préservant l'identité. J'ai supprimé la lanterne (pour la faire à part) et aplati les rabats de tissu pour éviter les problèmes de simulation de tissus.

Prompt traitement T-pose (NB2 'edit') :

plaintext
1Redraw this exact character in a clean front-facing T-pose for 3D modeling: both arms extended straight out horizontally to the sides with a clear visible gap between the arms and the torso, hands open and empty, legs straight and clearly apart (not touching), standing upright, symmetric, facing forward. Keep the identical character identity — blue tousled short hair with a small ponytail, same face, sleeveless vest with glowing teal-rune trim, fitted long-sleeve underlayer, fingerless gloves, fitted trousers, chunky boots, cool teal-and-violet palette with warm accents. Remove the lantern and any held prop. Replace the bulky side hip pouch with a slim flat tactical belt. Shorten the hanging front cloth flap so it ends above mid-thigh, never between the legs. Even neutral lighting, plain pure white background, no shadows, full body head to toe, clearly separated arms and legs, everything fitted close to the body, NO cape, NO robe, NO flared sleeves, NO hood, clean game-character reference.

Étape 7 | Seed 3D : D'une vue frontale à un personnage texturé

J'ai utilisé Seed 3D sur Atlas Cloud (modèle ByteDance). Il a généré un modèle complet avec textures PBR en une passe. Géométrie et matériaux réunis.

Cas d'usage	Modèle	Raison
Personnage	Seed 3D	Sépare mieux les cheveux/visage et produit des doigts plus propres, idéal pour le rigging.
Environnement	Hunyuan 3D	Textures plus pleines et solides pour les roches et détails de surface.

Seed panel settings : J'ai utilisé le niveau 'low' (100 000 polygones) pour respecter la règle de légèreté. Format GLB pour la compatibilité native.

Personnage texturé

Étape 8 | Lanterne : Prop séparé

Je n'ai pas soudé la lanterne au personnage pour garder un rigging propre. Je l'ai générée séparément avec Nano Banana 2 (pour le design) puis Hunyuan 3D (pour le modèle 3D à 40 000 polygones).

Étape 9 | Mixamo : Rigging et animations gratuits

J'ai utilisé Mixamo pour le rigging automatique (squelette humanoïde standard).

Astuce 1 : L'upload d'un FBX créait des erreurs de mapping. Claude m'a conseillé d'exporter en OBJ (sans squelette), forçant Mixamo à tout créer de zéro.
Astuce 2 : Claude a automatiquement corrigé l'échelle (0.01 vers 1.0) et a reconnecté les textures PBR perdues lors de l'export.

Étape 10 | Godot 4 : Assemblage et script

Claude a géré tout le travail de programmation dans Godot 4 :

Contrôleur : Script GDScript pour les mouvements WASD, saut et caméra.
Animation : Machine à états simple (idle/walk/run/jump).
Atmosphère : Intégration de la skybox 360°, brouillard volumétrique, et éclairage dynamique lié à la main du personnage.

Pourquoi Atlas Cloud ?

Une seule clé API : Le point critique. GPT Image 2, MJ, Nano Banana 2, Seed 3D, Hunyuan 3D... tout est centralisé.
Unifiée : Une interface pour 300+ modèles.
Productivité : Le workflow complet (image/3D/IA) devient un pipeline continu sans gestion d'abonnements multiples.

En résumé : Ce qui demandait une équipe et une douzaine de comptes peut désormais être réalisé par une seule personne, avec une seule clé API, en partant d'une simple phrase.

Essayez maintenant

Rendez-vous sur https://www.atlascloud.ai pour accéder aux modèles.

Méthode 1 : Playground

Utilisez les outils directement dans l'interface web.

Méthode 2 : API

Clé API : Créez-la dans votre console.
Docs : Consultez la documentation API.
Premier appel : Lancez votre première requête via votre éditeur.

RETOUR À LA LISTE

Créez un jeu 3D de style Zelda à partir de zéro avec une seule clé API

La version courte : ce qui demandait une équipe nécessite désormais une seule API

Aperçu complet du flux de travail, dans l'ordre chronologique

Étape 1 | GPT Image 2 : D'abord, dessiner le monde

Étape 2 | GPT Image 2 'edit' : Transformer l'environnement en diorama 3D

Étape 3 | Hunyuan 3D : Exporter tout le diorama en 3D en une seule passe

Étape 4 | GPT Image 2 : Générer une skybox 360° avec le même modèle

Étape 5 | YouChuan MJ V8.1 : Dessiner le protagoniste ranger

Étape 6 | Nano Banana 2 : Préserver la cohérence et redessiner en T-pose

Étape 7 | Seed 3D : D'une vue frontale à un personnage texturé

Étape 8 | Lanterne : Prop séparé

Étape 9 | Mixamo : Rigging et animations gratuits

Étape 10 | Godot 4 : Assemblage et script

Pourquoi Atlas Cloud ?

Essayez maintenant

Méthode 1 : Playground

Méthode 2 : API

Modèles récents

Seedance 2.0 Mini Reference-to-Video

Seedance 2.0 Mini Image-to-Video

Seedance 2.0 Mini Text-to-Video

HappyHorse-1.1 Text-to-video

Une seule API pour toute l'IA multimédia.

Join our Discord community