Une seule clé API, tous les modèles : routage multi-modèles avec une passerelle API LLM unifiée

Si vous utilisez des workflows agents avec Claude Code, Codex ou OpenClaw, vous avez probablement remarqué les écarts entre les modèles. DeepSeek V4 Flash est rapide et peu coûteux, idéal pour des appels fréquents et simples. DeepSeek V4 Pro et GLM 5.1 gèrent le raisonnement complexe et la génération de code avec plus de fiabilité. Kimi K2.6 offre une fenêtre de contexte de 262K, ce qui est crucial pour travailler sur de larges bases de code. La configuration idéale consiste à router automatiquement chaque tâche vers le modèle approprié.

La réalité est plus complexe. Chaque modèle possède sa propre clé API, sa propre URL de base et ses particularités d'authentification. Vous finissez par gérer cinq fichiers de configuration au lieu d'un, et une quantité surprenante de temps est perdue dans des incompatibilités de format avant même de commencer à coder.

C'est le problème que résout une passerelle API LLM unifiée : un point de terminaison unique, une seule clé API, et la passerelle gère le routage et la compatibilité des formats en arrière-plan. Ce guide présente le concept, un cadre pratique de routage des tâches vers les modèles, et une configuration étape par étape pour Claude Code, Codex et OpenClaw.

multiple browser with different models.jpg

Points clés

Une passerelle API LLM unifiée achemine les requêtes vers plusieurs modèles via un point de terminaison unique et une seule clé API

Associer les tâches au bon modèle réduit considérablement les coûts : utilisez V4 Flash pour la vitesse, V4 Pro ou GLM 5.1 pour un raisonnement approfondi

Le plan de codage Atlas Cloud prend en charge 10 modèles open-source avec des tarifs inférieurs de 35 % à 55 % aux prix officiels

Claude Code, Codex et OpenClaw se connectent chacun en modifiant un seul fichier de configuration

Pourquoi la gestion de multiples connexions API devient ingérable

Se connecter directement aux API officielles de DeepSeek, GLM et Kimi est techniquement possible, mais c'est un casse-tête récurrent pour les développeurs qui s'y sont essayés.

Compatibilité des formats. Tous les modèles n'implémentent pas exactement la même spécification d'API compatible OpenAI. DeepSeek V4 en est un bon exemple : les notes d'intégration de DeepSeek elles-mêmes avertissent que, sans les champs de compatibilité appropriés, « les conversations longues en mode réflexion avec appels d'outils renverront une erreur 400 » (Docs API DeepSeek, mai 2026). Claude Code a été conçu selon le comportement spécifique de Claude ; lorsque vous substituez un autre modèle, des différences subtiles dans la gestion des paramètres peuvent provoquer des erreurs. C'est le type de bug qui survient généralement au pire moment.

Prolifération des comptes. Chaque modèle supplémentaire signifie un nouveau compte, un nouveau tableau de bord de facturation et un nouveau quota d'utilisation à suivre. Lorsque vous travaillez avec DeepSeek, GLM, MiniMax et Kimi, concilier les coûts sur quatre systèmes de facturation différents n'est pas une mince affaire.

Reconfiguration des outils. Claude Code achemine le trafic vers une passerelle en définissant la variable d'environnement ANTHROPIC_BASE_URL, et la passerelle doit également transférer les en-têtes de requête, y compris anthropic-beta et anthropic-version, sous peine de dysfonctionnement (Docs LLM Gateway pour Claude Code, mai 2026). Codex, en revanche, définit les fournisseurs sous [model_providers.<id>] dans ~/.codex/config.toml, où base_url définit la base de l'API (Référence de configuration OpenAI Codex, mai 2026). OpenClaw possède son propre assistant de configuration. Chaque fois que vous voulez essayer un nouveau modèle, vous replongez dans la documentation pour trouver le format de configuration correct, ce qui ne fonctionne pas toujours du premier coup.

Une passerelle API LLM unifiée consolide cette complexité en une seule couche. Configurez-la une fois, puis changez de modèle en modifiant un seul paramètre. La passerelle gère la traduction des formats, votre outil n'a donc pas besoin de savoir quel modèle tourne en dessous.

Ce qu'une passerelle API LLM unifiée fait réellement

all models in one api.jpg

La passerelle est une couche proxy. Elle expose un point de terminaison standard compatible OpenAI, et lorsqu'une requête arrive, elle l'achemine vers le bon modèle sous-jacent en fonction du champ model de votre requête. Côté développeur, la mise en place se fait en trois étapes :

Pointez l'URL de base de votre outil vers l'adresse de la passerelle
Remplacez votre clé API par celle fournie par la passerelle
Définissez le paramètre model sur le modèle souhaité

Changer de modèle ne nécessite ni nouveau compte ni modification de code. C'est une mise à jour de configuration d'une ligne. Pour les outils de développement, cela a un effet secondaire utile : l'outil n'a pas besoin de connaître les caprices du modèle sous-jacent. Il envoie une requête standard et la passerelle se charge de la traduire dans un format que le modèle peut traiter correctement. Une grande partie des frictions de compatibilité liées aux appels API directs disparaît.

Router les tâches vers le bon modèle

Le véritable avantage d'une passerelle unifiée ne réside pas seulement dans une gestion plus propre des configurations. C'est que changer de modèle devient assez peu coûteux pour que vous puissiez réellement faire correspondre chaque tâche au meilleur outil.

Voici une référence de routage pratique basée sur les modèles disponibles dans le plan de codage Atlas Cloud :

Type de tâche	Modèle recommandé	Pourquoi ce choix
Raisonnement complexe, génération de code	deepseek-ai/deepseek-v4-pro	1M de contexte, raisonnement puissant
Réponses rapides, haute fréquence	deepseek-ai/deepseek-v4-flash	1M de contexte, tarif entrée 0.30
Codage quotidien général	zai-org/glm-5.1	200K de contexte, polyvalence solide
Grande base de code, analyse de doc	moonshotai/kimi-k2.6	Fenêtre de contexte 262K
Tâches par lots sensibles au budget	deepseek-ai/deepseek-v3.2	55 % moins cher que l'officiel, tarif 0.42
Dialogue, sortie structurée	minimaxai/minimax-m2.5	200K de contexte, tarif entrée 0.64

Règle simple : utilisez Flash ou V3.2 pour tout ce qui est haute fréquence et faible complexité. Utilisez V4 Pro ou GLM 5.1 pour les tâches nécessitant une profondeur de raisonnement réelle. Optez pour Kimi K2.6 lorsque vous travaillez avec des documents longs ou une base de code importante où la fenêtre de 262K change réellement la donne.

Vous pouvez également mélanger les modèles au sein d'un même workflow agent. Laissez le modèle Flash gérer les étapes intermédiaires et utilisez un modèle de niveau Pro pour le résultat final. Une fois que tout passe par la même passerelle, ce type de routage hybride est facile à configurer.

La passerelle unifiée par excellence : 10 modèles, une clé, 55 % moins cher

La passerelle unifiée sur laquelle se concentre ce guide est le plan de codage Atlas Cloud. Il prend actuellement en charge dix modèles open-source : DeepSeek V4 Pro, DeepSeek V4 Flash, DeepSeek V3.2, Kimi K2.5, Kimi K2.6, GLM 5, GLM 5.1, MiniMax M2.5, MiniMax M2.7 et Qwen 3.6 Plus. Tous utilisent la même URL de base, et passer de l'un à l'autre ne nécessite qu'un seul changement de paramètre.

La tarification utilise un système de crédits. Chaque requête coûte (tokens d'entrée × tarif entrée) + (tokens de sortie × tarif sortie). Les économies par rapport à un accès direct varient de 35 % à 55 % selon le modèle :

Modèle	Contexte	Tarif Entrée	Tarif Sortie	vs Officiel
deepseek-v3.2	160K	0.42	0.62	55 % moins cher
qwen3.6-plus	256K+	3.30	9.90	50 % moins cher
deepseek-v4-flash	1M	0.30	0.60	35 % moins cher
deepseek-v4-pro	1M	3.73	7.47	35 % moins cher
kimi-k2.5	262K	1.29	6.44	35 % moins cher
kimi-k2.6	262K	2.04	8.58	35 % moins cher
glm-5	200K	2.15	6.86	35 % moins cher
glm-5.1	200K	3.00	9.44	35 % moins cher
minimax-m2.5	200K	0.64	2.57	35 % moins cher
minimax-m2.7	200K	2.79	4.72	35 % moins cher

Deux types de plans sont disponibles. L'abonnement mensuel vous donne une allocation quotidienne de crédits qui se réinitialise à minuit, sur 30 jours. C'est l'option idéale si vous exécutez des agents de manière constante. Le pack "pay-as-you-go" est un achat de crédit ponctuel avec une validité de 90 jours, cumulable. Si vous détenez les deux, les crédits mensuels sont utilisés en premier ; le solde "pay-as-you-go" prend le relais une fois votre allocation quotidienne épuisée.

À noter : le plan de codage couvre uniquement les modèles open-source. Il n'inclut pas Claude, GPT-4 ou d'autres modèles propriétaires d'autres fournisseurs.

Configurer vos outils

Votre clé API se trouve dans la section de gestion du plan sur Atlas Cloud. Une fois obtenue, les changements de configuration pour chaque outil sont minimes.

Claude Code

Modifiez ~/.claude/settings.json (Windows : %USERPROFILE%\.claude\settings.json). Remplacez atlas-api-key par votre clé réelle et définissez ANTHROPIC_MODEL sur l'identifiant du modèle de votre choix :

plaintext
1{
2  "env": {
3    "ANTHROPIC_AUTH_TOKEN": "atlas-api-key",
4    "ANTHROPIC_BASE_URL": "https://api.atlascloud.ai",
5    "ANTHROPIC_MODEL": "zai-org/glm-5.1",
6    "ANTHROPIC_DEFAULT_HAIKU_MODEL": "zai-org/glm-5.1",
7    "ANTHROPIC_DEFAULT_SONNET_MODEL": "zai-org/glm-5.1",
8    "CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS": "1"
9  }
10}

Attention : l'URL de base de Claude Code ne prend pas de suffixe /v1. Utilisez https://api.atlascloud.ai exactement comme indiqué. Ajouter /v1 coupera la connexion.

Codex

Codex divise sa configuration entre deux fichiers.

~/.codex/config.toml pour les paramètres du fournisseur et du modèle :

plaintext
1model_provider = "atlas_coding_plan"
2model = "zai-org/glm-5.1"
3
4[model_providers.atlas_coding_plan]
5name = "atlascloud"
6base_url = "https://api.atlascloud.ai/v1"
7wire_api = "chat"
8requires_openai_auth = true

~/.codex/auth.json pour la clé API :

plaintext
1{
2  "OPENAI_API_KEY": "atlas-api-key"
3}

Exécutez codex dans votre terminal après avoir enregistré les deux fichiers. Ignorez l'invite de mise à jour, vous êtes connecté.

OpenClaw

OpenClaw propose un flux de configuration guidé. Lancez-le avec :

plaintext
1openclaw onboard

Sélectionnez Yes, puis QuickStart, puis Custom Provider. Remplissez :

API Base URL : https://api.atlascloud.ai/v1
API Key : Votre clé API Atlas
Model ID : Tout modèle pris en charge (ex: zai-org/glm-5.1), protocole défini sur OpenAI-compatible

Un message « Verification successful » signifie que vous êtes prêt.

Si vous préférez ignorer l'assistant, modifiez directement le fichier de configuration OpenClaw dans ~/.claude/settings.json :

plaintext
1{
2  "baseUrl": "https://api.atlascloud.ai/v1",
3  "apiKey": "your-atlas-key",
4  "api": "openai-completions",
5  "models": [
6    {
7      "id": "zai-org/glm-5.1",
8      "name": "zai-org/glm-5.1",
9      "contextWindow": 200000,
10      "input": ["text"]
11    }
12  ]
13}

Abonnement mensuel ou Pay-As-You-Go : comment choisir

La décision est assez simple.

L'abonnement mensuel est logique si vous utilisez Claude Code ou un outil similaire tous les jours. Votre allocation quotidienne se recharge automatiquement à minuit, il n'y a donc rien à gérer. Il est aussi légèrement moins cher par crédit qu'un pack pay-as-you-go. Vous ne pouvez détenir qu'un seul plan mensuel à la fois, mais les mises à niveau en cours de période fonctionnent sans problème : vous payez la différence au prorata des jours restants.

Un pack pay-as-you-go est préférable si votre usage est irrégulier. Peut-être effectuez-vous une lourde tâche par lots une semaine, puis à peine l'API les deux semaines suivantes. La fenêtre de 90 jours et la facturation à l'usage offrent une flexibilité sans engagement. Vous pouvez cumuler plusieurs packs si vous avez besoin de plus de marge.

Si vous souhaitez les deux, vous pouvez les détenir simultanément. Les crédits mensuels sont consommés en premier. Une fois le plafond quotidien atteint, la facturation bascule automatiquement sur votre solde pay-as-you-go.

Foire aux questions

Dois-je modifier mon code pour utiliser une passerelle API LLM unifiée ?

Non. Tant que votre outil prend en charge une URL de base et une clé API personnalisées, modifier le fichier de configuration suffit. L'ID du modèle passe par le paramètre de configuration, pas par la logique de votre application.

Quelle est la différence entre passer par une passerelle et appeler les API officielles directement ?

Deux points principaux : la gestion de la compatibilité et le coût. La passerelle normalise les formats de requête entre les modèles, ce qui réduit les risques de rencontrer des particularités spécifiques. Sur la tarification, vous payez 35 % à 55 % de moins que les tarifs officiels.

DeepSeek V4 fonctionne-t-il de manière fiable avec Claude Code ?

L'intégration directe présente des problèmes de compatibilité connus, notamment des erreurs 400 lors de l'utilisation simultanée du mode réflexion et des appels d'outils. Une passerelle ajoute une couche de compatibilité qui traduit les formats de requête, ce qui réduit considérablement ce type d'incident.

Que faire si ma clé API est divulguée ?

Allez dans la section de gestion du plan sur le tableau de bord Atlas Cloud et régénérez-la. L'ancienne clé est immédiatement invalidée. Mettez ensuite à jour le fichier de configuration de chaque outil avec la nouvelle clé.

La liste des modèles va-t-elle s'élargir ?

Le plan se concentre actuellement sur les modèles open-source de l'écosystème IA chinois, et la documentation officielle indique que d'autres modèles seront ajoutés. Pour la liste actuelle, la page du Plan de codage Atlas Cloud est la référence absolue.

La tarification, la disponibilité des modèles et les taux de crédit reflètent la documentation du plan de codage Atlas Cloud au mois de mai 2026. Consultez la console officielle pour les détails actuels.

RETOUR À LA LISTE