ERNIE Image API for Readable Text in Images

ERNIE Image API は、Baidu のオープンウェイト 8B Diffusion Transformer をあなたのスタックに導入できます。ERNIE-Image Team により Apache 2.0 の下でリリースされています。LongTextBench で 0.9733 の最高スコアを達成し、ポスターの見出しやコミックの吹き出しの文字を読みやすく保ちます。さらに、蒸留版の Turbo バリアントでは推論を 50 steps から 8 steps に短縮します。Atlas Cloud は、透明性の高い従量課金制で、1 つの OpenAI-compatible endpoint を通じてこれを提供します。今すぐ構築を始めましょう。

主要モデルを探索

Atlas Cloudは、業界をリードする最新のクリエイティブモデルを提供します。

NEW

テキストから画像

TURBO

Baidu ERNIE Image Turbo Text-to-image

A fast, low-latency version of ERNIE Image by Baidu, optimized for rapid iteration and scalable image generation.Balances speed and quality, ideal for real-time and high-throughput scenarios.

FREE

無料

ERNIE Image API エンドポイント比較：Standard と Turbo の Text-to-Image

速度と品質のニーズに合わせて、各 text-to-image エンドポイントを選べます。

モダリティ	説明
ERNIE Image API (Text To Image)	Turbo エンドポイントがスループットを重視するのに対し、標準の ERNIE Image API は同じ text-to-image タスクで出力品質を最大限に高めることに重点を置いています。ポスター、エディトリアルグラフィック、商用レイアウトなど、納期の短さよりも細部まで正確に仕上げることが重要な最終制作に適しています。
ERNIE Image Turbo API (Text To Image)	1 つのテキストプロンプトから、1 リクエストあたり最大 10 枚の画像を生成できます。対応するアスペクト比は 7 種類で、正方形の 1024 ピクセルから長辺 1376 ピクセルまで対応します。低レイテンシ向けにチューニングされており、デフォルトでは 8 推論ステップを使用します。また、短いプロンプトを生成前に拡張する組み込みの Prompt Enhancer も備えています。品質を最後の一段階まで追い込むことよりも、高速な反復、リアルタイムプレビュー、大量のバッチ実行が重要な場合に適しています。

モダリティ

説明

ERNIE Image API (Text To Image)

Turbo エンドポイントがスループットを重視するのに対し、標準の ERNIE Image API は同じ text-to-image タスクで出力品質を最大限に高めることに重点を置いています。ポスター、エディトリアルグラフィック、商用レイアウトなど、納期の短さよりも細部まで正確に仕上げることが重要な最終制作に適しています。

ERNIE Image Turbo API (Text To Image)

1 つのテキストプロンプトから、1 リクエストあたり最大 10 枚の画像を生成できます。対応するアスペクト比は 7 種類で、正方形の 1024 ピクセルから長辺 1376 ピクセルまで対応します。低レイテンシ向けにチューニングされており、デフォルトでは 8 推論ステップを使用します。また、短いプロンプトを生成前に拡張する組み込みの Prompt Enhancer も備えています。品質を最後の一段階まで追い込むことよりも、高速な反復、リアルタイムプレビュー、大量のバッチ実行が重要な場合に適しています。

Built for Text, Layout, and Control: the ERNIE Image API

From industry-leading text rendering and structured multi-panel layouts to native bilingual prompting, a default prompt enhancer, seven output dimensions, and reproducible Turbo batches, the ERNIE Image API turns precise instructions into production-ready imagery.

Legible Text Rendering with the ERNIE Image API

A leading LongTextBench score of 0.9733 lets the model render legible, correctly spelled text straight into generated images. Comic speech bubbles, poster headlines, infographic labels, and UI mockup copy all stay sharp and readable.

Structured, Multi-Panel Layouts

Generation, edit, composite, and upscale primitives work alongside a grasp of grid-based spatial relationships. Together they yield coherent multi-panel sequences and formatted designs that designers can drive through one centralized pipeline.

Bilingual Prompting in the ERNIE Image API

Both English and Chinese prompts run natively through the same encoder pipeline, capturing idiomatic phrasing in either language. This dual fluency supports authentic visual storytelling for global campaigns and localized content alike.

Prompt Enhancer Enabled by Default

Enabled by default, a lightweight Prompt Enhancer rewrites short inputs into richer, structured descriptions before they reach the diffusion backbone. Toggle it off per request whenever literal control over exact wording matters more.

Seven Native Output Dimensions

Seven native output sizes span a square 1024x1024, landscape framings up to 1376x768, and portrait shapes down to 768x1376. Each ratio is generated directly, so framing stays intact across every format.

The ERNIE Image API in Turbo Mode

Need volume without the wait? Turbo mode runs as few as 8 inference steps and returns up to 10 images per request, while an explicit seed keeps every result reproducible.

ERNIE Image 真っ向比較：1つのプロンプト、3つのモデル

フラッグシップの ERNIE Image モデル、人気の競合モデル、そしてその高速版の兄弟モデルにまったく同じブリーフを与え、タイポグラフィ、レイアウト、光の描写を並べて評価します。

プロンプト

トップダウンのフラットレイ静物写真。カメラは完全に真上に固定され、伝統的な中国の涼茶薬舗にある、風化した淡いニレ材の薬剤カウンターをまっすぐ見下ろしている。晩朝の硬い指向性の窓光が右側から低く差し込み、このフレームの真の主役となる。長くくっきりと伸びた影を左方向へ落とし、素の木目の上を横切ってリーディングラインとして機能する。密度の高い右側には、透明なガラス瓶がぎゅっと集まり、太陽光がそれらを透過して輝く。半透明の乾燥菊花のつぼみ、赤いクコの実、丸まった琥珀色の陳皮（chenpi）、そして光を受ける深紅の乾燥ローゼルの花びら。マットな緑青を帯びた小さな酸化真鍮の手秤、細かな粉をまとった使い込まれた石の乳鉢と乳棒、粗い繊維の手書き処方箋。処方箋には、伝統的な楷書で整った筆文字の中国語（"甘草三钱"、"桂花蜜"）が記され、縁は擦り切れて繊維が見えている。瞬間を切り取った場面：倒れたピューター製の容器が横倒しになり、口が開いていて、数粒のクコの実がまだ転がりながら外へ散らばり、それぞれが針のように細く長い影を落としている。構図は密度と余白で呼吸する。右側の詰まった集合と、左側に広がるむき出しの木の広大なネガティブスペースが釣り合っている。全体を通して単色調の暖かいパレット。琥珀、タンジェリンオレンジ、古びた真鍮の金色に、ローゼルの濃い赤が一点だけ差し込む。拡大しても質感が破綻しないこと。乾燥花びらのもろく薄い質感、くすんだ酸化真鍮、毛羽立った紙の繊維の縁、こぼれた粉の粒子。自然な指向性光、人工的な発光なし、清潔でくっきりした影、リアルな素材表現、抑制が効いた上品さ、マクロディテールのある食品とハーブの静物写真、85mm レンズで撮影、横長のワイドなランドスケープ構図、ワイド 16:9 アスペクト比、全面裁ち落とし。

Generated with Baidu ERNIE Image Turbo on Atlas Cloud

Generated with Qwen Image 2.0 on Atlas Cloud

Generated with Baidu ERNIE Image Turbo on Atlas Cloud

プロンプト

散らかった屋根裏の工房にいる10代の発明家の少女を追う、横長3コマの漫画ストリップ。1コマ目では暖かなランプの光の下で小さな飛行機械をスケッチし、2コマ目ではその装置が sputter しながら宙に浮き、ボルトを撒き散らし、3コマ目では満面の笑みで両拳を突き上げて勝利を喜ぶ。すっきりしたバイリンガルの吹き出しには、鮮明な English と Japanese のレタリングが入り、自信のあるインク線画とスクリーントーンの陰影で描かれている。暖かな琥珀色のランプの輝きと、工房の冷たい影がバランスしている。キャラクターデザインは3コマを通して一貫し、ジェスチャーは表情豊かで、物語は左から右へ明確な連続性で読める。鮮やかなセルシェーディングの anime イラストスタイル、大胆でクリーンなアウトライン。ワイド 16:9 アスペクト比、全面裁ち落とし。

Generated with Baidu ERNIE Image Turbo on Atlas Cloud

Generated with Qwen Image 2.0 on Atlas Cloud

Generated with Baidu ERNIE Image Turbo on Atlas Cloud

ERNIE Image APIが対応する実運用の制作ワーク

文字が正確なポスターや複数コマのコミックから、バイリンガルキャンペーン、商品カタログ、インターフェースのモックアップ、ラベル付きインフォグラフィックまで、ERNIE Image APIは精密なプロンプトを、あらゆるコンテンツパイプラインでレイアウト精度の高いビジュアルへ変換します。

ERNIE Image APIによるマーケティングおよびポスター制作

モデルの優れたテキスト精度により、読みやすい見出し、価格、商品コピーをキャンペーンポスターやバナーにそのままレンダリングできます。マーケティングチームは、別途組版工程を必要とせず、印刷に使えるアセットを直接出力できます。

コミックと連続的なストーリーテリング

モデルがグリッドベースのレイアウトと複数コマ構成を理解するため、吹き出し内にセリフを配置した一貫性のあるコミックページをレンダリングできます。個人クリエイターやスタジオは、各コマを手作業で描き直すことなく、ストーリーボード全体を作成できます。

ERNIE Image APIによるバイリンガルキャンペーンのローカライズ

英語と中国語のネイティブなプロンプト対応により、1つのワークフローで両市場向けのブランドに沿ったビジュアルを制作でき、各文字体系のテキストも正しくレンダリングされます。グローバルチームは、言語ごとに別々のデザインパイプラインを用意することなくクリエイティブをローカライズできます。

大規模なEコマース商品ビジュアル

1回のAPI呼び出しで、カタログ全体にわたるライフスタイルシーン、商品モックアップ、プロモーション画像を生成できます。Turbo variantは推論を8ステップに圧縮するため、大量の商品を扱うストアでもカタログ全体を数分で更新できます。

インターフェースとプロダクトモックアップ

ピッチ用のリアルな画面が必要ですか？モデルは、読みやすいラベル、ボタン、本文コピーを含むアプリインターフェースやWebサイトのモックアップをレンダリングし、プロダクトチームがコンポーネントを1つも構築する前に、プレゼンに使えるプロトタイプを用意できます。

ERNIE Image APIによる教育向けインフォグラフィック

高い指示追従性により、1回の生成で画像と明確にラベル付けされた図解、チャート、注釈を組み合わせられます。教育者やアナリストは、情報量の多いソース素材を、どの表示サイズでも読みやすい解説グラフィックへ変換できます。

ERNIE Image と競合 Text-to-Image モデルの比較

開発元、アクセスモデル、バイリンガルテキストレンダリング、画像単価の観点で、ERNIE Image が他のオープンおよびプロプライエタリな生成モデルと比べてどの位置にあるかを確認できます。

Model	開発元	アクセスモデル	バイリンガルテキストレンダリング（EN + ZH）	価格（画像あたり）
ERNIE-Image	Baidu（ERNIE-Image Team）	オープンウェイト、Apache 2.0	業界トップクラス、LongTextBench 0.9733	従量課金
ERNIE-Image Turbo	Baidu（ERNIE-Image Team）	オープンウェイト、Apache 2.0	DMD 蒸留による 8-step 推論でも維持	従量課金
Qwen Image 2.0	Alibaba（Tongyi）	オープンウェイト、Apache 2.0	1K-token のタイポグラフィレイアウトに広く対応	$0.035
Z-Image Turbo	Alibaba（Tongyi Lab）	オープンウェイト、Apache 2.0	英語と複雑な中国語看板をあわせて処理可能	$0.005
Seedream v4.5	ByteDance	プロプライエタリ	ネイティブ 4K でデザイナーレベルのレンダリング	$0.04

Atlas Cloud で ERNIE Image API for Readable Text in Images を使う方法

数分で始められます — 以下の簡単なステップに従って、Atlas Cloud プラットフォームでモデルを統合・デプロイしましょう。

Atlas Cloud アカウントを作成

atlascloud.ai でサインアップし、認証を完了します。新規ユーザーには無料クレジットが付与され、プラットフォームの探索やモデルのテストに使用できます。

Atlas CloudでERNIE Image API for Readable Text in Imagesを使用する理由

高度なERNIE Image API for Readable Text in ImagesモデルとAtlas CloudのGPU加速プラットフォームを組み合わせることで、比類のないパフォーマンス、スケーラビリティ、開発者エクスペリエンスを提供。

パフォーマンスと柔軟性

低レイテンシ：
リアルタイム推論のためのGPU最適化推論。

統合API：
1つの統合でERNIE Image API for Readable Text in Images、GPT、Gemini、DeepSeekを実行。

透明な料金：
サーバーレスオプション付きの予測可能なtoken単位の課金。

エンタープライズとスケール

開発者エクスペリエンス：
SDK、分析、ファインチューニングツール、テンプレート。

信頼性：
99.99%の稼働率、RBAC、コンプライアンス対応ロギング。

セキュリティとコンプライアンス：
SOC 2 Type II、HIPAA準拠、米国内のデータ主権。

ERNIE Image API：開発者からよく寄せられる質問

ERNIE Image APIは、Baiduのオープンウェイトtext-to-imageモデルを開発者がプログラムから利用できるようにするAPIです。短いプロンプトをより豊かで構造化された説明へ拡張するPrompt Enhancerを組み合わせた、8BのシングルストリームDiffusion Transformerです。Atlas Cloudでは、OpenAI互換の単一endpointから利用でき、従量課金とDay-0アクセスに対応しています。

最大の強みは、画像内テキストの読みやすさです。英語のLongTextBenchで0.9733を記録しており、オープンウェイトモデルの中でトップの結果です。そのため、ポスター、漫画の吹き出し、インフォグラフィック、UIモックアップなど、すべての文字を正確に描画する必要がある用途で信頼できます。

どちらのバリアントも同じ8Bアーキテクチャを共有していますが、品質と速度のバランスが異なります。Standardモデルは、最終アセットで最大限の忠実度を得るためにguidance scale 4.0で50 inference stepsを実行します。一方、TurboバリアントはDMDと強化学習によっておよそ8 stepsまで蒸留されており、高速かつ大量の生成に向いています。

はい。英語、中国語、日本語のプロンプトが同じencoderでサポートされており、文字体系をまたいでもテキストの信頼性は保たれます。中国語のLongTextBenchでは0.9661を記録しています。競合する複数のモデルが中国語文字で大きく品質を落とす一方、このモデルは簡体字、繁体字、日中・英中などの混在したバイリンガルコピーもきれいに維持します。

Turbo endpointは、単一のsizeパラメーターで7つのプリセットサイズを受け付けます。1024x1024の正方形から、1376x768の横長、768x1376の縦長フォーマットまで対応しています。また、1回の呼び出しで最大10枚の画像をリクエストでき、seedを固定して再現可能な結果を得たり、use_peフラグで組み込みのPrompt Enhancerを切り替えたりできます。

開始に必要なのはAPI key 1つだけです。Atlas Cloudに登録し、既存のOpenAI互換clientの向き先をendpointに設定して、必要に応じてsizeとseedを添えたpromptを送信すると、レスポンスで画像URLを受け取れます。課金は呼び出しごとの従量課金で、モデルにはDay-0アクセスできます。

公開ベンチマークでは、このモデルはFLUX.2-klein-9Bなどの同等のオープンリリースを上回っており、GenEval全体で0.8481に対して0.8856を記録しています。最も大きな差が出るのはテキスト描画で、FLUX.2は中国語で0.2183まで低下する一方、ERNIE Imageは0.96超を維持します。読みやすい画像内テキストと構造化されたレイアウトを中心とするワークロードでは、現時点で最も強力なオープンウェイトの選択肢です。

はい。ERNIE ImageはApache 2.0ライセンスで公開されており、商用利用、改変、再配布が許可されています。生成された画像は、広告、商品、出版物、その他の商用プロダクトに、ライセンス上の摩擦なく利用できます。

さらにファミリーを探索

Seedance 2.0

Seedance 2.0 APIは、ByteDanceのマルチモーダルビデオモデルへのプロダクションアクセスを提供します。これには、クアッドモーダル入力（テキスト、画像、ビデオ、オーディオ）と、ショット間で構図、カメラワーク、キャラクターのアクションを固定する業界最高水準の「Universal Reference」システムが含まれます。1回のAPIコールでディレクターレベルの制御を統合でき、一律$0.09/秒、即時キー発行、順番待ちリストなしで利用可能です。これらはエンタープライズクラスの稼働率とコンプライアンスによって裏付けられています。Seedance 2.0 Native 4Kが提供開始されました！

ファミリーを表示

Grok Imagine

Grok Imagine API は、開発者に xAI の画像、動画、音声生成を1つのスイートで提供します。多言語テキストレンダリングを備えた最大 2K の画像に加え、ネイティブで同期された音声とリファレンスベースの編集を備えた最大15秒の動画を生成します。Atlas Cloud 上では、1つのキーで Grok Imagine のすべてのモードを実行できるため、個別の設定なしで画像、動画、音声の間を移行できます。料金は画像1枚あたり0.02ドル、1秒あたり0.05ドルからです。

ファミリーを表示

Gemini Omni Flash

Gemini Omni API は、Google I/O 2026 で発表された Google DeepMind のマルチモーダル動画生成・編集モデルを、あなたのスタックで利用可能にします。Gemini Omni は Gemini の推論エンジンと生成メディアを融合し、テキスト・画像・動画・音声を自由に組み合わせた入力から、一貫性があり知識に裏付けられた出力を生成します。自然な対話で結果を磨き上げましょう。オブジェクトの差し替え、シーンの書き換え、スタイルの変更を行っても、物理法則、キャラクター、連続性はそのまま保たれます。Atlas Cloud は、テキストからの動画生成、最大 7 枚の参照画像に対応した画像からの動画生成、そして参照ベースの動画生成という Gemini Omni Flash の全ラインアップを、単一の統合 API で提供します。料金は $0.112 からの秒単位の透明な従量課金で、サブスクリプションは不要です。今すぐ開発を始めましょう。

ファミリーを表示

GPT Image 2

GPT Image 2 API は、GPT Image 1.5 の後継となる OpenAI の最新画像モデルへのアクセスを開発者に提供します。ラテン文字およびCJKスクリプト全体で正確なテキストレンダリングを使用して画像を生成および編集できるほか、ポスター、モックアップ、インフォグラフィック向けの強力なコンポジション（構図）機能を備えています。Atlas Cloud では、300以上のモデルと並んで1つの統合 API を通じてアクセスでき、無料クレジット、99.99% のアップタイムが提供され、OpenAI の組織検証は不要です。

ファミリーを表示

Google

Googleの最も強力なクリエイティブモデルはすべてAtlas Cloudで利用可能です。Veo 3.1はシネマティックな動画生成を実現し、Nano Banana 2は高忠実度な画像作成を強化し、Geminiはあらゆるワークフローにマルチモーダルなインテリジェンスをもたらします。Day-0の可用性と従量課金制（pay-as-you-go）の料金体系を備えた単一のAPI keyを通じて、Googleモデルスイート全体にアクセスできます。

ファミリーを表示

Seedance 2.0 Mini

Seedance 2.0 Mini は、速度とコストが最も重視されるワークフローに ByteDance のマルチモーダル動画生成をもたらします。より軽量なフットプリントで Seedance 2.0 のコア機能を提供し、より高速な生成、動画あたりのコスト削減、そしてすでに使用しているものと同じ API 統合を実現します。大容量のパイプラインを運用したり、大規模なプロトタイピングを行ったりするチームにとって、Mini は実用的なデフォルトの選択肢です。

ファミリーを表示

ByteDance

シネマティックな動画生成から高忠実度の画像作成まで、ByteDanceの最も強力なモデルがAtlas Cloudで利用可能になりました。最低水準の推論価格とゼロのインフラストラクチャオーバーヘッドで、SeedanceとSeedreamを大規模に実行できます。

ファミリーを表示

Alibaba

Atlas Cloudは、Alibabaの全モデルラインナップを単一のAPIに統合します。言語および画像タスク用のQwen、最大1080pの動画生成用のWanが利用可能です。すべてのモデルはサブスクリプション不要の従量課金制（pay-as-you-go）でアクセスできます。Alibaba APIは、既存のOpenAI互換クライアントを使用し、単一のベースURLを介して利用可能です。

ファミリーを表示

OpenAI

Atlas Cloudは、画像生成用のGPT Image 2から動画用のSora 2まで、OpenAI APIの全ラインナップへのアクセスを提供します。すべてのモデルは、月額の固定コミットメントなしの従量課金制でご利用いただけます。OpenAI互換APIを使用し、ベースURLを一つ変更するだけで簡単に組み込むことができます。

ファミリーを表示

xAI

Atlas Cloud 上で xAI API を使用して、完全な画像および動画パイプラインを構築します。2K解像度での生成、参照画像を使用した編集、そして画像を音声同期クリップへとアニメーション化することが可能です。

ファミリーを表示

Kwaivgi

Kwaivgi APIを標準価格より15%オフで提供。Atlas Cloudは、新しいKlingリリースへのDay-0アクセスを、従量課金制（Pay-as-you-go）およびシート数無制限で提供します。1つのアカウント、1つのキーで、スタンダードからマスター階層まで、すべてのKlingモデルをご利用いただけます。

ファミリーを表示

Seedream 5.0 Pro

Seedream 5.0 Pro API は、開発者に Atlas Cloud 上で ByteDance の制御可能な画像編集モデルを提供します。アンカーと座標を使用して編集を正確に配置し、画像を編集可能なレイヤーに分離し、複数の参照を融合し、正確な色と素材を一致させ、2K および 3K での多言語テキストをサポートします。Atlas Cloud では、単一のキーでアクセスできます！

ファミリーを表示

ひとつのAPIで、あらゆるメディアAIを。

すべてのモデルを探索

ERNIE Image API for Readable Text in Images

主要モデルを探索

Baidu ERNIE Image Turbo Text-to-image

ERNIE Image API エンドポイント比較：Standard と Turbo の Text-to-Image

Built for Text, Layout, and Control: the ERNIE Image API

Legible Text Rendering with the ERNIE Image API

Structured, Multi-Panel Layouts

Bilingual Prompting in the ERNIE Image API

Prompt Enhancer Enabled by Default

Seven Native Output Dimensions

The ERNIE Image API in Turbo Mode

ERNIE Image 真っ向比較：1つのプロンプト、3つのモデル

ERNIE Image APIが対応する実運用の制作ワーク

ERNIE Image APIによるマーケティングおよびポスター制作

コミックと連続的なストーリーテリング

ERNIE Image APIによるバイリンガルキャンペーンのローカライズ

大規模なEコマース商品ビジュアル

インターフェースとプロダクトモックアップ

ERNIE Image APIによる教育向けインフォグラフィック

ERNIE Image と競合 Text-to-Image モデルの比較

Atlas Cloud で ERNIE Image API for Readable Text in Images を使う方法

Atlas Cloud アカウントを作成

Atlas CloudでERNIE Image API for Readable Text in Imagesを使用する理由

パフォーマンスと柔軟性

エンタープライズとスケール

ERNIE Image API：開発者からよく寄せられる質問

さらにファミリーを探索

Seedance 2.0

Grok Imagine

Gemini Omni Flash

GPT Image 2

Google

Seedance 2.0 Mini

ByteDance

Alibaba

OpenAI

xAI

Kwaivgi

Seedream 5.0 Pro

ひとつのAPIで、あらゆるメディアAIを。

Join our Discord community