ERNIE Image API for Readable Text in Images

ERNIE Image API đưa mô hình Diffusion Transformer 8B open-weight của Baidu vào stack của bạn, do ERNIE-Image Team phát hành theo giấy phép Apache 2.0. Mô hình đạt điểm cao nhất trên LongTextBench với 0.9733, giữ cho tiêu đề áp phích và bong bóng thoại trong truyện tranh vẫn dễ đọc, trong khi biến thể Turbo được distilled giúp giảm suy luận từ 50 bước xuống còn 8. Atlas Cloud cung cấp mô hình này qua một endpoint tương thích OpenAI duy nhất, với mức giá pay-as-you-go minh bạch. Bắt đầu xây dựng ngay hôm nay.

Khám phá Mô hình Hàng đầu

Atlas Cloud cung cấp cho bạn các mô hình sáng tạo tiên tiến nhất trong ngành.

NEW

Văn bản-Hình ảnh

TURBO

Baidu ERNIE Image Turbo Text-to-image

A fast, low-latency version of ERNIE Image by Baidu, optimized for rapid iteration and scalable image generation.Balances speed and quality, ideal for real-time and high-throughput scenarios.

FREE

Miễn phí

So sánh các endpoint ERNIE Image API: Text-to-Image Standard và Turbo

Chọn endpoint text-to-image phù hợp với nhu cầu về tốc độ và chất lượng của bạn.

Phương thức	Mô tả
ERNIE Image API (Text To Image)	Trong khi endpoint Turbo ưu tiên thông lượng, ERNIE Image API tiêu chuẩn thiên về độ trung thực tối đa của đầu ra cho cùng tác vụ text-to-image. Endpoint này phù hợp với các sản phẩm hoàn thiện đưa vào production như poster, đồ họa biên tập và bố cục thương mại, nơi việc thể hiện chính xác từng chi tiết quan trọng hơn thời gian xử lý.
ERNIE Image Turbo API (Text To Image)	Biến một prompt văn bản duy nhất thành tối đa mười hình ảnh cho mỗi request với bảy tỷ lệ khung hình, từ hình vuông 1024 pixel đến cạnh dài 1376 pixel. Được tinh chỉnh để có độ trễ thấp, endpoint này mặc định dùng tám bước suy luận và tích hợp sẵn Prompt Enhancer để mở rộng các prompt ngắn gọn trước khi tạo ảnh. Hãy dùng khi việc lặp nhanh, xem trước theo thời gian thực và chạy batch khối lượng lớn quan trọng hơn việc cố gắng đạt thêm chút chất lượng cuối cùng.

Phương thức

Mô tả

ERNIE Image API (Text To Image)

Trong khi endpoint Turbo ưu tiên thông lượng, ERNIE Image API tiêu chuẩn thiên về độ trung thực tối đa của đầu ra cho cùng tác vụ text-to-image. Endpoint này phù hợp với các sản phẩm hoàn thiện đưa vào production như poster, đồ họa biên tập và bố cục thương mại, nơi việc thể hiện chính xác từng chi tiết quan trọng hơn thời gian xử lý.

ERNIE Image Turbo API (Text To Image)

Biến một prompt văn bản duy nhất thành tối đa mười hình ảnh cho mỗi request với bảy tỷ lệ khung hình, từ hình vuông 1024 pixel đến cạnh dài 1376 pixel. Được tinh chỉnh để có độ trễ thấp, endpoint này mặc định dùng tám bước suy luận và tích hợp sẵn Prompt Enhancer để mở rộng các prompt ngắn gọn trước khi tạo ảnh. Hãy dùng khi việc lặp nhanh, xem trước theo thời gian thực và chạy batch khối lượng lớn quan trọng hơn việc cố gắng đạt thêm chút chất lượng cuối cùng.

Được xây dựng cho văn bản, bố cục và khả năng kiểm soát: ERNIE Image API

Từ khả năng kết xuất văn bản hàng đầu ngành và bố cục nhiều khung có cấu trúc, đến prompting song ngữ native, Prompt Enhancer mặc định, bảy kích thước đầu ra và các batch Turbo có thể tái lập, ERNIE Image API biến những chỉ dẫn chính xác thành hình ảnh sẵn sàng cho production.

Kết xuất văn bản dễ đọc với ERNIE Image API

Điểm LongTextBench hàng đầu 0.9733 cho phép model kết xuất văn bản dễ đọc, viết đúng chính tả trực tiếp trong ảnh được tạo. Bong bóng thoại truyện tranh, tiêu đề poster, nhãn infographic và nội dung trong mockup UI đều sắc nét và dễ đọc.

Bố cục nhiều khung có cấu trúc

Các primitive cho generation, edit, composite và upscale hoạt động cùng khả năng nắm bắt các quan hệ không gian dựa trên lưới. Kết hợp lại, chúng tạo ra các chuỗi nhiều khung mạch lạc và thiết kế có định dạng, để designer có thể điều khiển qua một pipeline tập trung duy nhất.

Prompting song ngữ trong ERNIE Image API

Cả prompt tiếng Anh và tiếng Trung đều chạy native qua cùng một encoder pipeline, nắm bắt được cách diễn đạt tự nhiên trong từng ngôn ngữ. Khả năng thông thạo kép này hỗ trợ kể chuyện bằng hình ảnh một cách chân thực cho cả chiến dịch toàn cầu lẫn nội dung bản địa hóa.

Prompt Enhancer được bật theo mặc định

Được bật theo mặc định, Prompt Enhancer gọn nhẹ sẽ viết lại các input ngắn thành mô tả phong phú và có cấu trúc hơn trước khi chúng đến diffusion backbone. Bạn có thể tắt theo từng request khi cần kiểm soát sát nghĩa từng câu chữ hơn.

Bảy kích thước đầu ra native

Bảy kích thước đầu ra native bao gồm khung vuông 1024x1024, khung ngang lên đến 1376x768 và khung dọc xuống đến 768x1376. Mỗi tỷ lệ đều được tạo trực tiếp, nên bố cục khung hình được giữ nguyên trên mọi định dạng.

ERNIE Image API trong chế độ Turbo

Cần số lượng lớn mà không muốn chờ lâu? Chế độ Turbo chạy chỉ từ 8 inference steps và trả về tối đa 10 ảnh cho mỗi request, trong khi seed rõ ràng giúp mọi kết quả đều có thể tái lập.

ERNIE Image Đối Đầu Trực Diện: Một Prompt, Ba Model

Đưa cùng một bản mô tả y hệt cho model ERNIE Image flagship, một đối thủ phổ biến và phiên bản anh em nhanh hơn của nó, rồi so sánh trực tiếp cách từng model thể hiện typography, bố cục và ánh sáng.

Prompt

Ảnh tĩnh vật flatlay nhìn từ trên xuống, camera khóa cố định hoàn toàn trên cao, nhìn thẳng xuống một quầy bào chế bằng gỗ du nhạt đã phong hóa trong một tiệm trà thảo mộc Trung Hoa truyền thống. Ánh sáng cửa sổ cuối buổi sáng chiếu xiên mạnh theo hướng thấp từ bên phải, là nhân vật chính thực sự của khung hình — tạo ra những bóng đổ dài, sắc nét, kéo giãn về bên trái trên thớ gỗ thô và đóng vai trò như các đường dẫn hướng. Ở phía bên phải dày đặc, các hũ thủy tinh trong suốt được xếp sát nhau phát sáng khi nắng xuyên qua: nụ cúc khô trong mờ, kỷ tử đỏ, vỏ quýt hổ phách cuộn lại (chenpi), và cánh atiso đỏ khô màu đỏ thẫm bắt sáng. Một chiếc cân tay bằng đồng thau oxy hóa nhỏ với lớp patina mờ, một cối và chày đá cũ phủ bụi bột mịn, cùng các phiếu kê đơn bằng giấy sợi thô viết tay, khắc những chữ Hán thư pháp bằng bút lông gọn gàng theo lối khải thư truyền thống ("甘草三钱", "桂花蜜"), mép giấy sờn và xơ sợi. Bắt đúng khoảnh khắc: một hộp thiếc pewter bị đổ nghiêng, miệng mở, vài hạt kỷ tử vẫn đang lăn và văng ra ngoài, mỗi hạt tạo một bóng mảnh dài như kim. Bố cục thở bằng mật độ và khoảng trống — cụm vật thể dày đặc bên phải cân bằng với một mảng rộng không gian âm là mặt gỗ trần trống trải bên trái. Bảng màu ấm đơn sắc xuyên suốt — hổ phách, cam quýt, vàng đồng thau cũ — được phá vỡ bằng một nốt đỏ sẫm của atiso đỏ. Chất liệu phải chịu được phóng đại: độ mỏng giòn của cánh hoa khô, bề mặt đồng thau oxy hóa xỉn, mép giấy xơ xác, hạt bột rời. Ánh sáng tự nhiên có hướng, không phát sáng nhân tạo, bóng đổ sạch và sắc nét, tái hiện vật liệu chân thực, tiết chế và thanh nhã, ảnh tĩnh vật đồ ăn và thảo mộc chi tiết macro, chụp bằng ống kính 85mm, khung ngang rộng kiểu landscape, tỷ lệ khung hình rộng 16:9, full-bleed.

Generated with Baidu ERNIE Image Turbo on Atlas Cloud

Generated with Qwen Image 2.0 on Atlas Cloud

Generated with Baidu ERNIE Image Turbo on Atlas Cloud

Prompt

Một dải manga ngang gồm ba khung tranh kể về một cô gái tuổi teen là nhà phát minh trong xưởng gác mái bừa bộn của mình. Ở khung đầu tiên, cô phác thảo một cỗ máy bay nhỏ dưới ánh đèn ấm; ở khung thứ hai, cỗ máy phì phạch và nhấc lên giữa không trung, làm ốc vít văng tung tóe; ở khung thứ ba, cô giơ cả hai nắm tay lên, cười rạng rỡ trong chiến thắng. Bong bóng thoại song ngữ rõ ràng chứa chữ tiếng Anh và tiếng Nhật sắc nét, được vẽ bằng nét mực tự tin và đổ bóng screentone, ánh đèn hổ phách ấm cân bằng với bóng mát lạnh của xưởng. Thiết kế nhân vật nhất quán xuyên suốt cả ba khung, cử chỉ giàu biểu cảm, và câu chuyện được đọc từ trái sang phải với dòng diễn tiến tuần tự rõ ràng. Phong cách minh họa anime cel-shaded rực rỡ với đường viền đậm, sạch. Tỷ lệ khung hình rộng 16:9, full-bleed.

Generated with Baidu ERNIE Image Turbo on Atlas Cloud

Generated with Qwen Image 2.0 on Atlas Cloud

Generated with Baidu ERNIE Image Turbo on Atlas Cloud

Công việc sản xuất thực tế mà ERNIE Image API xử lý

Từ poster có chữ chính xác và truyện tranh nhiều khung đến chiến dịch song ngữ, danh mục sản phẩm, mockup giao diện và infographic có nhãn, ERNIE Image API biến các prompt chính xác thành hình ảnh đúng bố cục trong mọi quy trình nội dung.

Sản xuất marketing và poster với ERNIE Image API

Tiêu đề, giá bán và nội dung sản phẩm dễ đọc được dựng trực tiếp vào poster và banner chiến dịch nhờ độ chính xác văn bản hàng đầu của mô hình. Đội ngũ marketing có thể xuất bản tài nguyên sẵn sàng để in ngay, không cần bước dàn chữ riêng.

Truyện tranh và kể chuyện theo trình tự

Vì mô hình hiểu bố cục dạng lưới và cấu trúc nhiều khung, nó có thể tạo các trang truyện tranh mạch lạc với lời thoại đặt trong bong bóng thoại. Nhà sáng tạo độc lập và studio có thể phác thảo storyboard hoàn chỉnh mà không phải vẽ lại từng khung bằng tay.

Bản địa hóa chiến dịch song ngữ với ERNIE Image API

Hỗ trợ prompt tiếng Anh và tiếng Trung nguyên bản giúp một quy trình duy nhất tạo ra hình ảnh đúng nhận diện thương hiệu cho cả hai thị trường, với văn bản được hiển thị chính xác theo từng hệ chữ. Các đội ngũ toàn cầu có thể bản địa hóa nội dung sáng tạo mà không cần thuê các quy trình thiết kế riêng cho từng ngôn ngữ.

Hình ảnh sản phẩm thương mại điện tử ở quy mô lớn

Tạo cảnh phong cách sống, mockup sản phẩm và hình ảnh quảng bá cho toàn bộ danh mục chỉ bằng một lệnh gọi API. Biến thể Turbo rút ngắn suy luận xuống còn eight steps, nên các cửa hàng có lưu lượng lớn có thể làm mới toàn bộ danh mục trong vài phút.

Mockup giao diện và sản phẩm

Cần các màn hình chân thực cho bài thuyết trình gọi vốn? Mô hình dựng giao diện ứng dụng và mockup website với nhãn, nút và phần nội dung dễ đọc, giúp đội ngũ sản phẩm có prototype sẵn sàng trình bày trước khi xây dựng bất kỳ component nào.

Infographic giáo dục với ERNIE Image API

Khả năng tuân thủ hướng dẫn mạnh mẽ kết hợp hình ảnh với sơ đồ, biểu đồ và chú thích được gắn nhãn rõ ràng trong một lần tạo duy nhất. Nhà giáo dục và nhà phân tích có thể biến tài liệu nguồn dày đặc thành đồ họa giải thích vẫn dễ đọc ở mọi kích thước hiển thị.

ERNIE Image Measured Against Rival Text-to-Image Models

See where ERNIE Image lands next to other open and proprietary generators across developer origin, access model, bilingual text rendering, and per-image cost.

Model	Developer	Access Model	Bilingual Text Rendering (EN + ZH)	Price (per image)
ERNIE-Image	Baidu (ERNIE-Image Team)	Open weights, Apache 2.0	Industry-leading, LongTextBench 0.9733	Pay-as-you-go
ERNIE-Image Turbo	Baidu (ERNIE-Image Team)	Open weights, Apache 2.0	Retained through DMD-distilled 8-step inference	Pay-as-you-go
Qwen Image 2.0	Alibaba (Tongyi)	Open weights, Apache 2.0	Strong across 1K-token typography layouts	$0.035
Z-Image Turbo	Alibaba (Tongyi Lab)	Open weights, Apache 2.0	Handles complex Chinese signage alongside English	$0.005
Seedream v4.5	ByteDance	Proprietary	Designer-level rendering at native 4K	$0.04

Cách Sử Dụng ERNIE Image API for Readable Text in Images trên Atlas Cloud

Bắt đầu trong vài phút — làm theo các bước đơn giản sau để tích hợp và triển khai mô hình qua nền tảng Atlas Cloud.

Tạo Tài Khoản Atlas Cloud

Đăng ký tại atlascloud.ai và hoàn tất xác minh. Người dùng mới nhận được tín dụng miễn phí để khám phá nền tảng và thử nghiệm mô hình.

Tại sao Sử dụng ERNIE Image API for Readable Text in Images trên Atlas Cloud

Sự kết hợp của các mô hình tiên tiến của ERNIE Image API for Readable Text in Images với nền tảng được tăng tốc GPU của Atlas Cloud mang lại hiệu suất, khả năng mở rộng và trải nghiệm nhà phát triển độc đáo.

Hiệu suất và Tính linh hoạt

Độ Trễ Thấp:
Suy luận được tối ưu hóa GPU cho suy luận thời gian thực.

API Thống nhất:
Chạy ERNIE Image API for Readable Text in Images, GPT, Gemini và DeepSeek với một tích hợp duy nhất.

Giá cả Minh bạch:
Thanh toán dựa trên token có thể dự đoán với tùy chọn serverless.

Doanh nghiệp và Mở rộng

Trải nghiệm Nhà phát triển:
SDK, phân tích, công cụ tinh chỉnh và mẫu.

Độ tin cậy:
99,99% khả dụng, RBAC và ghi nhật ký sẵn sàng cho tuân thủ.

Bảo mật và Tuân thủ:
SOC 2 Type II, tuân thủ HIPAA, chủ quyền dữ liệu tại Hoa Kỳ.

ERNIE Image API: Những câu hỏi nhà phát triển thường hỏi nhất

ERNIE Image API cho phép nhà phát triển truy cập bằng lập trình vào mô hình text-to-image open-weight của Baidu, một Diffusion Transformer single-stream 8B được kết hợp với Prompt Enhancer để mở rộng prompt ngắn thành các mô tả phong phú và có cấu trúc hơn. Trên Atlas Cloud, bạn truy cập mô hình này qua một endpoint tương thích OpenAI duy nhất, với mức giá pay-as-you-go và quyền truy cập Day-0.

Thế mạnh nổi bật của mô hình là hiển thị chữ dễ đọc ngay trong ảnh. Mô hình đạt 0.9733 trên LongTextBench bằng tiếng Anh, kết quả cao nhất trong số các mô hình open-weight, nhờ đó đáng tin cậy cho poster, bong bóng thoại truyện tranh, infographic và mockup UI, nơi mọi ký tự đều phải được viết chính xác.

Cả hai biến thể dùng chung kiến trúc 8B nhưng đánh đổi giữa chất lượng và tốc độ. Mô hình Standard chạy 50 bước suy luận với guidance scale 4.0 để đạt độ trung thực tối đa cho asset hoàn thiện, trong khi biến thể Turbo được chưng cất bằng DMD và học tăng cường xuống còn khoảng 8 bước để tạo ảnh nhanh, khối lượng lớn.

Có. Prompt được hỗ trợ bằng tiếng Anh, tiếng Trung và tiếng Nhật thông qua cùng một encoder, và văn bản vẫn ổn định trên nhiều hệ chữ, đạt 0.9661 trên Chinese LongTextBench. Trong khi một số mô hình cạnh tranh suy giảm mạnh với ký tự Trung Quốc, mô hình này vẫn giữ chữ Giản thể, Phồn thể và nội dung song ngữ pha trộn rõ ràng.

Endpoint Turbo nhận bảy kích thước preset qua một tham số size duy nhất, từ ảnh vuông 1024x1024 đến định dạng ngang 1376x768 và dọc 768x1376. Bạn cũng có thể yêu cầu tối đa mười ảnh trong mỗi lần gọi, cố định seed để tái tạo kết quả và bật/tắt Prompt Enhancer tích hợp bằng cờ use_pe.

Bạn chỉ cần một API key để bắt đầu. Đăng ký trên Atlas Cloud, trỏ client tương thích OpenAI hiện có của bạn tới endpoint, rồi gửi prompt kèm size và seed tùy chọn để nhận URL ảnh trong phản hồi. Việc tính phí theo pay-as-you-go cho mỗi lần gọi, với quyền truy cập Day-0 vào mô hình.

Trong các benchmark đã công bố, mô hình vượt trội hơn các bản phát hành mở tương đương như FLUX.2-klein-9B, đạt 0.8856 so với 0.8481 tổng thể trên GenEval. Khoảng cách lớn nhất nằm ở khả năng hiển thị chữ, nơi FLUX.2 giảm xuống 0.2183 với tiếng Trung còn ERNIE Image vẫn giữ trên 0.96. Với các workload xoay quanh chữ dễ đọc trong ảnh và bố cục có cấu trúc, đây hiện là lựa chọn open-weight mạnh nhất.

Có. ERNIE Image được phát hành theo giấy phép Apache 2.0, cho phép sử dụng thương mại, chỉnh sửa và phân phối lại. Ảnh được tạo có thể dùng trong quảng cáo, hàng hóa, ấn phẩm và các sản phẩm thương mại khác mà không gặp vướng mắc về giấy phép.

Khám phá Thêm Dòng

Seedance 2.0

Seedance 2.0 API cung cấp cho bạn quyền truy cập cấp sản xuất vào mô hình video đa phương thức của ByteDance — đầu vào bốn phương thức (văn bản, hình ảnh, video, âm thanh) và hệ thống "Universal Reference" hàng đầu trong ngành giúp khóa bố cục, chuyển động của camera và hành động của nhân vật trên các cảnh quay. Tích hợp quyền kiểm soát cấp độ đạo diễn bằng một lệnh gọi API, mức giá cố định $0,09/giây, cấp khóa tức thì và không có danh sách chờ — được hỗ trợ bởi thời gian hoạt động và sự tuân thủ cấp doanh nghiệp. Seedance 2.0 Native 4K hiện đã ra mắt!

Xem Dòng

Grok Imagine

Grok Imagine API cung cấp cho các nhà phát triển khả năng tạo hình ảnh, video và âm thanh của xAI trong một bộ công cụ duy nhất. API này tạo ra hình ảnh độ phân giải lên đến 2K với khả năng hiển thị văn bản đa ngôn ngữ, cộng với video lên đến 15 giây với âm thanh gốc, được đồng bộ hóa và chỉnh sửa dựa trên tham chiếu. Trên Atlas Cloud, một khóa duy nhất có thể chạy mọi chế độ Grok Imagine, do đó bạn có thể chuyển đổi giữa hình ảnh, video và âm thanh mà không cần thiết lập riêng biệt, với mức giá từ 0,02 USD cho mỗi hình ảnh và 0,05 USD mỗi giây.

Xem Dòng

Gemini Omni Flash

Gemini Omni API đưa mô hình tạo và chỉnh sửa video đa phương thức của Google DeepMind, được giới thiệu tại Google I/O 2026, vào stack của bạn. Gemini Omni kết hợp công cụ suy luận của Gemini với media tạo sinh, chấp nhận mọi tổ hợp văn bản, hình ảnh, video và âm thanh để tạo ra kết quả nhất quán, dựa trên nền tảng tri thức. Tinh chỉnh kết quả qua hội thoại tự nhiên — hoán đổi vật thể, viết lại cảnh quay và thay đổi phong cách, trong khi vật lý, nhân vật và tính liên tục vẫn được giữ nguyên. Atlas Cloud cung cấp trọn bộ dòng Gemini Omni Flash — chuyển văn bản thành video, chuyển hình ảnh thành video với tối đa 7 hình ảnh tham chiếu, và chuyển tham chiếu thành video — thông qua một API hợp nhất với mức giá minh bạch tính theo giây từ $0.112 và không cần đăng ký thuê bao. Bắt đầu xây dựng ngay hôm nay.

Xem Dòng

GPT Image 2

GPT Image 2 API cung cấp cho các nhà phát triển quyền truy cập vào mô hình hình ảnh mới nhất của OpenAI, phiên bản kế nhiệm của GPT Image 1.5. Mô hình này tạo và chỉnh sửa hình ảnh với khả năng hiển thị văn bản chính xác trên các chữ viết Latinh và CJK, cùng với bố cục mạnh mẽ cho áp phích, mockup và đồ họa thông tin. Trên Atlas Cloud, bạn có thể truy cập nó thông qua một API thống nhất cùng với hơn 300 mô hình khác, với tín dụng miễn phí, 99,99% thời gian hoạt động và không yêu cầu xác minh tổ chức OpenAI.

Xem Dòng

Google

Các mô hình sáng tạo mạnh mẽ nhất của Google hiện đều có sẵn trên Atlas Cloud. Veo 3.1 cung cấp khả năng tạo video đậm chất điện ảnh, Nano Banana 2 hỗ trợ tạo hình ảnh có độ chân thực cao, và Gemini mang trí tuệ đa phương thức vào mọi quy trình làm việc. Truy cập toàn bộ bộ mô hình Google thông qua một API key duy nhất với tính khả dụng Day-0 và mức giá dùng bao nhiêu trả bấy nhiêu (pay-as-you-go).

Xem Dòng

Seedance 2.0 Mini

Seedance 2.0 Mini mang khả năng tạo video đa phương thức của ByteDance vào các quy trình làm việc nơi tốc độ và chi phí là quan trọng nhất. Nó cung cấp các khả năng cốt lõi của Seedance 2.0 với mức tiêu thụ tài nguyên nhẹ hơn — tạo nhanh hơn, chi phí mỗi video thấp hơn và tích hợp API giống như bạn đã sử dụng. Đối với các nhóm chạy các quy trình (pipeline) khối lượng lớn hoặc tạo nguyên mẫu ở quy mô lớn, Mini là lựa chọn mặc định thiết thực.

Xem Dòng

ByteDance

Từ tạo video điện ảnh đến kiến tạo hình ảnh có độ trung thực cao, các mô hình mạnh mẽ nhất của ByteDance hiện đã có mặt trên Atlas Cloud. Chạy Seedance và Seedream ở quy mô lớn với mức giá suy luận thấp nhất và không có chi phí quản lý cơ sở hạ tầng.

Xem Dòng

Alibaba

Atlas Cloud tập hợp toàn bộ dòng mô hình của Alibaba dưới một API duy nhất: Qwen cho các tác vụ ngôn ngữ và hình ảnh, Wan để tạo video với độ phân giải lên đến 1080p. Truy cập mọi mô hình theo hình thức dùng đến đâu trả tiền đến đó (pay-as-you-go) mà không cần đăng ký gói. Alibaba API có sẵn thông qua một URL cơ sở (base URL) duy nhất bằng cách sử dụng ứng dụng khách tương thích với OpenAI hiện có của bạn.

Xem Dòng

OpenAI

Atlas Cloud cấp cho bạn quyền truy cập vào toàn bộ danh mục OpenAI API, từ GPT Image 2 để tạo hình ảnh đến Sora 2 cho video. Mọi mô hình đều có sẵn theo hình thức dùng đến đâu trả tiền đến đó (pay-as-you-go) mà không cần cam kết hàng tháng. Tích hợp dễ dàng chỉ bằng cách thay đổi một base URL thông qua API tương thích với OpenAI.

Xem Dòng

xAI

Xây dựng các pipeline hình ảnh và video hoàn chỉnh bằng xAI API trên Atlas Cloud. Tạo ở độ phân giải 2K, chỉnh sửa bằng hình ảnh tham chiếu và tạo hoạt ảnh từ hình ảnh thành các clip đồng bộ với âm thanh.

Xem Dòng

Kwaivgi

Kwaivgi API với mức giá thấp hơn 15% so với giá tiêu chuẩn. Atlas Cloud cung cấp quyền truy cập Day-0 cho các bản phát hành Kling mới với mức giá dùng trả theo mức sử dụng (pay-as-you-go) và không giới hạn số lượng người dùng. Một tài khoản, một khóa, mọi mô hình Kling từ cấp tiêu chuẩn đến cấp master.

Xem Dòng

Seedream 5.0 Pro

Seedream 5.0 Pro API cung cấp cho các nhà phát triển mô hình chỉnh sửa hình ảnh có thể kiểm soát của ByteDance trên Atlas Cloud. Nó đặt các chỉnh sửa một cách chính xác bằng các điểm neo và tọa độ, tách hình ảnh thành các lớp có thể chỉnh sửa, kết hợp nhiều tham chiếu và khớp màu sắc cũng như vật liệu chính xác, với văn bản đa ngôn ngữ ở độ phân giải 2K và 3K. Trên Atlas Cloud, bạn có thể truy cập nó chỉ bằng một khóa!

Xem Dòng

Một API cho mọi AI đa phương tiện.

Khám phá tất cả mô hình

ERNIE Image API for Readable Text in Images

Khám phá Mô hình Hàng đầu

Baidu ERNIE Image Turbo Text-to-image

So sánh các endpoint ERNIE Image API: Text-to-Image Standard và Turbo

Được xây dựng cho văn bản, bố cục và khả năng kiểm soát: ERNIE Image API

Kết xuất văn bản dễ đọc với ERNIE Image API

Bố cục nhiều khung có cấu trúc

Prompting song ngữ trong ERNIE Image API

Prompt Enhancer được bật theo mặc định

Bảy kích thước đầu ra native

ERNIE Image API trong chế độ Turbo

ERNIE Image Đối Đầu Trực Diện: Một Prompt, Ba Model

Công việc sản xuất thực tế mà ERNIE Image API xử lý

Sản xuất marketing và poster với ERNIE Image API

Truyện tranh và kể chuyện theo trình tự

Bản địa hóa chiến dịch song ngữ với ERNIE Image API

Hình ảnh sản phẩm thương mại điện tử ở quy mô lớn

Mockup giao diện và sản phẩm

Infographic giáo dục với ERNIE Image API

ERNIE Image Measured Against Rival Text-to-Image Models

Cách Sử Dụng ERNIE Image API for Readable Text in Images trên Atlas Cloud

Tạo Tài Khoản Atlas Cloud

Tại sao Sử dụng ERNIE Image API for Readable Text in Images trên Atlas Cloud

Hiệu suất và Tính linh hoạt

Doanh nghiệp và Mở rộng

ERNIE Image API: Những câu hỏi nhà phát triển thường hỏi nhất

Khám phá Thêm Dòng

Seedance 2.0

Grok Imagine

Gemini Omni Flash

GPT Image 2

Google

Seedance 2.0 Mini

ByteDance

Alibaba

OpenAI

xAI

Kwaivgi

Seedream 5.0 Pro

Một API cho mọi AI đa phương tiện.

Join our Discord community