
Atlas Cloud lưu trữ ERNIE Image và ERNIE Image Turbo dưới dạng Baidu API, cả hai đều thanh toán theo mức sử dụng. Mỗi mô hình đều dẫn đầu mã nguồn mở về kết xuất văn bản bằng tiếng Anh và tiếng Trung.
Tạo ra những hình ảnh ấn tượng, sẵn sàng cho sản xuất từ prompt và ảnh tham chiếu bằng các mô hình AI tạo ảnh tiên tiến nhất trên Atlas Cloud.
Compare standard vs. our pricing across every Baidu model.
| Model | Standard Price (USD) | Our Price (USD) | Discount | |
|---|---|---|---|---|
| Baidu ERNIE Image Turbo Text-to-image | — | Start fromFree | — | View |
Instantly explore and experiment with 300+ production-ready models in the Atlas Playground. Start customizing with one click.
ERNIE Image được xây dựng cho các quy trình làm việc nơi văn bản phải hiển thị rõ ràng và có thể đọc được bên trong hình ảnh được tạo ra. Các nhóm sử dụng nó để sản xuất tài sản song ngữ, bố cục có cấu trúc và nội dung sáng tạo nhiều văn bản ở quy mô lớn mà không cần đến nhóm thiết kế.
Các nhóm tiếp thị sử dụng ERNIE Image để tạo áp phích chiến dịch với văn bản tiếng Anh và tiếng Trung rõ ràng chỉ trong một lệnh gọi API duy nhất, nhắm mục tiêu đến cả hai thị trường từ cùng một cấu trúc prompt. Mô hình kết xuất cả hai ngôn ngữ với độ chính xác trên 0,96, do đó, tiêu đề và nội dung sao chép luôn rõ nét mà không cần chỉnh sửa hậu kỳ. Mức giá thanh toán theo mức sử dụng của Atlas Cloud giúp việc tạo hàng tá biến thể cho mỗi chiến dịch trở nên thiết thực mà không tốn chi phí thiết kế cho từng nội dung.
Các thương hiệu tiến vào thị trường Trung Quốc sử dụng ERNIE Image để tạo các bản mô phỏng nhãn sản phẩm và bao bì với văn bản song ngữ chính xác trước khi cam kết sản xuất in ấn. Mô hình này xử lý chữ Hán giản thể, chữ Hán phồn thể và tiếng Anh trong cùng một bố cục, bao gồm cả văn bản nhỏ trên nhãn và danh sách thành phần. Ở độ phân giải đầu ra 1024×1024, các bản mô phỏng đạt chất lượng sản xuất đủ để sử dụng trong quá trình phê duyệt của khách hàng và nộp hồ sơ quy định.
Các nhà xuất bản và studio nội dung sử dụng ERNIE Image để tạo các khung truyện tranh với bong bóng thoại, hộp chú thích và văn bản khung hình chính xác bằng tiếng Trung hoặc tiếng Anh. Mô hình đạt điểm trên 0,96 trên LongTextBench dành riêng cho loại đầu ra văn bản trong hình ảnh có cấu trúc này. ERNIE Image Turbo trên Atlas Cloud là miễn phí, giúp cho việc phác thảo khung hình số lượng lớn không tốn phí trong giai đoạn lặp lại.
Các nhóm dữ liệu xây dựng các pipeline chuyển đổi dữ liệu có cấu trúc thành hình ảnh đồ họa thông tin có gắn nhãn bằng cách sử dụng độ chính xác trong việc kết xuất văn bản của ERNIE Image. Nhãn biểu đồ, hộp chú thích và tiêu đề phần được kết xuất chính xác bằng cả hai ngôn ngữ chỉ từ một prompt duy nhất, loại bỏ bước thiết kế thủ công giữa đầu ra dữ liệu và hình ảnh trực quan. Prompt Enhancer tích hợp sẽ tự động viết lại các mô tả dữ liệu ngắn gọn thành các hướng dẫn bố cục chi tiết.
Các nhóm tiếp thị hiệu suất tạo ra các nội dung quảng cáo được bản địa hóa cho thị trường nói tiếng Trung và tiếng Anh từ cùng một bản tóm tắt chiến dịch, sử dụng khả năng hỗ trợ song ngữ của ERNIE Image để tạo ra cả hai biến thể ngôn ngữ trong một quy trình duy nhất. Mỗi sản phẩm sáng tạo đều đi kèm với văn bản trong hình ảnh chính xác, loại bỏ nhu cầu chỉnh sửa hoặc sắp chữ lại các hình ảnh đã tạo. Bậc Turbo miễn phí trên Atlas Cloud giúp giữ chi phí thử nghiệm ở mức 0 trong khi các nhóm đánh giá xem nên mở rộng quy mô biến thể sáng tạo nào.
Các nhóm sản phẩm và thiết kế sử dụng ERNIE Image để tạo ảnh chụp màn hình mockup UI với văn bản giữ chỗ chân thực, được hiển thị chính xác bằng tiếng Anh hoặc tiếng Trung. Mô hình xử lý các nhãn nút, văn bản điều hướng, trường biểu mẫu và văn bản hộp thoại với độ trung thực cao, giúp các mockup có thể sử dụng ngay trong các bài thuyết trình mà không cần chỉnh sửa thủ công các lớp văn bản. Điều này rút ngắn thời gian từ khái niệm wireframe đến hình ảnh hoàn thiện sẵn sàng cho các bên liên quan từ vài giờ xuống còn vài phút.
ERNIE Image đạt điểm trên 0,96 trên LongTextBench cho việc kết xuất văn bản tiếng Trung, mức cao nhất trong số các mô hình chuyển văn bản thành hình ảnh có trọng số mở (open-weight). Hầu hết các mô hình mã nguồn mở cạnh tranh đều đạt điểm dưới 0,3 trong các tình huống văn bản tiếng Trung, khiến chúng trở nên không đáng tin cậy đối với bất kỳ quy trình làm việc nào yêu cầu tiếng Trung dễ đọc bên trong các hình ảnh được tạo ra. ERNIE Image là sự lựa chọn thiết thực nếu văn bản tiếng Trung chính xác trong đầu ra là một yêu cầu bắt buộc.
Có. ERNIE Image xử lý cả hai loại văn bản trong một lệnh gọi tạo duy nhất, duy trì độ chính xác cao cho từng loại một cách độc lập. Điều này rất hữu ích cho các áp phích song ngữ, bao bì và tài liệu tiếp thị cần cả hai ngôn ngữ có thể đọc được trong cùng một bố cục. Điểm số LongTextBench cho cả tiếng Anh và tiếng Trung đều ở mức trên 0,96.
ERNIE Image bao gồm một Prompt Enhancer hạng nhẹ giúp tự động viết lại các prompt đầu vào ngắn thành các mô tả phong phú và có cấu trúc hơn trước khi chuyển chúng đến mô hình khuếch tán (diffusion model). Điều này có nghĩa là bạn có thể gửi các prompt ngắn gọn và nhận được kết quả đầu ra chi tiết, chính xác hơn mà không cần đến kỹ thuật prompt engineering chuyên sâu. Prompt Enhancer chạy như một phần của quy trình tạo trên mỗi lệnh gọi API.
ERNIE Image Turbo sử dụng DMD (Diffusion Model Distillation) và học tăng cường để nén quá trình suy luận từ 50 bước xuống còn 8 bước, mang lại tốc độ cải thiện hơn 6 lần. Turbo được cung cấp miễn phí trên Atlas Cloud và phù hợp cho việc lặp lại nhanh chóng cũng như tạo bản nháp. Mô hình tiêu chuẩn hoạt động ở chất lượng tối đa cho các tài sản sản xuất cuối cùng như áp phích thương mại và đồ họa biên tập.
Có. ERNIE Image được phát hành theo giấy phép Apache 2.0, cho phép sử dụng thương mại, sửa đổi và phân phối. Các hình ảnh được tạo ra có thể được sử dụng trong quảng cáo, bao bì, ấn phẩm và các ứng dụng thương mại khác. Vui lòng xem toàn bộ điều khoản giấy phép tại kho lưu trữ GitHub của ERNIE Image để biết các điều kiện cụ thể.
Hướng dẫn, bài hướng dẫn và cập nhật sản phẩm giúp bạn khai thác tối đa Atlas Cloud.
Join the Discord community for the latest model updates, prompts, and support.