ShengShu Models on AtlasCloud | Vidu

Xây dựng quy trình sản xuất video trên Shengshu API: Chỉ với một lần gọi, Vidu Q3 tạo ra các đoạn phim điện ảnh dài 16 giây với âm thanh gốc và chuyển cảnh camera thông minh.

AI Video Models by ShengShu

Tạo video điện ảnh độ trung thực cao từ văn bản và hình ảnh với các mô hình AI tạo video mới nhất trên Atlas Cloud.

Vidu

API Vidu cung cấp cho các nhà phát triển quyền truy cập vào các mô hình video từ Shengshu AI và Đại học Tsinghua, được xây dựng trên kiến trúc U-ViT kết hợp thiết kế Diffusion và Transformer. Nhập từ một đến bốn hình ảnh tham khảo và Vidu duy trì tính nhất quán của đối tượng trên tất cả các cảnh quay, với chuyển đổi camera thông minh và chuyển động mượt mà, điện ảnh. Atlas Cloud thêm quyền truy cập mô hình Day-0 và một khóa tương thích OpenAI cho toàn bộ dòng sản phẩm. Bắt đầu xây dựng hôm nay.

25 mô hìnhKhám phá Vidu

ShengShu Models API Pricing Details

Compare standard vs. our pricing across every ShengShu model.

Model	Standard Price (USD)	Our Price (USD)	Discount
Vidu Q3-Mix Reference to Video	$0.125	Start from$0.106/s video	-15%	View
Vidu Q3 Reference to Video	$0.05	Start from$0.042/s video	-15%	View
Vidu Q3-Pro Start-end-to-video	$0.05	Start from$0.042/s video	-15%	View
Vidu Q3-Turbo Image-to-video	$0.04	Start from$0.034/s video	-15%	View
Vidu Q3-Turbo Start-end-to-video	$0.04	Start from$0.034/s video	-15%	View
Vidu Q3-Turbo Text-to-video	$0.04	Start from$0.034/s video	-15%	View

Explore models from other providers

Instantly explore and experiment with 400+ production-ready models in the Atlas Playground. Start customizing with one click.

xAI

Các trường hợp sử dụng API ShengShu mà bạn có thể xây dựng trên Atlas Cloud

Các video ngắn 16 giây, âm thanh gốc và tính nhất quán đa tham chiếu của Vidu Q3 làm cho quy trình làm việc trở nên thiết thực đối với những công việc trước đây từng đòi hỏi một đội ngũ sản xuất. Các nhóm sử dụng các cấp độ Q3 khác nhau để chuyển từ bước lặp lại nhanh chóng sang các tài sản hoàn thiện mà không cần đổi nhà cung cấp.

Loạt Phim Hoạt Hình Với Nhân Vật Nhất Quán

Các studio và nhà sáng tạo độc lập sử dụng Vidu Q3-Mix để tạo ra nội dung hoạt hình nhiều tập, trong đó các nhân vật trông giống hệt nhau trong mọi cảnh. Bằng cách tải lên các bảng tham chiếu nhân vật, mỗi đoạn phim mới sẽ thừa hưởng các đặc điểm khuôn mặt, trang phục và phong cách hình ảnh tương tự mà không cần phải làm việc thủ công để đảm bảo tính nhất quán của từng khung hình. Shengshu đã trình diễn quy trình làm việc này tại SXSW 2026 với tư cách là giải pháp AI đầu tiên cho việc sản xuất phim hoạt hình dài tập.

Nội dung Avatar thương hiệu và Linh vật ở quy mô lớn

Các nhóm tiếp thị tải lên hình ảnh tham chiếu của nhân vật thương hiệu một lần và sử dụng Vidu Q3 Reference-to-Video để tạo hàng chục clip ngắn cho TikTok, Reels và YouTube Shorts. Nhân vật giữ nguyên đặc điểm hình ảnh trên mọi kết quả đầu ra, loại bỏ nút thắt trong thiết kế khi phải tóm tắt và phê duyệt riêng lẻ từng tài nguyên. Với mức giá 0,042 đô la mỗi giây trên Atlas Cloud, một lô đầy đủ các clip 10 giây có giá chưa đến một đô la cho mỗi clip.

Video tiếp thị sản phẩm đa góc độ

Các nhóm thương mại điện tử cung cấp hình ảnh sản phẩm từ nhiều góc độ làm dữ liệu đầu vào tham chiếu và tạo ra các đoạn phim tiếp thị điện ảnh hiển thị sản phẩm chuyển động cùng với âm thanh môi trường nguyên bản. Đầu ra được cung cấp kèm theo âm thanh đồng bộ trong cùng một lần gọi, sẵn sàng cho các quảng cáo và trang sản phẩm mà không cần quay video hay chỉnh sửa âm thanh. Tính năng kiểm soát khung hình bắt đầu và kết thúc cho phép các nhóm chỉ đạo chính xác cách sản phẩm được hiển thị qua từng đoạn phim.

Tạo Cảnh Định Hướng Cho Giai Đoạn Tiền Kỳ Điện Ảnh

Các đạo diễn sử dụng tính năng điều khiển máy ảnh của Vidu Q3-Pro để tạo các clip tiền trực quan hóa với các chuyển động được chỉ định — đẩy vào chủ thể, lia máy ngang qua bối cảnh, các cảnh quay theo dõi nhân vật. Đầu ra 16 giây gốc có nghĩa là có thể tiền trực quan hóa toàn bộ một cảnh ngắn chỉ trong một lần gọi. Điều này thay thế cho công việc vẽ kịch bản phân cảnh ở giai đoạn đầu bằng tài liệu tham khảo chính xác về chuyển động cho dàn diễn viên và đoàn làm phim.

Luồng nội dung xã hội khối lượng lớn

Các nhóm phát triển sử dụng Vidu Q3-Turbo để chạy các đường ống tạo hàng loạt với mức phí 0,034 đô la mỗi giây, sản xuất hàng chục video ngắn từ đầu vào văn bản hoặc hình ảnh mỗi giờ. Chi phí mỗi giây thấp hơn khiến việc tạo và thử nghiệm nhiều biến thể sáng tạo trở nên thiết thực trước khi chọn biến thể nào để mở rộng quy mô với Q3-Pro. Cả hai mô hình đều chạy dưới cùng một khóa API Atlas Cloud chỉ với một thay đổi tham số duy nhất giữa các cấp độ.

Du lịch Văn hóa và Nội dung Điểm đến

Các tổng cục du lịch và nền tảng du lịch sử dụng công cụ chuyển văn bản thành video Vidu Q3-Pro để tạo các đoạn phim điểm đến đầy không khí với âm thanh môi trường tự nhiên từ các lời nhắc văn bản mô tả. Một mô tả cảnh bằng văn bản về một cảnh quan, địa danh hoặc bối cảnh văn hóa sẽ tạo ra một đoạn phim điện ảnh dài 16 giây với âm thanh phù hợp chỉ trong một lệnh gọi API. Điều này mang lại một giải pháp thay thế tiết kiệm chi phí cho việc quay phim tại địa điểm đối với nội dung thúc đẩy ý định đặt phòng.

Biến tầm nhìn doanh nghiệp của bạn thành hiện thực với Atlas Cloud AI.

Liên hệ kinh doanh

Các câu hỏi thường gặp về các mô hình ShengShu

Vidu Q3 tạo ra video liên tục lên đến 16 giây chỉ trong một lần gọi API duy nhất ở độ phân giải 1080p và 24fps. Đây là cửa sổ tạo video một lần (single-pass) dài nhất trong số các mô hình video hàng đầu cùng phân khúc. Thời lượng video có thể được định cấu hình cho mỗi lần gọi trong phạm vi tối đa đó.

Có. Vidu Q3 tạo ra lời thoại, hiệu ứng âm thanh, nhạc nền và đồng bộ khẩu hình cùng lúc với các khung hình video chỉ trong một quá trình suy luận duy nhất. Không có bước lồng tiếng hậu kỳ hoặc căn chỉnh âm thanh thủ công. Thời gian âm thanh và hành động trên màn hình được đồng bộ hóa tự động.

Bạn có thể mô tả trực tiếp chuyển động của camera trong prompt văn bản — push-in, pan, tracking shot — và mô hình sẽ thực hiện chúng ngay từ khung hình đầu tiên. Không cần thêm tham số hay lớp điều khiển riêng biệt. Điều này áp dụng cho cả endpoint text-to-video và image-to-video trên Atlas Cloud.

Vidu Q3-Pro mang đến chất lượng đầu ra chuẩn điện ảnh với chuyển động mượt mà và chi tiết phong phú, có giá 0,042 USD mỗi giây trên Atlas Cloud. Vidu Q3-Turbo tạo với tốc độ cao hơn cùng chi phí mỗi giây thấp hơn là 0,034 USD, rất phù hợp cho các bản nháp và lặp lại nhanh chóng. Cả hai đều có chung độ phân giải đầu ra 1080p và hỗ trợ âm thanh gốc.

Điểm cuối Reference-to-Video của Vidu Q3 chấp nhận từ 1 đến 4 hình ảnh tham chiếu cho mỗi lần gọi. Bạn có thể kết hợp các chủ thể, môi trường, trang phục và phong cách hình ảnh từ các hình ảnh khác nhau trong một lần tạo. Đây là cách chính để duy trì tính nhất quán của nhân vật và cảnh quay qua nhiều clip.

Vidu Q3-Mix là mô hình tham chiếu cấp cao nhất trong dòng sản phẩm Vidu Q3, có giá 0,106 USD mỗi giây trên Atlas Cloud. Mô hình này mang lại tính nhất quán đa chủ thể mạnh mẽ nhất khi kết hợp nhiều hình ảnh tham chiếu trong một lần tạo. Nó được thiết kế cho các quy trình làm việc như sản xuất phim hoạt hình dài tập và nội dung có thương hiệu, nơi đặc điểm nhận dạng của nhân vật phải được giữ nguyên về mặt hình ảnh trên nhiều đoạn clip.

Có. Cả Vidu Q3-Pro và Q3-Turbo đều có endpoint Start-end-to-video trên Atlas Cloud. Bạn cung cấp hình ảnh khung hình bắt đầu và mô tả chuyển động hoặc trạng thái kết thúc mong muốn, sau đó mô hình sẽ tạo ra sự chuyển tiếp. Điều này mang lại khả năng kiểm soát đạo diễn chính xác về cách mỗi cảnh quay mở đầu và kết thúc.

Vidu Q3-Turbo bắt đầu từ 0,034 USD mỗi giây. Vidu Q3-Pro và endpoint Reference-to-Video có giá 0,042 USD mỗi giây. Vidu Q3-Mix, mô hình tham chiếu có tính nhất quán cao nhất, có giá 0,106 USD mỗi giây. Tất cả các cấp độ đều có giá thấp hơn 15% so với mức giá tiêu chuẩn của Shengshu API và có sẵn theo hình thức thanh toán theo mức sử dụng (pay-as-you-go).

Khám phá Thêm Dòng

Seedance 2.0

Seedance 2.0 API cung cấp cho bạn quyền truy cập cấp sản xuất vào mô hình video đa phương thức của ByteDance — đầu vào bốn phương thức (văn bản, hình ảnh, video, âm thanh) và hệ thống "Universal Reference" hàng đầu trong ngành giúp khóa bố cục, chuyển động của camera và hành động của nhân vật trên các cảnh quay. Tích hợp quyền kiểm soát cấp độ đạo diễn bằng một lệnh gọi API, mức giá cố định $0,09/giây, cấp khóa tức thì và không có danh sách chờ — được hỗ trợ bởi thời gian hoạt động và sự tuân thủ cấp doanh nghiệp. Seedance 2.0 Native 4K hiện đã ra mắt!

Xem Dòng

Grok Imagine

Grok Imagine API cung cấp cho các nhà phát triển khả năng tạo hình ảnh, video và âm thanh của xAI trong một bộ công cụ duy nhất. API này tạo ra hình ảnh độ phân giải lên đến 2K với khả năng hiển thị văn bản đa ngôn ngữ, cộng với video lên đến 15 giây với âm thanh gốc, được đồng bộ hóa và chỉnh sửa dựa trên tham chiếu. Trên Atlas Cloud, một khóa duy nhất có thể chạy mọi chế độ Grok Imagine, do đó bạn có thể chuyển đổi giữa hình ảnh, video và âm thanh mà không cần thiết lập riêng biệt, với mức giá từ 0,02 USD cho mỗi hình ảnh và 0,05 USD mỗi giây.

Xem Dòng

Gemini Omni Flash

Gemini Omni API đưa mô hình tạo và chỉnh sửa video đa phương thức của Google DeepMind, được giới thiệu tại Google I/O 2026, vào stack của bạn. Gemini Omni kết hợp công cụ suy luận của Gemini với media tạo sinh, chấp nhận mọi tổ hợp văn bản, hình ảnh, video và âm thanh để tạo ra kết quả nhất quán, dựa trên nền tảng tri thức. Tinh chỉnh kết quả qua hội thoại tự nhiên — hoán đổi vật thể, viết lại cảnh quay và thay đổi phong cách, trong khi vật lý, nhân vật và tính liên tục vẫn được giữ nguyên. Atlas Cloud cung cấp trọn bộ dòng Gemini Omni Flash — chuyển văn bản thành video, chuyển hình ảnh thành video với tối đa 7 hình ảnh tham chiếu, và chuyển tham chiếu thành video — thông qua một API hợp nhất với mức giá minh bạch tính theo giây từ $0.112 và không cần đăng ký thuê bao. Bắt đầu xây dựng ngay hôm nay.

Xem Dòng

GPT Image 2

GPT Image 2 API cung cấp cho các nhà phát triển quyền truy cập vào mô hình hình ảnh mới nhất của OpenAI, phiên bản kế nhiệm của GPT Image 1.5. Mô hình này tạo và chỉnh sửa hình ảnh với khả năng hiển thị văn bản chính xác trên các chữ viết Latinh và CJK, cùng với bố cục mạnh mẽ cho áp phích, mockup và đồ họa thông tin. Trên Atlas Cloud, bạn có thể truy cập nó thông qua một API thống nhất cùng với hơn 300 mô hình khác, với tín dụng miễn phí, 99,99% thời gian hoạt động và không yêu cầu xác minh tổ chức OpenAI.

Xem Dòng

Google

Các mô hình sáng tạo mạnh mẽ nhất của Google hiện đều có sẵn trên Atlas Cloud. Veo 3.1 cung cấp khả năng tạo video đậm chất điện ảnh, Nano Banana 2 hỗ trợ tạo hình ảnh có độ chân thực cao, và Gemini mang trí tuệ đa phương thức vào mọi quy trình làm việc. Truy cập toàn bộ bộ mô hình Google thông qua một API key duy nhất với tính khả dụng Day-0 và mức giá dùng bao nhiêu trả bấy nhiêu (pay-as-you-go).

Xem Dòng

Seedance 2.0 Mini

Seedance 2.0 Mini mang khả năng tạo video đa phương thức của ByteDance vào các quy trình làm việc nơi tốc độ và chi phí là quan trọng nhất. Nó cung cấp các khả năng cốt lõi của Seedance 2.0 với mức tiêu thụ tài nguyên nhẹ hơn — tạo nhanh hơn, chi phí mỗi video thấp hơn và tích hợp API giống như bạn đã sử dụng. Đối với các nhóm chạy các quy trình (pipeline) khối lượng lớn hoặc tạo nguyên mẫu ở quy mô lớn, Mini là lựa chọn mặc định thiết thực.

Xem Dòng

ByteDance

Từ tạo video điện ảnh đến kiến tạo hình ảnh có độ trung thực cao, các mô hình mạnh mẽ nhất của ByteDance hiện đã có mặt trên Atlas Cloud. Chạy Seedance và Seedream ở quy mô lớn với mức giá suy luận thấp nhất và không có chi phí quản lý cơ sở hạ tầng.

Xem Dòng

Alibaba

Atlas Cloud tập hợp toàn bộ dòng mô hình của Alibaba dưới một API duy nhất: Qwen cho các tác vụ ngôn ngữ và hình ảnh, Wan để tạo video với độ phân giải lên đến 1080p. Truy cập mọi mô hình theo hình thức dùng đến đâu trả tiền đến đó (pay-as-you-go) mà không cần đăng ký gói. Alibaba API có sẵn thông qua một URL cơ sở (base URL) duy nhất bằng cách sử dụng ứng dụng khách tương thích với OpenAI hiện có của bạn.

Xem Dòng

OpenAI

Atlas Cloud cấp cho bạn quyền truy cập vào toàn bộ danh mục OpenAI API, từ GPT Image 2 để tạo hình ảnh đến Sora 2 cho video. Mọi mô hình đều có sẵn theo hình thức dùng đến đâu trả tiền đến đó (pay-as-you-go) mà không cần cam kết hàng tháng. Tích hợp dễ dàng chỉ bằng cách thay đổi một base URL thông qua API tương thích với OpenAI.

Xem Dòng

xAI

Xây dựng các pipeline hình ảnh và video hoàn chỉnh bằng xAI API trên Atlas Cloud. Tạo ở độ phân giải 2K, chỉnh sửa bằng hình ảnh tham chiếu và tạo hoạt ảnh từ hình ảnh thành các clip đồng bộ với âm thanh.

Xem Dòng

Kwaivgi

Kwaivgi API với mức giá thấp hơn 15% so với giá tiêu chuẩn. Atlas Cloud cung cấp quyền truy cập Day-0 cho các bản phát hành Kling mới với mức giá dùng trả theo mức sử dụng (pay-as-you-go) và không giới hạn số lượng người dùng. Một tài khoản, một khóa, mọi mô hình Kling từ cấp tiêu chuẩn đến cấp master.

Xem Dòng

Seedream 5.0 Pro

Seedream 5.0 Pro API cung cấp cho các nhà phát triển mô hình chỉnh sửa hình ảnh có thể kiểm soát của ByteDance trên Atlas Cloud. Nó đặt các chỉnh sửa một cách chính xác bằng các điểm neo và tọa độ, tách hình ảnh thành các lớp có thể chỉnh sửa, kết hợp nhiều tham chiếu và khớp màu sắc cũng như vật liệu chính xác, với văn bản đa ngôn ngữ ở độ phân giải 2K và 3K. Trên Atlas Cloud, bạn có thể truy cập nó chỉ bằng một khóa!

Xem Dòng