Grok Imagine API for xAI Image, Video, and Audio

Grok Imagine API 為開發者提供 xAI 的圖像、影片和音訊生成一站式套件。它可以生成解析度高達 2K 且支援多語言文本渲染的圖像，以及長達 15 秒且帶有原生同步音訊和基於參考圖像編輯功能的影片。在 Atlas Cloud 上，只需一個金鑰即可執行每個 Grok Imagine 模式，因此您可以在圖像、影片和音訊之間無縫切換，無需單獨設定，每張圖像 0.02 美元起，每秒 0.05 美元起。

探索領先模型

Atlas Cloud 為您提供最新的行業領先創意模型。

NEW

文字轉音訊

xAI TTS v1

xAI TTS v1 is a high-fidelity text-to-speech model that converts text into natural, expressive speech with sub-second latency, supporting 20 languages and 80+ voices with fine-grained delivery control.

Grok Imagine Video v1.5 Image-to-Video

xAI Grok Imagine Video v1.5 animates a starting frame image with natural-language motion prompts at 480p/720p/1080P.

Grok Imagine Image Quality Text-to-Image

xAI Grok Imagine generates polished visuals from natural-language prompts at 1K or 2K resolution, with 14 aspect ratios.

Grok Imagine Image Quality Edit

xAI Grok Imagine edits one or more reference images with natural-language instructions at 1K or 2K resolution. Supports single image and multi-image (<IMAGE_0>, <IMAGE_1>) reference editing.

Grok Imagine Video Text-to-Video

xAI Grok Imagine Video generates short videos (1-15s) from natural-language prompts at 480p or 720p.

Grok Imagine Video Image-to-Video

xAI Grok Imagine Video animates a starting frame image with natural-language motion prompts at 480p or 720p.

Grok Imagine Video Reference-to-Video

xAI Grok Imagine Video generates videos guided by 1-7 reference images that contribute people, objects, or styles. Output up to 10s at 480p or 720p.

Grok Imagine Video Extend

xAI Grok Imagine Video continues an existing 2-15s mp4 with a 2-10s prompt-driven extension. Output matches input, capped at 720p.

Grok Imagine Video Edit

xAI Grok Imagine Video edits an mp4 with natural-language instructions. Output retains source duration, capped at 8.7s. Billed per second of the input video (output duration == input duration).

Grok Imagine Image Edit

xAI Grok Imagine edits one or more reference images with natural-language instructions at 1K or 2K resolution. Supports single image and multi-image (<IMAGE_0>, <IMAGE_1>) reference editing.

Grok Imagine Image Text-to-Image

xAI Grok Imagine generates images from natural-language prompts at 1K or 2K resolution, with 14 aspect ratios.

From

$0.02/張

峰值速度

最低成本

模態	描述
Grok Imagine Image Quality T2I API(Text to Image)	Grok Imagine Image Quality T2I API 使開發者能夠將文本提示詞轉化為解析度高達2K的逼真圖像。憑藉極致清晰的細節、多語言文本渲染和更精準的提示詞遵循，它能夠生成品牌級的視覺效果，非常適合用於網站首圖、廣告創意和產品渲染圖。
Grok Imagine Image Quality Edit API(Image to Image)	Grok Imagine Image Quality Edit API 賦能開發者使用參考輸入來優化和重塑現有圖像。憑藉自然的光照、豐富的紋理和逼真的物理效果，它能生成針對產品渲染、行銷活動和品牌級視覺效果進行優化的照片級逼真編輯。
Grok Imagine Video Text-to-Video API	Grok Imagine Video Text-to-Video API 使開發者能夠直接從文本提示生成解析度高達 720p 的電影級影片。憑藉長達 15 秒的可配置時長、靈活的長寬比以及原生音訊合成技術，它能產生針對社群內容、廣告創意和沉浸式視覺故事優化的照片級逼真影片序列。
Grok Imagine Video Image-to-Video API	Grok Imagine Video Image-to-Video API 賦能開發者使用源圖像和文字提示將靜態圖像轉換為動態影片片段。透過將源圖像作為第一幀固定、自然的動作生成以及同步的音訊輸出，它可以產生逼真的動畫，非常適合產品展示、人像動畫和場景生動化工作流程。
Grok Imagine Video Reference-to-Video	Grok Imagine Video Reference-to-Video API 賦予開發者生成影片的能力，支援最多7張參考圖像的引導，可融入特定角色、物件或視覺風格，且無需固定起始幀。憑藉跨幀一致的身份保留、長達10秒的靈活時長以及強大的構圖保真度，它能生成針對虛擬試穿、產品植入和角色一致敘事進行最佳化的品牌級影片。
Grok Imagine Video Edit API (Video-to-Video)	Grok Imagine Video Edit API 賦能開發者使用自然語言指令修改現有影片。它具備高保真場景保留功能，支援基於提示詞進行針對性修改，輸出影片可保留原始時長和高達 720p 的長寬比，從而生成精確的影片編輯結果，非常適合後期製作工作流程、行銷活動和迭代式創意優化。

Grok Imagine API 的核心特色

探索 Grok Imagine API 提供的強大功能，涵蓋從支援多語言文本的 2K 圖像生成，到具備原生同步音訊及多種創意模式的多模態影片生成。

使用 Grok Imagine 影像品質 API 的超高解析度渲染

Grok Imagine Image Quality API 提供高達 2K 解析度的圖像生成，確保每次輸出都具有極其清晰的細節。透過在縮放時保留細膩的紋理和複雜的構圖，用戶可以製作出即使在超大畫幅下展示也依然清晰的視覺內容。它是主視覺圖、廣告創意和品牌級產品渲染的終極解決方案。

多語系文字渲染

Grok Imagine Image Quality API 在生成的圖像中直接提供支援多語言的同類最佳文字渲染功能。透過準確還原任何語言的排版、文字符號和字元，使用者可以將清晰可讀的文案嵌入到視覺作品中，而無需進行手動後期編輯。這是廣告創意、在地化行銷活動和品牌級視覺效果的終極解決方案。

照片級逼真圖像生成

Grok Imagine API 能夠產生具有自然光照、豐富紋理和逼真物理效果的寫實圖像輸出。透過模擬真實世界的光學原理和材質表現，用戶可以產生在視覺上與專業攝影無法區分的圖像。它是產品渲染、主視覺圖和高端品牌視覺效果的終極解決方案。

精準提示詞控制與基於參考的編輯

Grok Imagine Image Quality API 支援更精準的提示詞遵循，以及由參考輸入驅動的高級圖像編輯功能。透過解析詳細指令並匹配上傳參考圖中的風格特徵，用戶可以以極高的精度完善和重塑視覺效果。它是廣告創意、產品渲染和一致品牌級視覺效果的終極解決方案。

原生影音生成

自動為每個片段生成同步的音樂、音效和對話，確保音訊與畫面動態在一次處理中保持對齊。片段無需獨立的音訊處理步驟，生成後即可直接使用。

多模態影片生成

它在單一套件中涵蓋了文字生成影片、圖像生成影片、參考生成影片以及影片編輯功能。您可以在生成與編輯任務之間無縫切換，而無需更換模型或整合。

運動控制與一致性

Grok Imagine Video API 能夠生成自然流暢的動態效果，並在不同影格之間保持穩定的物理特性和一致的主體。這減少了較長片段中的閃爍和偽影，使角色與場景從頭到尾保持連貫。

單一提示詞模型比較

提示詞

Candid street portrait photography of an elderly man in his 60s-70s, weathered face with deep wrinkles and expressive furrowed brow, long wild flowing grey-brown hair reaching shoulders, thick unkempt grey beard, mouth slightly open showing imperfect teeth, wearing small round John Lennon-style wire-frame sunglasses with dark lenses, wearing a teal/dark green Hard Rock Cafe graphic t-shirt with colorful print, holding a paper cup in hand, shot with telephoto lens, shallow depth of field, subject in sharp focus, bokeh background with blurred green and colorful elements suggesting an outdoor festival or market setting, natural outdoor lighting, slightly overcast, HDR-style post processing with rich color saturation and contrast, photojournalism / documentary street photography style, close-up portrait framing, chest-up composition, ultra detailed skin texture, every hair strand visible, shot on Sony A7R / Canon 5D Mark IV style rendering

Generated by Grok Imagine

Generated by Nano Banana 2

Generated by GPT Image-2

提示詞

Ultra-high resolution editorial beauty portrait, extreme close-up of a young woman's face, filling entire frame from forehead to chin, striking blue-green piercing eyes with intense gaze looking directly at camera, wet dark hair plastered across forehead and face in chaotic strands, dramatic split-tone makeup art — left side of face covered in deep cobalt blue metallic body paint or pigment powder, right side warm amber/copper toned skin, scattered gold glitter particles across cheeks, nose bridge, and lips catching light in specular bokeh highlights, full parted lips slightly open, glossy red-coral lip color, hint of teeth visible, lighting: dual-color dramatic studio lighting — cool blue rim light from left, warm amber/orange key light from right, creating extreme contrast split across the face centerline, skin texture rendered at microscopic level — every pore, fine hair, water droplet, glitter particle hyper-visible, photography specs: shot on Phase One IQ4 150MP medium format camera, Hasselblad 120mm macro lens, f/2.8 aperture, tack-sharp focus on eyes and lip area, micro-texture rendering on skin surface, post-processing: Capture One ultra-detail masking, luminosity contrast enhancement, color split-toning warm-cool duality, no smoothing, no skin retouching — raw pore-level detail preserved, --style: ultra-realistic hyperdetail beauty editorial, Vogue Italia / W Magazine aesthetic, 8K resolution, 16-bit color depth

Generated by Grok Imagine

Generated by Qwen Image 2.0

Generated by Nano Banana 2

您可以使用 Grok Imagine 模型做什麼

探索使用 Grok Imagine API 可以建構的內容，從照片級逼真的品牌視覺效果和多語言廣告海報，到產品影片展示、人像動畫以及基於參考的編輯。

照片級真實品牌視覺

Grok Imagine 影像品質 API 使創作者和開發者能夠生成具備自然光照、豐富紋理和真實物理效果的逼真視覺效果。該 API 是追求工作室等級輸出的行銷團隊與設計工作室的理想選擇，可渲染清晰的 2K 解析度與栩栩如生的材質細節——支援生成主圖、廣告創意與高階產品渲染圖。

多語言海報與廣告設計

對於全球分發的創意內容，Grok Imagine Image Quality API 能夠生成具備同類最佳文字渲染效果、準確的多語言排版以及直接在藝術作品中清晰整合字元的圖像。此用例適用於廣告代理商、在地化專家和品牌設計師，幫助他們製作需要將清晰易讀、符合品牌形象的文案嵌入到最終圖像中的視覺效果。

基於參考的影像編輯

Grok Imagine Image Quality API 賦能設計師，透過更嚴格的提示詞遵循、基於參考的輸入以及精準的構圖控制，對現有視覺內容進行優化與重塑。該 API 能夠跨越多重編輯保持風格一致性，是迭代式創意生產與品牌一致性工作流程的理想之選——支援概念細化、設計變體生成以及為商業活動打造精細的最終資產。

電影級產品展示

Grok Imagine Video Text-to-Video API 讓創作者和開發者能夠僅憑單一文本提示生成電影級影片片段，並配有原生音訊和高達 720p 的解析度。該 API 是追求生產級影片輸出的行銷團隊和內容工作室的理想之選，它能渲染動態運動、自然的攝影機移動和同步音效——為品牌活動、社群媒體內容和沉浸式廣告敘事提供支援。

人像與產品動畫

對於希望為靜態視覺作品注入生命的創作者而言，Grok Imagine Video 圖生影片 API 可將靜態圖像轉化為流暢、逼真的影片片段，並以來源圖像作為第一影格。此應用場景非常適合電子商務品牌、數位藝術家和廣告團隊，用於製作需要與原始資產保持視覺連續性的產品動畫展示、人像動畫和場景生動化內容。

非破壞性影片修飾

對於需要對現有素材進行精確、定向修改的後期製作團隊和創意機構，Grok Imagine Video Edit API 可將自然語言指令應用於現有影片，同時保留原始場景、運動和構圖。該應用場景適合影片剪輯師、行銷製作人和完善行銷活動素材的品牌團隊——能夠在不破壞原有影片結構的情況下，實現道具添加、服裝更換和視覺風格重塑。

模型比較

查看不同廠商的模型表現 — 對比效能、價格和獨特優勢，做出明智決策。

模型	參考圖像限制	輸出數量	解析度	長寬比
Grok Imagine Image Quality	8	1~4	2K, 1K	Auto, 1:1, 3:2, 2:3, 3:4, 4:3, 9:16, 16:9, 9:19.5, 19.5:9, 9:20, 20:9, 1:2, 2:1
Nano Banana 2	14	1	4K, 2K, 1K	1:1, 3:2, 2:3, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9
Nano Banana Pro	10	1	4K, 2K, 1K	1:1, 3:2, 2:3, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9
Seedream 5.0 Lite	14	1~15	2K~4K+	1:1, 3:2, 2:3, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9
Qwen-Image	3	1~6	512P~2K	Width[512, 2048]px, Height[512, 2048]px

如何在 Atlas Cloud 上使用 Grok Imagine

幾分鐘即可上手 — 按照以下簡單步驟，透過 Atlas Cloud 平台整合和部署模型。

建立 Atlas Cloud 帳戶

在 atlascloud.ai 註冊並完成驗證。新用戶可獲得免費額度，用於探索平台和測試模型。

為何在 Atlas Cloud 使用 Grok Imagine

將先進的 Grok Imagine 模型與 Atlas Cloud 的 GPU 加速平台相結合，提供無與倫比的效能、可擴展性和開發體驗。

效能與靈活性

低延遲：
GPU 最佳化推理，實現即時回應。

統一 API：
一次整合，暢用 Grok Imagine、GPT、Gemini 和 DeepSeek。

透明定價：
按 Token 計費，支援 Serverless 模式。

企業與規模

開發者體驗：
SDK、資料分析、微調工具和模板一應俱全。

可靠性：
99.99% 可用性、RBAC 權限控制、合規日誌。

安全與合規：
SOC 2 Type II 認證、HIPAA 合規、美國資料主權。

Grok Imagine API 常見問題解答

Grok Imagine Image Quality 是 xAI 的高保真文字生成圖像及圖像編輯模型，旨在提供照片級逼真的視覺效果，與標準 Grok Imagine Image 模型相比，具有更強的文字渲染能力、更精準的提示詞遵循以及更豐富的細節。

該模型支援最高2K解析度的圖像生成，具有極其銳利的細節、自然的光照、豐富的紋理和逼真的物理效果，非常適合用於主視覺圖、廣告創意和產品渲染圖。

Grok Imagine Image Quality 提供同類最佳的文字渲染功能，並具備更強大的多語言支援，可直接在生成的圖像中呈現清晰易讀的排版文字——非常適合用於海報、社群媒體圖文和廣告創意。

Quality Mode trades slightly higher latency for noticeably better output—more accurate compositions, stronger text rendering, and greater realism—making it the recommended choice for final visuals such as ads, hero images, and client deliverables.

API支援16:9（寬螢幕）、9:16（行動裝置/限時動態）、1:1（社群媒體）、4:3、3:2及其對應的直式格式——涵蓋了廣告創意、社群內容和影視製作的所有主流平台格式。

文字生成影片與圖像生成影片支援最長 15 秒的時長，參考生成影片支援最長 10 秒，影片編輯會保留原始素材長度，上限為 8.7 秒。所有模式皆以 720p HD 或 480p 輸出，建議將 720p 用於品牌級與廣告創意輸出。

是的。Grok Imagine Video API 具備原生音訊生成功能，能夠自動生成與視覺內容匹配的同步音效、背景音樂和環境音——無需額外的後期製作流程。

是的。Grok Imagine Video Reference-to-Video API 最多支援接收 7 張參考圖像，以在整個影片中保持一致的身份、服裝和場景構圖——非常適合虛擬試穿、產品置入和角色一致的故事講述。

探索更多系列

Seedance 2.0

Seedance 2.0 API 為您提供 ByteDance 多模態影片模型的生產級存取權限——支援四模態輸入（文字、影像、影片、音訊），以及業界領先的「Universal Reference」（通用參考）系統，可在不同鏡頭間鎖定構圖、運鏡與角色動作。只需一次 API 呼叫即可整合導演級控制，固定費率為 $0.09/秒，即時取得金鑰，無需排隊——由企業級正常運行時間與合規性提供保障。Seedance 2.0 原生 4K 現已上線！

檢視系列

Grok Imagine

檢視系列

Gemini Omni Flash

Gemini Omni API 將 Google DeepMind 於 Google I/O 2026 發表的多模態影片生成與編輯模型帶進你的技術棧。Gemini Omni 將 Gemini 的推理引擎與生成式媒體融合，可接受文字、圖片、影片與音訊的任意組合輸入，產生一致且以知識為根據的輸出。透過自然對話持續打磨成果：替換物件、改寫場景、切換風格，同時維持物理規律、角色與畫面連貫性不變。Atlas Cloud 透過單一整合 API 提供完整的 Gemini Omni Flash 系列——文字生成影片、支援最多 7 張參考圖片的圖片生成影片，以及參考圖生成影片——採每秒計費、價格透明，$0.112 起，無需訂閱。立即開始打造。

檢視系列

GPT Image 2

GPT Image 2 API 為開發者提供了訪問 OpenAI 最新圖像模型的途徑，它是 GPT Image 1.5 的繼任者。該模型可生成和編輯圖像，能夠在拉丁和 CJK 文字上實現準確的文本渲染，並在海報、樣機和資訊圖表方面具備強大的排版能力。在 Atlas Cloud 上，您可以透過一個統一的 API 與 300 多個模型一起訪問它，並享受免費額度、99.99% 的正常運行時間，且無需 OpenAI 組織驗證。

檢視系列

Google

Google最強大的創意模型現已在Atlas Cloud上全面可用。Veo 3.1提供電影等級的影片生成，Nano Banana 2支援高保真圖像建立，而Gemini為每個工作流程帶來多模態智慧。透過單一API key即可存取完整的Google模型套件，提供Day-0可用性和隨用隨付（pay-as-you-go）定價。

檢視系列

Seedance 2.0 Mini

Seedance 2.0 Mini 將 ByteDance 的多模態影片生成技術引入到對速度和成本要求極高的工作流程中。它以更輕量的佔用空間提供 Seedance 2.0 的核心能力——更快的生成速度、更低的單支影片成本，並且使用您現有的同款 API 整合。對於運行高吞吐量流水線或進行大規模原型設計的團隊來說，Mini 是最實用的預設選擇。

檢視系列

ByteDance

從電影級影片生成到高保真影像建立，ByteDance 最強大的模型現已在 Atlas Cloud 上線。以最低的推論定價和零基礎設施開銷，大規模執行 Seedance 和 Seedream。

檢視系列

Alibaba

Atlas Cloud 將 Alibaba 的全系模型陣容整合至同一個 API 中：Qwen 適用於語言和圖像任務，Wan 適用於高達 1080p 的影片生成。所有模型均採用按需付費模式，無需訂閱。您可以使用現有的 OpenAI 兼容客戶端，透過單一的 base URL 存取 Alibaba API。

檢視系列

OpenAI

Atlas Cloud 為您提供存取完整 OpenAI API 產品線的權限，從用於圖像生成的 GPT Image 2 到用於影片的 Sora 2。每個模型均採用按需付費模式，無月度消費限制。使用相容 OpenAI 的 API，只需簡單替換基礎 URL 即可輕鬆接入。

檢視系列

xAI

在 Atlas Cloud 上使用 xAI API 建構完整的影像與影片處理管線。以 2K 解析度生成、使用參考影像進行編輯，並將影像動畫化為音訊同步的影片片段。

檢視系列

Kwaivgi

Kwaivgi API 價格低於標準定價 15%。Atlas Cloud 提供對最新 Kling 版本的零日（Day-0）存取權限，採用按需付費定價且無席位限制。一個帳戶，一個金鑰，暢享從標準版到大師版的所有 Kling 模型。

檢視系列

Seedream 5.0 Pro

Seedream 5.0 Pro API 為開發者在 Atlas Cloud 上提供了字節跳動的可控圖像編輯模型。它透過錨點和座標精確定位編輯，將圖像分離為可編輯圖層，融合多個參考，並精準匹配顏色和材質，支援 2K 和 3K 解析度的多語言文本。在 Atlas Cloud 上，您只需一個金鑰即可存取！

檢視系列

一個 API，暢享全模態 AI。

探索全部模型

Grok Imagine API for xAI Image, Video, and Audio

探索領先模型

xAI TTS v1

Grok Imagine Video v1.5 Image-to-Video

Grok Imagine Image Quality Text-to-Image

Grok Imagine Image Quality Edit

Grok Imagine Video Text-to-Video

Grok Imagine Video Image-to-Video

Grok Imagine Video Reference-to-Video

Grok Imagine Video Extend

Grok Imagine Video Edit

Grok Imagine Image Edit

Grok Imagine Image Text-to-Image

峰值速度

Grok Imagine API 的核心特色

使用 Grok Imagine 影像品質 API 的超高解析度渲染

多語系文字渲染

照片級逼真圖像生成

精準提示詞控制與基於參考的編輯

原生影音生成

多模態影片生成

運動控制與一致性

單一提示詞模型比較

您可以使用 Grok Imagine 模型做什麼

照片級真實品牌視覺

多語言海報與廣告設計

基於參考的影像編輯

電影級產品展示

人像與產品動畫

非破壞性影片修飾

模型比較

如何在 Atlas Cloud 上使用 Grok Imagine

建立 Atlas Cloud 帳戶

為何在 Atlas Cloud 使用 Grok Imagine

效能與靈活性

企業與規模

Grok Imagine API 常見問題解答

探索更多系列

Seedance 2.0

Grok Imagine

Gemini Omni Flash

GPT Image 2

Google

Seedance 2.0 Mini

ByteDance

Alibaba

OpenAI

xAI

Kwaivgi

Seedream 5.0 Pro

一個 API，暢享全模態 AI。

Join our Discord community