Grok Imagine API for xAI Image, Video, and Audio

Grok Imagine API 为开发者提供 xAI 的图像、视频和音频生成一站式套件。它可以生成分辨率高达 2K 且支持多语言文本渲染的图像，以及长达 15 秒且带有原生同步音频和基于参考图像编辑功能的视频。在 Atlas Cloud 上，只需一个密钥即可运行每个 Grok Imagine 模式，因此您可以在图像、视频和音频之间无缝切换，无需单独设置，每张图像 0.02 美元起，每秒 0.05 美元起。

探索领先模型

Atlas Cloud 为您提供最新的行业领先创意模型。

NEW

文字转音频

xAI TTS v1

xAI TTS v1 is a high-fidelity text-to-speech model that converts text into natural, expressive speech with sub-second latency, supporting 20 languages and 80+ voices with fine-grained delivery control.

Grok Imagine Video v1.5 Image-to-Video

xAI Grok Imagine Video v1.5 animates a starting frame image with natural-language motion prompts at 480p/720p/1080P.

Grok Imagine Image Quality Text-to-Image

xAI Grok Imagine generates polished visuals from natural-language prompts at 1K or 2K resolution, with 14 aspect ratios.

Grok Imagine Image Quality Edit

xAI Grok Imagine edits one or more reference images with natural-language instructions at 1K or 2K resolution. Supports single image and multi-image (<IMAGE_0>, <IMAGE_1>) reference editing.

Grok Imagine Video Text-to-Video

xAI Grok Imagine Video generates short videos (1-15s) from natural-language prompts at 480p or 720p.

Grok Imagine Video Image-to-Video

xAI Grok Imagine Video animates a starting frame image with natural-language motion prompts at 480p or 720p.

Grok Imagine Video Reference-to-Video

xAI Grok Imagine Video generates videos guided by 1-7 reference images that contribute people, objects, or styles. Output up to 10s at 480p or 720p.

Grok Imagine Video Extend

xAI Grok Imagine Video continues an existing 2-15s mp4 with a 2-10s prompt-driven extension. Output matches input, capped at 720p.

Grok Imagine Video Edit

xAI Grok Imagine Video edits an mp4 with natural-language instructions. Output retains source duration, capped at 8.7s. Billed per second of the input video (output duration == input duration).

Grok Imagine Image Edit

xAI Grok Imagine edits one or more reference images with natural-language instructions at 1K or 2K resolution. Supports single image and multi-image (<IMAGE_0>, <IMAGE_1>) reference editing.

Grok Imagine Image Text-to-Image

xAI Grok Imagine generates images from natural-language prompts at 1K or 2K resolution, with 14 aspect ratios.

From

$0.02/张

峰值速度

最低成本

模态	描述
Grok Imagine Image Quality T2I API(Text to Image)	Grok Imagine Image Quality T2I API 使开发者能够将文本提示词转化为分辨率高达2K的逼真图像。凭借极致清晰的细节、多语言文本渲染和更精准的提示词遵循，它能够生成品牌级的视觉效果，非常适合用于网站首图、广告创意和产品渲染图。
Grok Imagine Image Quality Edit API(Image to Image)	Grok Imagine Image Quality Edit API 赋能开发者使用参考输入来优化和重塑现有图像。凭借自然的光照、丰富的纹理和逼真的物理效果，它能生成针对产品渲染、营销活动和品牌级视觉效果进行优化的照片级逼真编辑。
Grok Imagine Video Text-to-Video API	Grok Imagine Video Text-to-Video API 使开发者能够直接从文本提示生成分辨率高达 720p 的电影级视频。凭借长达 15 秒的可配置时长、灵活的宽高比以及原生音频合成技术，它能生成针对社交内容、广告创意和沉浸式视觉故事优化的照片级逼真视频序列。
Grok Imagine Video Image-to-Video API	Grok Imagine Video Image-to-Video API 赋能开发者使用源图像和文本提示将静态图像转换为动态视频片段。通过将源图像作为第一帧固定、自然的动作生成以及同步的音频输出，它可以生成逼真的动画，非常适合产品展示、人像动画和场景生动化工作流。
Grok Imagine Video Reference-to-Video	Grok Imagine Video Reference-to-Video API 赋予开发者生成视频的能力，支持最多7张参考图像的引导，可融入特定角色、对象或视觉风格，且无需固定起始帧。凭借跨帧一致的身份保留、长达10秒的灵活时长以及强大的构图保真度，它能生成针对虚拟试穿、产品植入和角色一致叙事进行优化的品牌级视频。
Grok Imagine Video Edit API (Video-to-Video)	Grok Imagine Video Edit API 赋能开发者使用自然语言指令修改现有视频。它具备高保真场景保留功能，支持基于提示词进行针对性修改，输出视频可保留原始时长和高达 720p 的宽高比，从而生成精确的视频编辑结果，非常适合后期制作工作流、营销活动和迭代式创意优化。

Grok Imagine API 的核心特性

探索 Grok Imagine API 提供的强大功能，涵盖从支持多语言文本的 2K 图像生成，到具备原生同步音频及多种创意模式的多模态视频生成。

使用 Grok Imagine 图像质量 API 的超高分辨率渲染

Grok Imagine Image Quality API 提供高达 2K 分辨率的图像生成，确保每次输出都具有极其清晰的细节。通过在缩放时保留细腻的纹理和复杂的构图，用户可以制作出即使在超大画幅下展示也依然清晰的视觉内容。它是主视觉图、广告创意和品牌级产品渲染的终极解决方案。

多语言文本渲染

Grok Imagine Image Quality API 在生成的图像中直接提供支持多语言的同类最佳文本渲染功能。通过准确还原任何语言的排版、文字符号和字符，用户可以将清晰可读的文案嵌入到视觉作品中，而无需进行手动后期编辑。这是广告创意、本地化营销活动和品牌级视觉效果的终极解决方案。

照片级逼真图像生成

Grok Imagine API 能够生成具有自然光照、丰富纹理和逼真物理效果的写实图像输出。通过模拟真实世界的光学原理和材质表现，用户可以生成在视觉上与专业摄影无法区分的图像。它是产品渲染、主图和高端品牌视觉效果的终极解决方案。

精准提示词控制与基于参考的编辑

Grok Imagine Image Quality API 支持更精准的提示词遵循，以及由参考输入驱动的高级图像编辑功能。通过解析详细指令并匹配上传参考图中的风格特征，用户可以以极高的精度完善和重塑视觉效果。它是广告创意、产品渲染和一致品牌级视觉效果的终极解决方案。

原生音视频生成

自动为每个片段生成同步的音乐、音效和对话，确保音频与画面动态在一次处理中保持对齐。片段无需单独的音频处理步骤，生成后即可直接使用。

多模态视频生成

它在单一套件中涵盖了文本生成视频、图像生成视频、参考生成视频以及视频编辑功能。您可以在生成和编辑任务之间无缝切换，而无需更换模型或集成。

运动控制与一致性

Grok Imagine Video API 能够生成自然流畅的运动效果，并在不同帧之间保持稳定的物理特性和一致的主体。这减少了较长片段中的闪烁和伪影，使角色和场景从头到尾保持连贯。

单一提示词模型对比

提示词

Candid street portrait photography of an elderly man in his 60s-70s, weathered face with deep wrinkles and expressive furrowed brow, long wild flowing grey-brown hair reaching shoulders, thick unkempt grey beard, mouth slightly open showing imperfect teeth, wearing small round John Lennon-style wire-frame sunglasses with dark lenses, wearing a teal/dark green Hard Rock Cafe graphic t-shirt with colorful print, holding a paper cup in hand, shot with telephoto lens, shallow depth of field, subject in sharp focus, bokeh background with blurred green and colorful elements suggesting an outdoor festival or market setting, natural outdoor lighting, slightly overcast, HDR-style post processing with rich color saturation and contrast, photojournalism / documentary street photography style, close-up portrait framing, chest-up composition, ultra detailed skin texture, every hair strand visible, shot on Sony A7R / Canon 5D Mark IV style rendering

Generated by Grok Imagine

Generated by Nano Banana 2

Generated by GPT Image-2

提示词

Ultra-high resolution editorial beauty portrait, extreme close-up of a young woman's face, filling entire frame from forehead to chin, striking blue-green piercing eyes with intense gaze looking directly at camera, wet dark hair plastered across forehead and face in chaotic strands, dramatic split-tone makeup art — left side of face covered in deep cobalt blue metallic body paint or pigment powder, right side warm amber/copper toned skin, scattered gold glitter particles across cheeks, nose bridge, and lips catching light in specular bokeh highlights, full parted lips slightly open, glossy red-coral lip color, hint of teeth visible, lighting: dual-color dramatic studio lighting — cool blue rim light from left, warm amber/orange key light from right, creating extreme contrast split across the face centerline, skin texture rendered at microscopic level — every pore, fine hair, water droplet, glitter particle hyper-visible, photography specs: shot on Phase One IQ4 150MP medium format camera, Hasselblad 120mm macro lens, f/2.8 aperture, tack-sharp focus on eyes and lip area, micro-texture rendering on skin surface, post-processing: Capture One ultra-detail masking, luminosity contrast enhancement, color split-toning warm-cool duality, no smoothing, no skin retouching — raw pore-level detail preserved, --style: ultra-realistic hyperdetail beauty editorial, Vogue Italia / W Magazine aesthetic, 8K resolution, 16-bit color depth

Generated by Grok Imagine

Generated by Qwen Image 2.0

Generated by Nano Banana 2

您可以使用 Grok Imagine 模型做什么

探索使用 Grok Imagine API 可以构建的内容，从照片级逼真的品牌视觉效果和多语言广告海报，到产品视频展示、人像动画以及基于参考的编辑。

照片级真实品牌视觉

Grok Imagine 图像质量 API 使创作者和开发者能够生成具有自然光照、丰富纹理和真实物理效果的逼真视觉效果。该 API 是追求工作室级别输出的营销团队和设计工作室的理想之选，可渲染清晰的 2K 分辨率和栩栩如生的材质细节——支持生成主图、广告创意和高端产品渲染图。

多语言海报与广告设计

对于全球分发的创意内容，Grok Imagine Image Quality API 能够生成具备同类最佳文本渲染效果、准确的多语言排版以及直接在艺术作品中清晰集成字符的图像。此用例适用于广告代理商、本地化专家和品牌设计师，帮助他们制作需要将清晰易读、符合品牌形象的文案嵌入到最终图像中的视觉效果。

基于参考的图像编辑

Grok Imagine Image Quality API 赋能设计师，通过更严格的提示词遵循、基于参考的输入以及精准的构图控制，对现有视觉内容进行优化和重塑。该 API 能够跨越多次编辑保持风格一致性，是迭代式创意生产和品牌一致性工作流的理想之选——支持概念细化、设计变体生成以及为商业活动打造精细的最终资产。

电影级产品展示

Grok Imagine Video Text-to-Video API 使创作者和开发者能够仅凭单一文本提示生成电影级视频片段，并配有原生音频和高达 720p 的分辨率。该 API 是追求生产级视频输出的营销团队和内容工作室的理想之选，它能渲染动态运动、自然的摄像机移动和同步音效——为品牌活动、社交媒体内容和沉浸式广告叙事提供支持。

人像与产品动画

对于希望为静态视觉作品注入生命的创作者而言，Grok Imagine Video 图生视频 API 可将静态图像转化为流畅、逼真的视频片段，并以源图像作为第一帧。该应用场景非常适合电子商务品牌、数字艺术家和广告团队，用于制作需要与原始资产保持视觉连续性的产品动画展示、人像动画和场景生动化内容。

非破坏性视频修饰

对于需要对现有素材进行精确、定向修改的后期制作团队和创意机构，Grok Imagine Video Edit API 可将自然语言指令应用于现有视频，同时保留原始场景、运动和构图。该应用场景适合视频剪辑师、营销制作人和完善营销活动素材的品牌团队——能够在不破坏原有视频结构的情况下，实现道具添加、服装更换和视觉风格重塑。

模型对比

查看不同厂商的模型表现 — 对比性能、价格和独特优势，做出明智决策。

模型	参考图像限制	输出数量	分辨率	宽高比
Grok Imagine Image Quality	8	1~4	2K, 1K	Auto, 1:1, 3:2, 2:3, 3:4, 4:3, 9:16, 16:9, 9:19.5, 19.5:9, 9:20, 20:9, 1:2, 2:1
Nano Banana 2	14	1	4K, 2K, 1K	1:1, 3:2, 2:3, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9
Nano Banana Pro	10	1	4K, 2K, 1K	1:1, 3:2, 2:3, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9
Seedream 5.0 Lite	14	1~15	2K~4K+	1:1, 3:2, 2:3, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9
Qwen-Image	3	1~6	512P~2K	Width[512, 2048]px, Height[512, 2048]px

如何在 Atlas Cloud 上使用 Grok Imagine

几分钟即可上手 — 按照以下简单步骤，通过 Atlas Cloud 平台集成和部署模型。

创建 Atlas Cloud 账户

在 atlascloud.ai 注册并完成验证。新用户可获得免费额度，用于探索平台和测试模型。

为何在 Atlas Cloud 使用 Grok Imagine

将先进的 Grok Imagine 模型与 Atlas Cloud 的 GPU 加速平台相结合，提供无与伦比的性能、可扩展性和开发体验。

性能与灵活性

低延迟：
GPU 优化推理，实现实时响应。

统一 API：
一次集成，畅用 Grok Imagine、GPT、Gemini 和 DeepSeek。

透明定价：
按 Token 计费，支持 Serverless 模式。

企业与规模

开发者体验：
SDK、数据分析、微调工具和模板一应俱全。

可靠性：
99.99% 可用性、RBAC 权限控制、合规日志。

安全与合规：
SOC 2 Type II 认证、HIPAA 合规、美国数据主权。

Grok Imagine API 常见问题解答

Grok Imagine Image Quality 是 xAI 的高保真文本生成图像及图像编辑模型，旨在提供照片级逼真的视觉效果，与标准 Grok Imagine Image 模型相比，具有更强的文本渲染能力、更精准的提示词遵循以及更丰富的细节。

该模型支持最高2K分辨率的图像生成，具有极其锐利的细节、自然的光照、丰富的纹理和逼真的物理效果，非常适合用于主视觉图、广告创意和产品渲染图。

Grok Imagine Image Quality 提供同类最佳的文本渲染功能，并具备更强大的多语言支持，可直接在生成的图像中呈现清晰易读的排版文字——非常适合用于海报、社交媒体图文和广告创意。

Quality Mode trades slightly higher latency for noticeably better output—more accurate compositions, stronger text rendering, and greater realism—making it the recommended choice for final visuals such as ads, hero images, and client deliverables.

API支持16:9（宽屏）、9:16（移动端/快拍）、1:1（社交媒体）、4:3、3:2及其对应的竖屏格式——涵盖了广告创意、社交内容和影视制作的所有主流平台格式。

文生视频和图生视频支持最长 15 秒的时长，参考生视频支持最长 10 秒，视频编辑保留原始素材长度，上限为 8.7 秒。所有模式均支持 720p HD 或 480p 输出，建议将 720p 用于品牌级和广告创意输出。

是的。Grok Imagine Video API 具备原生音频生成功能，能够自动生成与视觉内容相匹配的同步音效、背景音乐和环境音——无需单独的后期制作流程。

是的。Grok Imagine Video Reference-to-Video API 最多支持接收 7 张参考图像，以在整个视频中保持一致的身份、服装和场景构图——非常适合虚拟试穿、产品植入和角色一致的故事讲述。

探索更多系列

Seedance 2.0

Seedance 2.0 API 为您提供 ByteDance 多模态视频模型的生产级访问权限——支持四模态输入（文本、图像、视频、音频），以及行业领先的“Universal Reference”（通用参考）系统，可在不同镜头间锁定构图、运镜和角色动作。只需一次 API 调用即可集成导演级控制，固定费率为 $0.09/秒，即时获取密钥，无需排队——由企业级正常运行时间和合规性提供保障。Seedance 2.0 原生 4K 现已上线！

查看系列

Grok Imagine

查看系列

Gemini Omni Flash

Gemini Omni API 将 Google DeepMind 在 Google I/O 2026 上发布的多模态视频生成与编辑模型带入你的技术栈。Gemini Omni 将 Gemini 的推理引擎与生成式媒体融合，可接受文本、图像、视频和音频的任意组合输入，生成一致且以知识为依据的输出。通过自然对话不断打磨结果：替换物体、重写场景、切换风格，同时保持物理规律、角色形象和画面连贯性不变。Atlas Cloud 通过统一的 API 提供完整的 Gemini Omni Flash 系列——文生视频、支持最多 7 张参考图的图生视频，以及参考图生视频——按秒计费、价格透明，低至 $0.112 起，且无需订阅。立即开始构建。

查看系列

GPT Image 2

GPT Image 2 API 为开发者提供了访问 OpenAI 最新图像模型的途径，它是 GPT Image 1.5 的继任者。该模型可生成和编辑图像，能够在拉丁和 CJK 文字上实现准确的文本渲染，并在海报、样机和信息图表方面具备强大的排版能力。在 Atlas Cloud 上，您可以通过一个统一的 API 与 300 多个模型一起访问它，并享受免费额度、99.99% 的正常运行时间，且无需 OpenAI 组织验证。

查看系列

Google

Google最强大的创意模型现已在Atlas Cloud上全面可用。Veo 3.1提供电影级别的视频生成，Nano Banana 2支持高保真图像创建，而Gemini为每个工作流带来多模态智能。通过单一API key即可访问完整的Google模型套件，提供Day-0可用性和按需付费（pay-as-you-go）定价。

查看系列

Seedance 2.0 Mini

Seedance 2.0 Mini 将 ByteDance 的多模态视频生成技术引入到对速度和成本要求极高的工作流中。它以更轻量的占用空间提供 Seedance 2.0 的核心能力——更快的生成速度、更低的单条视频成本，并且使用您现有的同款 API 集成。对于运行高吞吐量流水线或进行大规模原型设计的团队来说，Mini 是最实用的默认选择。

查看系列

ByteDance

从电影级视频生成到高保真图像创建，ByteDance 最强大的模型现已在 Atlas Cloud 上线。以最低的推理定价和零基础设施开销，大规模运行 Seedance 和 Seedream。

查看系列

Alibaba

Atlas Cloud 将 Alibaba 的全系模型阵容整合至同一个 API 中：Qwen 用于语言和图像任务，Wan 用于高达 1080p 的视频生成。所有模型均采用按需付费模式，无需订阅。您可以使用现有的 OpenAI 兼容客户端，通过单一的 base URL 访问 Alibaba API。

查看系列

OpenAI

Atlas Cloud 为您提供访问完整 OpenAI API 产品线的权限，从用于图像生成的 GPT Image 2 到用于视频的 Sora 2。每个模型均采用按需付费模式，无月度消费限制。使用兼容 OpenAI 的 API，只需简单替换基础 URL 即可轻松接入。

查看系列

xAI

在 Atlas Cloud 上使用 xAI API 构建完整的图像和视频处理工作流。以 2K 分辨率生成、使用参考图像进行编辑，并将图像动画化为音画同步的视频片段。

查看系列

Kwaivgi

Kwaivgi API 价格低于标准定价 15%。Atlas Cloud 提供对最新 Kling 版本的零日（Day-0）访问权限，采用按需付费定价且无席位限制。一个账户，一个密钥，畅享从标准版到大师版的所有 Kling 模型。

查看系列

Seedream 5.0 Pro

Seedream 5.0 Pro API 为开发者在 Atlas Cloud 上提供了字节跳动的可控图像编辑模型。它通过锚点和坐标精确定位编辑，将图像分离为可编辑图层，融合多个参考，并精准匹配颜色和材质，支持 2K 和 3K 分辨率的多语言文本。在 Atlas Cloud 上，您只需一个密钥即可访问！

查看系列

一个 API，畅享全模态 AI。

探索全部模型

Grok Imagine API for xAI Image, Video, and Audio

探索领先模型

xAI TTS v1

Grok Imagine Video v1.5 Image-to-Video

Grok Imagine Image Quality Text-to-Image

Grok Imagine Image Quality Edit

Grok Imagine Video Text-to-Video

Grok Imagine Video Image-to-Video

Grok Imagine Video Reference-to-Video

Grok Imagine Video Extend

Grok Imagine Video Edit

Grok Imagine Image Edit

Grok Imagine Image Text-to-Image

峰值速度

Grok Imagine API 的核心特性

使用 Grok Imagine 图像质量 API 的超高分辨率渲染

多语言文本渲染

照片级逼真图像生成

精准提示词控制与基于参考的编辑

原生音视频生成

多模态视频生成

运动控制与一致性

单一提示词模型对比

您可以使用 Grok Imagine 模型做什么

照片级真实品牌视觉

多语言海报与广告设计

基于参考的图像编辑

电影级产品展示

人像与产品动画

非破坏性视频修饰

模型对比

如何在 Atlas Cloud 上使用 Grok Imagine

创建 Atlas Cloud 账户

为何在 Atlas Cloud 使用 Grok Imagine

性能与灵活性

企业与规模

Grok Imagine API 常见问题解答

探索更多系列

Seedance 2.0

Grok Imagine

Gemini Omni Flash

GPT Image 2

Google

Seedance 2.0 Mini

ByteDance

Alibaba

OpenAI

xAI

Kwaivgi

Seedream 5.0 Pro

一个 API，畅享全模态 AI。

Join our Discord community