如果您一直在尋找如何使用 Grok AI 圖像編輯功能,簡單的答案是:Grok Imagine 讓您能夠透過簡單的自然語言提示詞 (prompts),對現有圖像進行修改、更換背景、調整色彩以及同時融合最多三張照片,完全無需任何設計軟體。
此功能目前開放給 X Premium 訂閱者,直接在 X 應用程式內即可使用。您也可以透過網頁版 grok.com 或 Grok 行動應用程式使用。無論在電腦還是手機上,操作流程完全相同:只需打開 Grok,上傳您的圖像,並用簡單的文字描述您想要的變更即可。
本指南將分步驟介紹如何使用此工具,並教您如何撰寫真正有效的提示詞,讓您能立即上手編輯圖像,無需任何技術背景。
適用對象:
- X Premium 或 X Premium+ 訂閱者
- Grok 獨立應用程式(網頁版或行動版)用戶
- 任何希望使用 AI 進行圖像編輯且不想使用複雜工具的使用者
讓我們開始吧。
了解 Grok AI 圖像編輯功能與帳戶需求
Grok AI 圖像生成器 運行於 Aurora 模型之上。這是 xAI 自家研發的自回歸模型,能同時處理圖像的生成與編輯。與大多數使用擴散模型(diffusion)的工具不同,Aurora 逐個 token 處理圖像,這種方法在修改照片特定部位時能提供更好的一致性。
誰可以使用?
存取權限取決於您使用 Grok 的平台與方式:
| 平台 | 所需存取層級 |
|---|---|
| X (Twitter) 應用程式 — 公共動態圖像生成 | X Premium 訂閱 (Basic, Premium 或 Premium+) |
| Grok 網頁版 (grok.com) | 免費 Grok 帳號(受使用次數限制) |
| Grok 行動應用程式 (iOS/Android) | 免費 Grok 帳號(受使用次數限制) |
| 進階編輯與較高使用量 | X Premium+ 或 SuperGrok 訂閱 |
須知的關鍵圖像編輯限制
在開始之前,請注意這些 圖像編輯限制:
- 免費 Grok 應用程式用戶每日有圖像生成次數上限
- 所有層級皆禁止生成露骨或違反政策的內容
- 多圖融合功能(最多 3 張照片)可能會根據目前的推出狀態,要求付費層級才可使用
- 功能可用性可能因地區而異
在開始前檢查您的訂閱層級,可避免後續操作時遇到阻礙。
分步指南:如何在 X 和網頁版上使用 Grok AI 圖像編輯功能
無論您是在 X 應用程式內操作,還是透過獨立的 Grok 網頁介面,Grok AI 圖像編輯功能的使用方法皆遵循相同的邏輯順序。以下是完整的操作 walkthrough。
第 1 步:存取 Grok 並開啟圖像編輯器
- 前往 grok.com 或開啟 Grok 行動應用程式 (iOS/Android)
- 在 X 的側邊欄(若使用 X/Twitter)或網頁版的主聊天介面中找到 Grok 圖示
- 點擊圖像附件圖示以上傳圖像 — 支援的格式包括 JPEG、PNG 和 WebP

第 2 步:觸發編輯模式
上傳圖像後,介面會自動啟動編輯模式。您會看到編輯圖像按鈕出現在上傳檔案旁。點擊它進入編輯畫布。
第 3 步:撰寫您的修改提示詞
這是最關鍵的部分。請使用平實的語言輸入清晰、具描述性的修改提示詞 (revision prompt),例如:
| 目標 | 範例提示詞 |
|---|---|
| 更換背景 | "將背景替換為海洋上的日落" |
| 調整色調 | "讓整張圖片呈現更溫暖、更金黃的色調" |
| 新增物件 | "在圖片左側新增一把紅雨傘" |
| 融合兩張圖 | "將 <IMAGE_0> 和 <IMAGE_1> 合併為一個連貫的場景" |
第 4 步:生成與微調
點擊 Run 並等待約 13 秒即可看到結果。如果輸出結果需要進一步調整,只需再寫下另一個修改提示詞即可 — 該模型支援多輪迭代編輯,無需從頭開始。
進階技巧:如何使用 Grok 多圖編輯與融合
Grok 的多圖編輯功能是該工具與大多數消費級 AI 編輯器真正的差異所在。您可以不必僅處理單一來源檔案,而是能組合多張照片(最多三張),並指導 Grok 使用多模態輸入 (multimodal input) 提示詞將其合成為一張連貫的輸出。
多圖參考是如何運作的
當上傳超過一張圖像時,Grok 的 Aurora 引擎會使用佔位符語法識別每個來源:<IMAGE_0>、<IMAGE_1> 和 <IMAGE_2>。您的提示詞隨後會參考這些標籤,以引導每張照片對最終結果的貢獻方式。
範例提示詞:"將 <IMAGE_0> 的繪畫風格應用到 <IMAGE_1> 中的主體上,並使用 <IMAGE_2> 作為背景。"
這讓您能在無需手動遮罩或圖層操作的情況下,獲得細膩的構圖控制權。
接下來,讓我們付諸實踐。我將示範使用 Atlas Cloud 的 Grok Image Edit API。
我將設計一個視覺化效果,合併主體 (Subject)、風格參考 (Style reference) 和 環境 (Environment)。以下是我生成的三張基本來源圖像,作為餵入 Grok 處理的「原始素材」。

隨後,這三張圖像被融合在一起;在無縫整合複雜紋理細節和全新環境背景的同時,原始圖像中女性的獨特面部特徵與神韻亦被精確保留。
我的提示詞:
一張結合並融合上述元素的精彩肖像。它呈現了 image_0.png 中那位充滿力量的非洲女性,但她的形象現在由 image_1.png 中混亂的藍寶石色、白色幾何形狀和溫暖的金屬青銅紋理所定義。這些紋理流動在她的皮膚和巨大的銀色幾何耳環上,取代了原始的燈光。她的眼神依然銳利,與 image_0.png 完全一致。整個合成的人物被無縫地融入平靜的日式庭園黃昏背景 (image_2.png) 中,站在石徑與石燈籠後方。抽象紋理與庭園的青苔及暮光和諧交融。風格為精緻的多層次 AI 藝術,銳利且空靈。
注意:從 <IMAGE_0> 合成主體,從 <IMAGE_1> 合成紋理風格,並從 <IMAGE_2> 合成環境。完美保留該女性的面部特徵。僅將抽象紋理應用於她的皮膚和服裝。保留 <IMAGE_2> 中的石燈籠與路徑,但僅限於右下角的前景。確保主體的胸部與頸部區域沒有背景石塊元素。"

此練習證明了 Grok 解析複雜指令層次的出色能力。透過 <IMAGE_0>、<IMAGE_1> 和 <IMAGE_2> 隔離參考,Aurora 引擎無縫執行了高保真的紋理轉移,同時精確保留了身份特徵與環境構圖。
專業提示:
- 鎖定位置: 使用清晰的方位詞,例如「平貼地面」或「右前方角落」。這可以防止背景物體與您的主體產生視覺干擾。
- 遵循標準格式: 務必始終使用確切的 <IMAGE_X> 括號樣式,而不是使用檔案名稱。這有助於 AI 在長篇的逐步編輯中更好地遵循您的指令。
關鍵使用情境
| 技術 | 功能說明 | 範例提示詞 |
|---|---|---|
| 風格轉移 | 將一張照片的視覺風格應用於另一張照片 | "以 <IMAGE_0> 的水彩風格重新繪製 <IMAGE_1>" |
| 角色參考一致性 | 在新場景中鎖定角色的外觀 | "將 <IMAGE_0> 中的角色放入 <IMAGE_1> 的環境中" |
| 背景替換與主體保留 | 保持主體完整,僅更換周圍環境 | "保留 <IMAGE_0> 的人物,並以 <IMAGE_1> 的城市景觀為背景" |
| 服裝或紋理轉移 | 在參考圖之間轉移服裝或表面細節 | "為 <IMAGE_0> 的主體穿上 <IMAGE_1> 中顯示的服裝" |
獲取更好多圖結果的技巧
- 明確說明哪個圖像標籤承擔什麼角色 — Grok 嚴格遵循指令層次。
- 對於風格轉移,使用高對比度的參考圖像以獲得更顯著的效果。
- 若要保持角色參考一致性,請在同一會話的所有提示詞中保持角色參考照片 (<IMAGE_0>) 不變。
- 迭代微調在此非常有效 — 先生成一次,然後調整提示詞進行第二輪處理。
程式化替代方案:開發者 AI 圖像編輯 API 指南
對於技術團隊和企業創作者而言,依賴手動無程式碼介面或行動應用程式並不總是最高效的。如果您的工作流程需要批量處理、動態素材創建或產品整合,您可以透過程式存取核心編輯引擎。
該系統透過託管在 Atlas Cloud 上的 API 整合進行操作,將完全相同的多模態編輯功能公開給您的程式碼使用。
Token 創建與驗證
首先登入您的雲端開發者平台以設定您的憑證。為路由路徑產生一個 API 存取金鑰。此金鑰必須包含在您的後端請求標頭中,以授權安全連線。

HTTP 標頭
plaintext1import os 2 3API_KEY = os.environ.get("ATLASCLOUD_API_KEY") 4headers = { 5 "Content-Type": "application/json", 6 "Authorization": f"Bearer {API_KEY}" 7}
準備參考媒體
確保您所有的目標素材皆可透過程式存取。此端點透過標準公開 URL 或原始 Base64 字串編碼讀取圖像資料。如果您的目標是進階編輯(如角色一致性或紋理轉移),請在編譯程式碼前將參考檔案準備就緒。
對應多模態負載 (Payload)
在建構 JSON POST 請求主體時,將您的來源圖像分配給特定的陣列索引。這與模型的佔位符語法完美對應:
- image_0: "https://your-server.com/main-subject.jpg"
- image_1: "https://your-server.com/style-texture.jpg"
發送指令與匯出
將您的自然語言編輯指令直接輸入至提示詞變數中,並明確使用這些佔位符,例如:「保留 <IMAGE_0> 的人物,但將背景替換為 <IMAGE_1> 的環境」。選擇您偏好的解析度(1K 標準 vs. 2K 品質)並部署。
請求主體範例:
plaintext1{ 2 "model": "xai/grok-imagine-image-quality/edit", 3 "prompt": "your prompt", 4 "image_urls": [ 5 "image_0", 6 "image_1", 7 "image_2" 8 ], 9 "num_images": 1, 10 "resolution": "1k", 11 "aspect_ratio": "3:2", 12 "enable_base64_output": false 13}
撰寫獲勝的 Grok AI 圖像編輯提示詞
您 Grok 圖像編輯提示詞 的品質直接決定了輸出結果。模糊的指令會產生通用的結果;具體、結構化的指令則能給 Aurora 模型明確的作業參數。以下是如何構建真正有效的提示詞。
提示詞公式
一個強大的提示詞遵循此結構:
[動作] + [主體/區域] + [風格或氛圍] + [燈光] + [紋理或空間細節]
例如:"將天空變更為戲劇性的暴風雨場景。使用寫實風格,搭配柔和的低角度光線。在圖片頂部三分之一處添加厚重的雲層細節。"
每一個額外的細節都能減少 AI 的猜測,讓最終圖像更精確。
弱提示詞 vs. 強提示詞比較
| 元素 | 弱提示詞 | 強提示詞 |
|---|---|---|
| 背景變更 | "更改背景" | "將背景替換為迷霧繚繞的日式森林,清晨柔和的光線穿過雪松樹林" |
| 色彩調整 | "讓它變暖" | "將整張圖片調整為黃金時刻色調,暖琥珀色高光,深陰影對比" |
| 寫實風格 | "讓它看起來真實" | "寫實風格,清晰對焦,85mm 鏡頭景深,自然肌膚紋理" |
| 物件移除 | "移除汽車" | "移除左側的紅色汽車,並填入與周圍相符的鵝卵石路面紋理" |
範例:
弱提示詞: 一個戲劇性的暴風雨背景在風景後方,簡約風格,日間。

強提示詞: 廣角、栩栩如生的風景攝影,呈現戲劇性的暴風雨天空。低柔的光線穿過大氣照射在整個場景上。厚重的烏雲在畫面頂部三分之一處層層疊疊。這些雲層在地面投下真實的陰影。整張圖片高度細膩且對焦清晰。

與弱提示詞生成的圖像相比,它自然地融合了高光與陰影,產生了連貫、逼真的編輯效果,而非僅是單純的背景替換。
使用迭代編輯變數
迭代編輯變數允許您在不重建的情況下進行微調。在第一次生成後,一次調整一個變數 — 先調整光線,再調整紋理,最後調整氛圍 — 而不是重寫整個提示詞。這能區分哪些部分發生了變更,並給您帶來可預測的改善方向。
對於針對特定區域的局部繪製 (in-painting) 文字指令,務必明確指出空間位置:"左上角"、"前景主體"、"中景地平線"。這能將模型的注意力錨定在您希望進行編輯的精確位置。
排除 Grok AI 圖像編輯限制與品質規格故障
在擴展您的工作流程之前,了解 Grok 在技術與政策上能與不能產出的內容會有所幫助。以下是彙整後的分類說明。
輸出解析度與長寬比選項
Grok 的 Aurora 引擎支援兩種解析度層級:
| 設定 | 尺寸 | 最適合用途 |
|---|---|---|
| 1K 標準 | 最高 1024×1024 px | 社群貼文、快速模型草圖 |
| 1K — 4:3 長寬比 | 1024×768 像素 | 風景攝影編輯 |
| 2K 品質 | 最高 2048×2048 px | 列印、商業、高細節作品 |
系統支援從 2:1 到 1:2 的 13 種長寬比,涵蓋人像、方形與寬螢幕格式。輸出格式包括 JPEG、PNG 和 WebP — PNG 和 WebP 匯出皆支援 Alpha 通道透明度。
水印
所有透過 Grok 生成或編輯的圖像均帶有 GROK 水印或嵌入的 C2PA 元數據憑證,標示其為 AI 產出內容。此水印目前無法移除,且無論訂閱層級為何,匯出結果均會顯示。
安全防護網與 Deepfake 限制
Grok 在所有帳戶層級實施嚴格的 Deepfake 安全限制。以下內容類別將被封鎖:
- 將真實、可識別人物的臉部換裝
- 任何類型的非自願私密影像
- 旨在傳播錯誤資訊的操縱媒體
觸發這些過濾器的提示詞將直接被拒絕,且不會傳回任何部分輸出。
外繪 (Outpainting) 與 AI 圖像擴展差距
Grok 目前缺乏原生的 AI 圖像擴展或外繪工具。如果您需要將畫布邊界擴展至原始影像邊緣之外,在帶回 Grok 進行進一步編輯前,您需要先使用 Adobe Firefly 或 Stability AI 等專用的外繪工具。
資料隱私註記
除非您透過帳戶隱私設定選擇退出,否則上傳的圖像可能會被用於改進 xAI 的模型。在上傳敏感或專有視覺素材前,請先查閱 xAI 的隱私權政策。
Grok AI 圖像編輯功能 vs. 競爭對手:值得嗎?
當比較 Grok Imagine 與其他 AI 模型時,誠實的回答是:取決於您的優先事項。以下是它在各個關鍵標準上的比較。
正面比較
| 功能 | Grok Imagine | ChatGPT Image 2 | Midjourney V7 |
|---|---|---|---|
| 自然語言編輯 | ✅ 是 | ✅ 是 | ⚠️ 有限 |
| 多圖融合 | ✅ 是 | ✅ 是 | ❌ 否 |
| 圖生影片生成 | ✅ 原生管道 | ❌ 非原生 | ❌ 非原生 |
| 圖像內文字渲染 | ⚠️ 有競爭力 | ✅ 同級最佳 | ⚠️ 中等 |
| 藝術風格化 | ⚠️ 良好 | ⚠️ 良好 | ✅ 同級最佳 |
| 整合式編輯工作流程 | ✅ 單一平台 | ⚠️ 部份 | ❌ 需匯出 |
| 外繪 (Outpainting) | ❌ 不支援 | ✅ 是 | ✅ 是 |
Grok 的勝出之處
Grok 最具說服力的優勢在於其整合式編輯工作流程。您可以編輯一張靜態圖像並直接推送到圖生影片生成中 — 完全無需離開平台。該管道目前在 Artificial Analysis 的圖生影片競技場 (Image-to-Video Arena) 中排名第一,對於追求速度的內容創作者而言,這是一個顯著的優勢。
xAI playground 的速度是另一個真正的差異化特徵。憑藉約 4 秒的文生圖延遲與 13 秒的編輯延遲,迭代週期保持得很短 — 在多輪微調過程中尤其實用。
競爭對手領先之處
ChatGPT 的 GPT Image 2 在圖像內文字準確度與外繪功能上仍保持明顯優勢。Midjourney 依然是藝術與插畫風格的標竿。如果您的主要需求是上述任一項,這些工具仍然是更好的選擇。
總結
對於希望使用單一平台涵蓋編輯、生成與影片製作的用戶,Grok 提供了一個連貫、快速且競爭力日益增強的整合式編輯工作流程,消除了大多數創作者每天必須處理的頻繁切換工具的成本。







