Grok AI 圖像編輯與多圖融合指南

如果您一直在尋找如何使用 Grok AI 圖像編輯功能，簡單的答案是：Grok Imagine 讓您能夠透過簡單的自然語言提示詞 (prompts)，對現有圖像進行修改、更換背景、調整色彩以及同時融合最多三張照片，完全無需任何設計軟體。

此功能目前開放給 X Premium 訂閱者，直接在 X 應用程式內即可使用。您也可以透過網頁版 grok.com 或 Grok 行動應用程式使用。無論在電腦還是手機上，操作流程完全相同：只需打開 Grok，上傳您的圖像，並用簡單的文字描述您想要的變更即可。

本指南將分步驟介紹如何使用此工具，並教您如何撰寫真正有效的提示詞，讓您能立即上手編輯圖像，無需任何技術背景。

適用對象：

X Premium 或 X Premium+ 訂閱者
Grok 獨立應用程式（網頁版或行動版）用戶
任何希望使用 AI 進行圖像編輯且不想使用複雜工具的使用者

讓我們開始吧。

了解 Grok AI 圖像編輯功能與帳戶需求

Grok AI 圖像生成器 運行於 Aurora 模型之上。這是 xAI 自家研發的自回歸模型，能同時處理圖像的生成與編輯。與大多數使用擴散模型（diffusion）的工具不同，Aurora 逐個 token 處理圖像，這種方法在修改照片特定部位時能提供更好的一致性。

誰可以使用？

存取權限取決於您使用 Grok 的平台與方式：

平台	所需存取層級
X (Twitter) 應用程式 — 公共動態圖像生成	X Premium 訂閱 (Basic, Premium 或 Premium+)
Grok 網頁版 (grok.com)	免費 Grok 帳號（受使用次數限制）
Grok 行動應用程式 (iOS/Android)	免費 Grok 帳號（受使用次數限制）
進階編輯與較高使用量	X Premium+ 或 SuperGrok 訂閱

須知的關鍵圖像編輯限制

在開始之前，請注意這些 圖像編輯限制：

免費 Grok 應用程式用戶每日有圖像生成次數上限
所有層級皆禁止生成露骨或違反政策的內容
多圖融合功能（最多 3 張照片）可能會根據目前的推出狀態，要求付費層級才可使用
功能可用性可能因地區而異

在開始前檢查您的訂閱層級，可避免後續操作時遇到阻礙。

分步指南：如何在 X 和網頁版上使用 Grok AI 圖像編輯功能

無論您是在 X 應用程式內操作，還是透過獨立的 Grok 網頁介面，Grok AI 圖像編輯功能的使用方法皆遵循相同的邏輯順序。以下是完整的操作 walkthrough。

第 1 步：存取 Grok 並開啟圖像編輯器

前往 grok.com 或開啟 Grok 行動應用程式 (iOS/Android)
在 X 的側邊欄（若使用 X/Twitter）或網頁版的主聊天介面中找到 Grok 圖示
點擊圖像附件圖示以上傳圖像 — 支援的格式包括 JPEG、PNG 和 WebP

存取 Grok 並開啟圖像編輯器

第 2 步：觸發編輯模式

上傳圖像後，介面會自動啟動編輯模式。您會看到編輯圖像按鈕出現在上傳檔案旁。點擊它進入編輯畫布。

第 3 步：撰寫您的修改提示詞

這是最關鍵的部分。請使用平實的語言輸入清晰、具描述性的修改提示詞 (revision prompt)，例如：

目標	範例提示詞
更換背景	"將背景替換為海洋上的日落"
調整色調	"讓整張圖片呈現更溫暖、更金黃的色調"
新增物件	"在圖片左側新增一把紅雨傘"
融合兩張圖	"將 <IMAGE_0> 和 <IMAGE_1> 合併為一個連貫的場景"

第 4 步：生成與微調

點擊 Run 並等待約 13 秒即可看到結果。如果輸出結果需要進一步調整，只需再寫下另一個修改提示詞即可 — 該模型支援多輪迭代編輯，無需從頭開始。

進階技巧：如何使用 Grok 多圖編輯與融合

Grok 的多圖編輯功能是該工具與大多數消費級 AI 編輯器真正的差異所在。您可以不必僅處理單一來源檔案，而是能組合多張照片（最多三張），並指導 Grok 使用多模態輸入 (multimodal input) 提示詞將其合成為一張連貫的輸出。

多圖參考是如何運作的

當上傳超過一張圖像時，Grok 的 Aurora 引擎會使用佔位符語法識別每個來源：<IMAGE_0>、<IMAGE_1> 和 <IMAGE_2>。您的提示詞隨後會參考這些標籤，以引導每張照片對最終結果的貢獻方式。

範例提示詞："將 <IMAGE_0> 的繪畫風格應用到 <IMAGE_1> 中的主體上，並使用 <IMAGE_2> 作為背景。"

這讓您能在無需手動遮罩或圖層操作的情況下，獲得細膩的構圖控制權。

接下來，讓我們付諸實踐。我將示範使用 Atlas Cloud 的 Grok Image Edit API。

我將設計一個視覺化效果，合併主體 (Subject)、風格參考 (Style reference) 和 環境 (Environment)。以下是我生成的三張基本來源圖像，作為餵入 Grok 處理的「原始素材」。

3 張圖像合成，結合了主體、風格參考和環境，作為餵入 Grok Imagine 處理的「原始素材」。

隨後，這三張圖像被融合在一起；在無縫整合複雜紋理細節和全新環境背景的同時，原始圖像中女性的獨特面部特徵與神韻亦被精確保留。

我的提示詞：

一張結合並融合上述元素的精彩肖像。它呈現了 image_0.png 中那位充滿力量的非洲女性，但她的形象現在由 image_1.png 中混亂的藍寶石色、白色幾何形狀和溫暖的金屬青銅紋理所定義。這些紋理流動在她的皮膚和巨大的銀色幾何耳環上，取代了原始的燈光。她的眼神依然銳利，與 image_0.png 完全一致。整個合成的人物被無縫地融入平靜的日式庭園黃昏背景 (image_2.png) 中，站在石徑與石燈籠後方。抽象紋理與庭園的青苔及暮光和諧交融。風格為精緻的多層次 AI 藝術，銳利且空靈。

注意：從 <IMAGE_0> 合成主體，從 <IMAGE_1> 合成紋理風格，並從 <IMAGE_2> 合成環境。完美保留該女性的面部特徵。僅將抽象紋理應用於她的皮膚和服裝。保留 <IMAGE_2> 中的石燈籠與路徑，但僅限於右下角的前景。確保主體的胸部與頸部區域沒有背景石塊元素。"

結果顯示：透過 <IMAGE_0>、<IMAGE_1> 和 <IMAGE_2> 的隔離參考，Grok Imagine 引擎無縫執行了高保真紋理轉換，同時保留了身份特徵與環境構圖。

此練習證明了 Grok 解析複雜指令層次的出色能力。透過 <IMAGE_0>、<IMAGE_1> 和 <IMAGE_2> 隔離參考，Aurora 引擎無縫執行了高保真的紋理轉移，同時精確保留了身份特徵與環境構圖。

專業提示：

鎖定位置： 使用清晰的方位詞，例如「平貼地面」或「右前方角落」。這可以防止背景物體與您的主體產生視覺干擾。

遵循標準格式： 務必始終使用確切的 <IMAGE_X> 括號樣式，而不是使用檔案名稱。這有助於 AI 在長篇的逐步編輯中更好地遵循您的指令。

關鍵使用情境

技術	功能說明	範例提示詞
風格轉移	將一張照片的視覺風格應用於另一張照片	"以 <IMAGE_0> 的水彩風格重新繪製 <IMAGE_1>"
角色參考一致性	在新場景中鎖定角色的外觀	"將 <IMAGE_0> 中的角色放入 <IMAGE_1> 的環境中"
背景替換與主體保留	保持主體完整，僅更換周圍環境	"保留 <IMAGE_0> 的人物，並以 <IMAGE_1> 的城市景觀為背景"
服裝或紋理轉移	在參考圖之間轉移服裝或表面細節	"為 <IMAGE_0> 的主體穿上 <IMAGE_1> 中顯示的服裝"

獲取更好多圖結果的技巧

明確說明哪個圖像標籤承擔什麼角色 — Grok 嚴格遵循指令層次。
對於風格轉移，使用高對比度的參考圖像以獲得更顯著的效果。
若要保持角色參考一致性，請在同一會話的所有提示詞中保持角色參考照片 (<IMAGE_0>) 不變。
迭代微調在此非常有效 — 先生成一次，然後調整提示詞進行第二輪處理。

程式化替代方案：開發者 AI 圖像編輯 API 指南

對於技術團隊和企業創作者而言，依賴手動無程式碼介面或行動應用程式並不總是最高效的。如果您的工作流程需要批量處理、動態素材創建或產品整合，您可以透過程式存取核心編輯引擎。

該系統透過託管在 Atlas Cloud 上的 API 整合進行操作，將完全相同的多模態編輯功能公開給您的程式碼使用。

Token 創建與驗證

首先登入您的雲端開發者平台以設定您的憑證。為路由路徑產生一個 API 存取金鑰。此金鑰必須包含在您的後端請求標頭中，以授權安全連線。

在 Atlas Cloud 上創建 API 金鑰

HTTP 標頭

plaintext
1import os
2
3API_KEY = os.environ.get("ATLASCLOUD_API_KEY")
4headers = {
5    "Content-Type": "application/json",
6    "Authorization": f"Bearer {API_KEY}"
7}

準備參考媒體

確保您所有的目標素材皆可透過程式存取。此端點透過標準公開 URL 或原始 Base64 字串編碼讀取圖像資料。如果您的目標是進階編輯（如角色一致性或紋理轉移），請在編譯程式碼前將參考檔案準備就緒。

對應多模態負載 (Payload)

在建構 JSON POST 請求主體時，將您的來源圖像分配給特定的陣列索引。這與模型的佔位符語法完美對應：

image_0: "https://your-server.com/main-subject.jpg"
image_1: "https://your-server.com/style-texture.jpg"

發送指令與匯出

將您的自然語言編輯指令直接輸入至提示詞變數中，並明確使用這些佔位符，例如：「保留 <IMAGE_0> 的人物，但將背景替換為 <IMAGE_1> 的環境」。選擇您偏好的解析度（1K 標準 vs. 2K 品質）並部署。

請求主體範例：

plaintext
1{
2  "model": "xai/grok-imagine-image-quality/edit",
3  "prompt": "your prompt",
4  "image_urls": [
5    "image_0",
6    "image_1",
7    "image_2"
8  ],
9  "num_images": 1,
10  "resolution": "1k",
11  "aspect_ratio": "3:2",
12  "enable_base64_output": false
13}

撰寫獲勝的 Grok AI 圖像編輯提示詞

您 Grok 圖像編輯提示詞 的品質直接決定了輸出結果。模糊的指令會產生通用的結果；具體、結構化的指令則能給 Aurora 模型明確的作業參數。以下是如何構建真正有效的提示詞。

提示詞公式

一個強大的提示詞遵循此結構：

[動作] + [主體/區域] + [風格或氛圍] + [燈光] + [紋理或空間細節]

例如："將天空變更為戲劇性的暴風雨場景。使用寫實風格，搭配柔和的低角度光線。在圖片頂部三分之一處添加厚重的雲層細節。"

每一個額外的細節都能減少 AI 的猜測，讓最終圖像更精確。

弱提示詞 vs. 強提示詞比較

元素	弱提示詞	強提示詞
背景變更	"更改背景"	"將背景替換為迷霧繚繞的日式森林，清晨柔和的光線穿過雪松樹林"
色彩調整	"讓它變暖"	"將整張圖片調整為黃金時刻色調，暖琥珀色高光，深陰影對比"
寫實風格	"讓它看起來真實"	"寫實風格，清晰對焦，85mm 鏡頭景深，自然肌膚紋理"
物件移除	"移除汽車"	"移除左側的紅色汽車，並填入與周圍相符的鵝卵石路面紋理"

範例：

弱提示詞： 一個戲劇性的暴風雨背景在風景後方，簡約風格，日間。

Grok Imagine 弱提示詞：一個戲劇性的暴風雨背景在風景後方，簡約風格，日間。

強提示詞： 廣角、栩栩如生的風景攝影，呈現戲劇性的暴風雨天空。低柔的光線穿過大氣照射在整個場景上。厚重的烏雲在畫面頂部三分之一處層層疊疊。這些雲層在地面投下真實的陰影。整張圖片高度細膩且對焦清晰。

Grok Imagine 強提示詞：整張圖片高度細膩且對焦清晰。

與弱提示詞生成的圖像相比，它自然地融合了高光與陰影，產生了連貫、逼真的編輯效果，而非僅是單純的背景替換。

使用迭代編輯變數

迭代編輯變數允許您在不重建的情況下進行微調。在第一次生成後，一次調整一個變數 — 先調整光線，再調整紋理，最後調整氛圍 — 而不是重寫整個提示詞。這能區分哪些部分發生了變更，並給您帶來可預測的改善方向。

對於針對特定區域的局部繪製 (in-painting) 文字指令，務必明確指出空間位置："左上角"、"前景主體"、"中景地平線"。這能將模型的注意力錨定在您希望進行編輯的精確位置。

排除 Grok AI 圖像編輯限制與品質規格故障

在擴展您的工作流程之前，了解 Grok 在技術與政策上能與不能產出的內容會有所幫助。以下是彙整後的分類說明。

輸出解析度與長寬比選項

Grok 的 Aurora 引擎支援兩種解析度層級：

設定	尺寸	最適合用途
1K 標準	最高 1024×1024 px	社群貼文、快速模型草圖
1K — 4:3 長寬比	1024×768 像素	風景攝影編輯
2K 品質	最高 2048×2048 px	列印、商業、高細節作品

系統支援從 2:1 到 1:2 的 13 種長寬比，涵蓋人像、方形與寬螢幕格式。輸出格式包括 JPEG、PNG 和 WebP — PNG 和 WebP 匯出皆支援 Alpha 通道透明度。

水印

所有透過 Grok 生成或編輯的圖像均帶有 GROK 水印或嵌入的 C2PA 元數據憑證，標示其為 AI 產出內容。此水印目前無法移除，且無論訂閱層級為何，匯出結果均會顯示。

安全防護網與 Deepfake 限制

Grok 在所有帳戶層級實施嚴格的 Deepfake 安全限制。以下內容類別將被封鎖：

將真實、可識別人物的臉部換裝
任何類型的非自願私密影像
旨在傳播錯誤資訊的操縱媒體

觸發這些過濾器的提示詞將直接被拒絕，且不會傳回任何部分輸出。

外繪 (Outpainting) 與 AI 圖像擴展差距

Grok 目前缺乏原生的 AI 圖像擴展或外繪工具。如果您需要將畫布邊界擴展至原始影像邊緣之外，在帶回 Grok 進行進一步編輯前，您需要先使用 Adobe Firefly 或 Stability AI 等專用的外繪工具。

資料隱私註記

除非您透過帳戶隱私設定選擇退出，否則上傳的圖像可能會被用於改進 xAI 的模型。在上傳敏感或專有視覺素材前，請先查閱 xAI 的隱私權政策。

Grok AI 圖像編輯功能 vs. 競爭對手：值得嗎？

當比較 Grok Imagine 與其他 AI 模型時，誠實的回答是：取決於您的優先事項。以下是它在各個關鍵標準上的比較。

正面比較

功能	Grok Imagine	ChatGPT Image 2	Midjourney V7
自然語言編輯	✅ 是	✅ 是	⚠️ 有限
多圖融合	✅ 是	✅ 是	❌ 否
圖生影片生成	✅ 原生管道	❌ 非原生	❌ 非原生
圖像內文字渲染	⚠️ 有競爭力	✅ 同級最佳	⚠️ 中等
藝術風格化	⚠️ 良好	⚠️ 良好	✅ 同級最佳
整合式編輯工作流程	✅ 單一平台	⚠️ 部份	❌ 需匯出
外繪 (Outpainting)	❌ 不支援	✅ 是	✅ 是

Grok 的勝出之處

Grok 最具說服力的優勢在於其整合式編輯工作流程。您可以編輯一張靜態圖像並直接推送到圖生影片生成中 — 完全無需離開平台。該管道目前在 Artificial Analysis 的圖生影片競技場 (Image-to-Video Arena) 中排名第一，對於追求速度的內容創作者而言，這是一個顯著的優勢。

xAI playground 的速度是另一個真正的差異化特徵。憑藉約 4 秒的文生圖延遲與 13 秒的編輯延遲，迭代週期保持得很短 — 在多輪微調過程中尤其實用。

競爭對手領先之處

ChatGPT 的 GPT Image 2 在圖像內文字準確度與外繪功能上仍保持明顯優勢。Midjourney 依然是藝術與插畫風格的標竿。如果您的主要需求是上述任一項，這些工具仍然是更好的選擇。

總結

對於希望使用單一平台涵蓋編輯、生成與影片製作的用戶，Grok 提供了一個連貫、快速且競爭力日益增強的整合式編輯工作流程，消除了大多數創作者每天必須處理的頻繁切換工具的成本。

返回列表

如何使用 Grok AI 圖像編輯功能：分步指南