如何使用 Grok AI 圖像編輯功能:分步指南

精通 Grok AI 圖像編輯!學習如何修改圖像、使用進階的多圖混合提示詞,並簡化您的程式化 API 工作流程。

如何使用 Grok AI 圖像編輯功能:分步指南

如果您一直在尋找如何使用 Grok AI 圖像編輯功能,簡單的答案是:Grok Imagine 讓您能夠透過簡單的自然語言提示詞 (prompts),對現有圖像進行修改、更換背景、調整色彩以及同時融合最多三張照片,完全無需任何設計軟體。

此功能目前開放給 X Premium 訂閱者,直接在 X 應用程式內即可使用。您也可以透過網頁版 grok.com 或 Grok 行動應用程式使用。無論在電腦還是手機上,操作流程完全相同:只需打開 Grok,上傳您的圖像,並用簡單的文字描述您想要的變更即可。

本指南將分步驟介紹如何使用此工具,並教您如何撰寫真正有效的提示詞,讓您能立即上手編輯圖像,無需任何技術背景。

適用對象:

  • X PremiumX Premium+ 訂閱者
  • Grok 獨立應用程式(網頁版或行動版)用戶
  • 任何希望使用 AI 進行圖像編輯且不想使用複雜工具的使用者

讓我們開始吧。

了解 Grok AI 圖像編輯功能與帳戶需求

Grok AI 圖像生成器 運行於 Aurora 模型之上。這是 xAI 自家研發的自回歸模型,能同時處理圖像的生成與編輯。與大多數使用擴散模型(diffusion)的工具不同,Aurora 逐個 token 處理圖像,這種方法在修改照片特定部位時能提供更好的一致性。

誰可以使用?

存取權限取決於您使用 Grok 的平台與方式:

平台所需存取層級
X (Twitter) 應用程式 — 公共動態圖像生成X Premium 訂閱 (Basic, Premium 或 Premium+)
Grok 網頁版 (grok.com)免費 Grok 帳號(受使用次數限制)
Grok 行動應用程式 (iOS/Android)免費 Grok 帳號(受使用次數限制)
進階編輯與較高使用量X Premium+ 或 SuperGrok 訂閱

須知的關鍵圖像編輯限制

在開始之前,請注意這些 圖像編輯限制

  • 免費 Grok 應用程式用戶每日有圖像生成次數上限
  • 所有層級皆禁止生成露骨或違反政策的內容
  • 多圖融合功能(最多 3 張照片)可能會根據目前的推出狀態,要求付費層級才可使用
  • 功能可用性可能因地區而異

在開始前檢查您的訂閱層級,可避免後續操作時遇到阻礙。

分步指南:如何在 X 和網頁版上使用 Grok AI 圖像編輯功能

無論您是在 X 應用程式內操作,還是透過獨立的 Grok 網頁介面,Grok AI 圖像編輯功能的使用方法皆遵循相同的邏輯順序。以下是完整的操作 walkthrough。

第 1 步:存取 Grok 並開啟圖像編輯器

  1. 前往 grok.com 或開啟 Grok 行動應用程式 (iOS/Android)
  2. 在 X 的側邊欄(若使用 X/Twitter)或網頁版的主聊天介面中找到 Grok 圖示
  3. 點擊圖像附件圖示以上傳圖像 — 支援的格式包括 JPEG、PNG 和 WebP

存取 Grok 並開啟圖像編輯器

第 2 步:觸發編輯模式

上傳圖像後,介面會自動啟動編輯模式。您會看到編輯圖像按鈕出現在上傳檔案旁。點擊它進入編輯畫布。

第 3 步:撰寫您的修改提示詞

這是最關鍵的部分。請使用平實的語言輸入清晰、具描述性的修改提示詞 (revision prompt),例如:

目標範例提示詞
更換背景"將背景替換為海洋上的日落"
調整色調"讓整張圖片呈現更溫暖、更金黃的色調"
新增物件"在圖片左側新增一把紅雨傘"
融合兩張圖"將 <IMAGE_0> 和 <IMAGE_1> 合併為一個連貫的場景"

第 4 步:生成與微調

點擊 Run 並等待約 13 秒即可看到結果。如果輸出結果需要進一步調整,只需再寫下另一個修改提示詞即可 — 該模型支援多輪迭代編輯,無需從頭開始。

進階技巧:如何使用 Grok 多圖編輯與融合

Grok 的多圖編輯功能是該工具與大多數消費級 AI 編輯器真正的差異所在。您可以不必僅處理單一來源檔案,而是能組合多張照片(最多三張),並指導 Grok 使用多模態輸入 (multimodal input) 提示詞將其合成為一張連貫的輸出。

多圖參考是如何運作的

當上傳超過一張圖像時,Grok 的 Aurora 引擎會使用佔位符語法識別每個來源:<IMAGE_0>、<IMAGE_1> 和 <IMAGE_2>。您的提示詞隨後會參考這些標籤,以引導每張照片對最終結果的貢獻方式。

範例提示詞:"將 <IMAGE_0> 的繪畫風格應用到 <IMAGE_1> 中的主體上,並使用 <IMAGE_2> 作為背景。"

這讓您能在無需手動遮罩或圖層操作的情況下,獲得細膩的構圖控制權。

接下來,讓我們付諸實踐。我將示範使用 Atlas Cloud 的 Grok Image Edit API

我將設計一個視覺化效果,合併主體 (Subject)風格參考 (Style reference)環境 (Environment)。以下是我生成的三張基本來源圖像,作為餵入 Grok 處理的「原始素材」。

3 張圖像合成,結合了主體、風格參考和環境,作為餵入 Grok Imagine 處理的「原始素材」。

隨後,這三張圖像被融合在一起;在無縫整合複雜紋理細節和全新環境背景的同時,原始圖像中女性的獨特面部特徵與神韻亦被精確保留。

我的提示詞:

一張結合並融合上述元素的精彩肖像。它呈現了 image_0.png 中那位充滿力量的非洲女性,但她的形象現在由 image_1.png 中混亂的藍寶石色、白色幾何形狀和溫暖的金屬青銅紋理所定義。這些紋理流動在她的皮膚和巨大的銀色幾何耳環上,取代了原始的燈光。她的眼神依然銳利,與 image_0.png 完全一致。整個合成的人物被無縫地融入平靜的日式庭園黃昏背景 (image_2.png) 中,站在石徑與石燈籠後方。抽象紋理與庭園的青苔及暮光和諧交融。風格為精緻的多層次 AI 藝術,銳利且空靈。

注意:從 <IMAGE_0> 合成主體,從 <IMAGE_1> 合成紋理風格,並從 <IMAGE_2> 合成環境。完美保留該女性的面部特徵。僅將抽象紋理應用於她的皮膚和服裝。保留 <IMAGE_2> 中的石燈籠與路徑,但僅限於右下角的前景。確保主體的胸部與頸部區域沒有背景石塊元素。"

結果顯示:透過 <IMAGE_0>、<IMAGE_1> 和 <IMAGE_2> 的隔離參考,Grok Imagine 引擎無縫執行了高保真紋理轉換,同時保留了身份特徵與環境構圖。

此練習證明了 Grok 解析複雜指令層次的出色能力。透過 <IMAGE_0>、<IMAGE_1> 和 <IMAGE_2> 隔離參考,Aurora 引擎無縫執行了高保真的紋理轉移,同時精確保留了身份特徵與環境構圖。

專業提示:

  • 鎖定位置: 使用清晰的方位詞,例如「平貼地面」或「右前方角落」。這可以防止背景物體與您的主體產生視覺干擾。
  • 遵循標準格式: 務必始終使用確切的 <IMAGE_X> 括號樣式,而不是使用檔案名稱。這有助於 AI 在長篇的逐步編輯中更好地遵循您的指令。

關鍵使用情境

技術功能說明範例提示詞
風格轉移將一張照片的視覺風格應用於另一張照片"以 <IMAGE_0> 的水彩風格重新繪製 <IMAGE_1>"
角色參考一致性在新場景中鎖定角色的外觀"將 <IMAGE_0> 中的角色放入 <IMAGE_1> 的環境中"
背景替換與主體保留保持主體完整,僅更換周圍環境"保留 <IMAGE_0> 的人物,並以 <IMAGE_1> 的城市景觀為背景"
服裝或紋理轉移在參考圖之間轉移服裝或表面細節"為 <IMAGE_0> 的主體穿上 <IMAGE_1> 中顯示的服裝"

獲取更好多圖結果的技巧

  • 明確說明哪個圖像標籤承擔什麼角色 — Grok 嚴格遵循指令層次。
  • 對於風格轉移,使用高對比度的參考圖像以獲得更顯著的效果。
  • 若要保持角色參考一致性,請在同一會話的所有提示詞中保持角色參考照片 (<IMAGE_0>) 不變。
  • 迭代微調在此非常有效 — 先生成一次,然後調整提示詞進行第二輪處理。

程式化替代方案:開發者 AI 圖像編輯 API 指南

對於技術團隊和企業創作者而言,依賴手動無程式碼介面或行動應用程式並不總是最高效的。如果您的工作流程需要批量處理、動態素材創建或產品整合,您可以透過程式存取核心編輯引擎。

該系統透過託管在 Atlas Cloud 上的 API 整合進行操作,將完全相同的多模態編輯功能公開給您的程式碼使用。

Token 創建與驗證

首先登入您的雲端開發者平台以設定您的憑證。為路由路徑產生一個 API 存取金鑰。此金鑰必須包含在您的後端請求標頭中,以授權安全連線。

在 Atlas Cloud 上創建 API 金鑰

HTTP 標頭

plaintext
1import os
2
3API_KEY = os.environ.get("ATLASCLOUD_API_KEY")
4headers = {
5    "Content-Type": "application/json",
6    "Authorization": f"Bearer {API_KEY}"
7}

準備參考媒體

確保您所有的目標素材皆可透過程式存取。此端點透過標準公開 URL 或原始 Base64 字串編碼讀取圖像資料。如果您的目標是進階編輯(如角色一致性或紋理轉移),請在編譯程式碼前將參考檔案準備就緒。

對應多模態負載 (Payload)

在建構 JSON POST 請求主體時,將您的來源圖像分配給特定的陣列索引。這與模型的佔位符語法完美對應:

發送指令與匯出

將您的自然語言編輯指令直接輸入至提示詞變數中,並明確使用這些佔位符,例如:「保留 <IMAGE_0> 的人物,但將背景替換為 <IMAGE_1> 的環境」。選擇您偏好的解析度(1K 標準 vs. 2K 品質)並部署。

請求主體範例:

plaintext
1{
2  "model": "xai/grok-imagine-image-quality/edit",
3  "prompt": "your prompt",
4  "image_urls": [
5    "image_0",
6    "image_1",
7    "image_2"
8  ],
9  "num_images": 1,
10  "resolution": "1k",
11  "aspect_ratio": "3:2",
12  "enable_base64_output": false
13}

撰寫獲勝的 Grok AI 圖像編輯提示詞

Grok 圖像編輯提示詞 的品質直接決定了輸出結果。模糊的指令會產生通用的結果;具體、結構化的指令則能給 Aurora 模型明確的作業參數。以下是如何構建真正有效的提示詞。

提示詞公式

一個強大的提示詞遵循此結構:

[動作] + [主體/區域] + [風格或氛圍] + [燈光] + [紋理或空間細節]

例如:"將天空變更為戲劇性的暴風雨場景。使用寫實風格,搭配柔和的低角度光線。在圖片頂部三分之一處添加厚重的雲層細節。"

每一個額外的細節都能減少 AI 的猜測,讓最終圖像更精確。

弱提示詞 vs. 強提示詞比較

元素弱提示詞強提示詞
背景變更"更改背景""將背景替換為迷霧繚繞的日式森林,清晨柔和的光線穿過雪松樹林"
色彩調整"讓它變暖""將整張圖片調整為黃金時刻色調,暖琥珀色高光,深陰影對比"
寫實風格"讓它看起來真實""寫實風格,清晰對焦,85mm 鏡頭景深,自然肌膚紋理"
物件移除"移除汽車""移除左側的紅色汽車,並填入與周圍相符的鵝卵石路面紋理"

範例:

弱提示詞: 一個戲劇性的暴風雨背景在風景後方,簡約風格,日間。

Grok Imagine 弱提示詞:一個戲劇性的暴風雨背景在風景後方,簡約風格,日間。

強提示詞: 廣角、栩栩如生的風景攝影,呈現戲劇性的暴風雨天空。低柔的光線穿過大氣照射在整個場景上。厚重的烏雲在畫面頂部三分之一處層層疊疊。這些雲層在地面投下真實的陰影。整張圖片高度細膩且對焦清晰。

Grok Imagine 強提示詞:整張圖片高度細膩且對焦清晰。

與弱提示詞生成的圖像相比,它自然地融合了高光與陰影,產生了連貫、逼真的編輯效果,而非僅是單純的背景替換。

使用迭代編輯變數

迭代編輯變數允許您在不重建的情況下進行微調。在第一次生成後,一次調整一個變數 — 先調整光線,再調整紋理,最後調整氛圍 — 而不是重寫整個提示詞。這能區分哪些部分發生了變更,並給您帶來可預測的改善方向。

對於針對特定區域的局部繪製 (in-painting) 文字指令,務必明確指出空間位置:"左上角"、"前景主體"、"中景地平線"。這能將模型的注意力錨定在您希望進行編輯的精確位置。

排除 Grok AI 圖像編輯限制與品質規格故障

在擴展您的工作流程之前,了解 Grok 在技術與政策上能與不能產出的內容會有所幫助。以下是彙整後的分類說明。

輸出解析度與長寬比選項

Grok 的 Aurora 引擎支援兩種解析度層級:

設定尺寸最適合用途
1K 標準最高 1024×1024 px社群貼文、快速模型草圖
1K — 4:3 長寬比1024×768 像素風景攝影編輯
2K 品質最高 2048×2048 px列印、商業、高細節作品

系統支援從 2:1 到 1:2 的 13 種長寬比,涵蓋人像、方形與寬螢幕格式。輸出格式包括 JPEG、PNG 和 WebP — PNG 和 WebP 匯出皆支援 Alpha 通道透明度。

水印

所有透過 Grok 生成或編輯的圖像均帶有 GROK 水印或嵌入的 C2PA 元數據憑證,標示其為 AI 產出內容。此水印目前無法移除,且無論訂閱層級為何,匯出結果均會顯示。

安全防護網與 Deepfake 限制

Grok 在所有帳戶層級實施嚴格的 Deepfake 安全限制。以下內容類別將被封鎖:

  • 將真實、可識別人物的臉部換裝
  • 任何類型的非自願私密影像
  • 旨在傳播錯誤資訊的操縱媒體

觸發這些過濾器的提示詞將直接被拒絕,且不會傳回任何部分輸出。

外繪 (Outpainting) 與 AI 圖像擴展差距

Grok 目前缺乏原生的 AI 圖像擴展或外繪工具。如果您需要將畫布邊界擴展至原始影像邊緣之外,在帶回 Grok 進行進一步編輯前,您需要先使用 Adobe Firefly 或 Stability AI 等專用的外繪工具。

資料隱私註記

除非您透過帳戶隱私設定選擇退出,否則上傳的圖像可能會被用於改進 xAI 的模型。在上傳敏感或專有視覺素材前,請先查閱 xAI 的隱私權政策

Grok AI 圖像編輯功能 vs. 競爭對手:值得嗎?

當比較 Grok Imagine 與其他 AI 模型時,誠實的回答是:取決於您的優先事項。以下是它在各個關鍵標準上的比較。

正面比較

功能Grok ImagineChatGPT Image 2Midjourney V7
自然語言編輯✅ 是✅ 是⚠️ 有限
多圖融合✅ 是✅ 是❌ 否
圖生影片生成✅ 原生管道❌ 非原生❌ 非原生
圖像內文字渲染⚠️ 有競爭力✅ 同級最佳⚠️ 中等
藝術風格化⚠️ 良好⚠️ 良好✅ 同級最佳
整合式編輯工作流程✅ 單一平台⚠️ 部份❌ 需匯出
外繪 (Outpainting)❌ 不支援✅ 是✅ 是

Grok 的勝出之處

Grok 最具說服力的優勢在於其整合式編輯工作流程。您可以編輯一張靜態圖像並直接推送到圖生影片生成中 — 完全無需離開平台。該管道目前在 Artificial Analysis 的圖生影片競技場 (Image-to-Video Arena) 中排名第一,對於追求速度的內容創作者而言,這是一個顯著的優勢。

xAI playground 的速度是另一個真正的差異化特徵。憑藉約 4 秒的文生圖延遲與 13 秒的編輯延遲,迭代週期保持得很短 — 在多輪微調過程中尤其實用。

競爭對手領先之處

ChatGPT 的 GPT Image 2 在圖像內文字準確度與外繪功能上仍保持明顯優勢。Midjourney 依然是藝術與插畫風格的標竿。如果您的主要需求是上述任一項,這些工具仍然是更好的選擇。

總結

對於希望使用單一平台涵蓋編輯、生成與影片製作的用戶,Grok 提供了一個連貫、快速且競爭力日益增強的整合式編輯工作流程,消除了大多數創作者每天必須處理的頻繁切換工具的成本。

最新模型

300+ 模型,即刻開啟,

探索全部模型

Join our Discord community

Join the Discord community for the latest model updates, prompts, and support.