AI 繪圖提示詞教學:用中文描述,生出專業級 Midjourney/DALL·E 圖

你用中文打了「幫我畫一隻可愛的貓」,結果生出來的圖時而像照片、時而像塗鴉,連著抽十次都不滿意——這不是你的問題,是你還沒學會「翻譯畫面」的方法

這篇要解決的問題:把腦中的中文畫面,準確變成 Midjourney、DALL·E、Stable Diffusion 看得懂的專業提示詞,而不是靠運氣抽卡。 適合誰讀:社群小編、電商賣家、設計助理、自媒體經營者,以及任何不會下英文卻想穩定出圖的人。 讀完你會得到:一套「中文描述 → 六欄位拆解 → 英文關鍵詞」的固定流程、可複製的 Prompt 範本、一張中翻英 Workflow 流程圖、一個進階加權與多模態實戰段落,以及兩個台灣小編、電商賣家把出圖時間砍半的真實案例。

為什麼你的 AI 繪圖總是「歪掉」

多數人卡關,不是審美問題,而是溝通方式錯了。AI 繪圖模型不是讀懂「一句中文的意思」,而是讀懂「一串關鍵詞的權重」。你寫「可愛的貓」,模型不知道你要的是日系手繪、3D 皮克斯風、還是寫實攝影;不知道鏡頭遠近、光從哪來、背景是什麼色調。資訊缺口,全被模型自由發揮,於是每次都不一樣。

更底層一點說:擴散模型(diffusion model)的運作,是先把一張純雜訊的圖,依照你的提示詞「逐步去雜訊」還原成畫面。你給的關鍵詞越具體、權重分配越清楚,它每一步的「方向感」就越穩;你給得越模糊,它每一步都在猜,自然每次都飄到不同地方。這就是為什麼「同一句模糊中文」會抽出十種風格——不是模型不穩,是你的指令本身就有十種解讀空間。

常見三個誤區:

解法很簡單:先把畫面想清楚(用中文),再用固定欄位翻成英文關鍵詞(用公式)。 描述歸描述、翻譯歸翻譯,分兩步走,圖就會穩。這種「先想清楚、再結構化輸出」的思路,和 Prompt 框架大全 主張的方法論完全一致——好的提示詞,從來不是靈感,而是工程。

核心概念:把「畫面」拆成六個欄位

我把專業提示詞拆成六個欄位。你只要逐欄填中文、再逐欄翻英文,不必再煩惱「整句怎麼寫」。

欄位它回答什麼問題中文範例英文關鍵詞範例
主體 Subject畫面主角是誰/什麼一隻橘貓坐在窗台an orange cat sitting on a windowsill
風格 Style像什麼類型的作品日系手繪插畫Japanese hand-drawn illustration, anime style
構圖 Composition鏡頭遠近與角度特寫、由下往上close-up shot, low angle
光線 Lighting光源與氛圍黃昏逆光、柔和golden hour backlight, soft lighting
色調 Color主色與調性暖色、低飽和warm tones, muted colors
畫質 Quality細節與解析度高細節、4Khighly detailed, 4K, sharp focus

一句話記住:主體決定「畫什麼」,後五欄決定「畫得像不像你要的」。 多數人只寫了主體,難怪風格全靠運氣。把六欄填滿,你就掌握了 90% 的可控性。這套拆解邏輯,本質上和 Prompt 框架大全 強調的「結構化輸入」一脈相承——好的提示詞都是「有欄位、可調整」的。

六欄位的「資訊密度」要怎麼拿捏

填欄位時最常見的失敗,是每一欄都寫得太少或太多。給你一個簡單的對照表,照「弱/剛好/過載」三檔自我檢查:

欄位太弱(模型亂猜)剛好(可控)過載(互相打架)
主體catan orange tabby cat curled by a window五種動物+三個道具全擠一句
風格nice, beautifulJapanese watercolor illustration同時塞 photorealistic + anime + 3D
構圖(沒寫)medium shot, eye-levelclose-up + wide shot 同時下
光線brightgolden hour backlight, soft五種光源全列出來
色調colorfulwarm muted tones暖色+冷色+高對比一起下
畫質good qualityhighly detailed, sharp focus堆十個畫質詞稀釋權重

原則是:每一欄都「具體但收斂」。風格只選一種主軸(要寫實就別同時喊插畫)、光線只給一個主要光源、畫質兩三個詞就夠。欄位之間互相矛盾,是新手出圖「糊掉、四不像」的頭號元兇。

實際教學:五步驟把中文變成專業 Prompt

Step 1:先用一句中文寫清楚畫面

別急著想英文。先問自己:「我到底要看到什麼?」用一句白話講出來,例如:

我要一隻橘貓坐在咖啡廳窗邊,黃昏的光從窗外灑進來,畫面溫暖、有點文青感。

寫得出這句中文,你就已經完成最難的一步——把模糊的感覺,變成具體的畫面。

Step 2:套用六欄位公式拆解

把上面那句話,拆進六個欄位:

拆解的好處是,你會立刻發現原本漏掉了什麼。「文青感」太模糊?那就決定要日系手繪還是寫實攝影,二選一填進去。

Step 3:每個欄位翻成具體英文關鍵詞

重點:翻欄位、不翻句子。用逗號分隔的名詞片語,而不是完整句子。

不會翻?把六欄中文丟給 ChatGPT 或 Claude,請它「照欄位轉成 AI 繪圖英文關鍵詞,用逗號分隔」即可。想把這套轉換做得更穩,可以參考 ChatGPT 提示詞教學 裡的指令寫法;如果你慣用 Google 生態,Gemini 提示詞教學 也能照同樣方式當你的翻譯官。

Step 4:加上參數與排除詞

把關鍵詞串起來,最後補上工具參數與「不要什麼」:

排除詞是新手最常忽略、效果卻最明顯的一招。 圖上莫名出現的文字、浮水印、多餘的手指,靠它擋掉一大半。

Step 5:固定變因,一次只改一欄

出了第一張圖後,千萬別整串重寫。一次只動一個欄位:覺得太暗?只改光線欄;風格不對?只換風格欄。這樣你才知道是哪個詞起了作用,並把有效的關鍵詞記下來,慢慢累積成你自己的「風格範本」。在 Midjourney 可用相同 seed 或風格參考鎖定基底,讓微調更精準。

範例:可複製 Prompt 與中翻英 Workflow

可複製的提示詞範本(直接套你的內容)

把中括號換成你的描述即可:

[主體:誰/什麼,在做什麼,在哪裡],
[風格:藝術類型/媒材,例 photorealistic / watercolor / 3D render / anime],
[構圖:鏡頭,例 close-up / wide shot / low angle],
[光線:光源氛圍,例 soft natural light / golden hour / studio lighting],
[色調:例 warm tones / pastel colors / high contrast],
[畫質:highly detailed, sharp focus, 8K],
--ar 16:9 --v 6 --no text, watermark, extra fingers

帶入「咖啡廳橘貓」的完整成品:

an orange tabby cat sitting by a cozy cafe window,
warm hand-drawn illustration, Japanese cozy aesthetic,
medium shot, eye-level,
golden hour backlight, soft warm lighting,
warm muted tones,
highly detailed, sharp focus,
--ar 16:9 --v 6 --no text, watermark, blurry

給 ChatGPT/Claude 的「中翻英提示詞產生器」Prompt

如果你連欄位都懶得自己翻,把這段貼給 AI,它會幫你照公式產出:

你是 AI 繪圖提示詞專家。我會給你一句中文畫面描述,
請依照六個欄位(主體、風格、構圖、光線、色調、畫質)拆解,
並轉成「逗號分隔的英文關鍵詞」,最後附上建議的 Midjourney 參數
(比例、版本)與排除詞。請直接給我可複製的英文提示詞,不要解釋。

我的中文描述是:[在這裡貼上你的一句話]

想要更進階、可重複使用的版本,也可以直接用 AgentAI 的 Prompt 產生器 生成結構化提示詞。

文字版 Workflow 流程圖

腦中模糊的畫面

用一句中文寫清楚(主角+場景+氛圍)

拆進六欄位(主體/風格/構圖/光線/色調/畫質)

逐欄翻成英文關鍵詞(名詞片語,逗號分隔)

加上參數(--ar 比例、--v 版本)與排除詞(--no)

出第一張圖 → 檢視

   滿意?──是──→ 存進「風格範本」庫,重複使用



一次只改一個欄位 → 重新出圖(回到上一步)

   仍不理想?──→ 改用局部重繪/修圖(見下方進階段落)

這條流程的精神,是把創意變成可重複、可微調的流程,而不是每次重來。當你把它寫成固定步驟,等於替自己建了一套「迷你 SOP」,下一步就能套到 AI 品牌風格指南 那種團隊共用的規範裡。

進階:更深入的一層

學會六欄位後,真正拉開差距的是這三件事:權重控制、生成後編輯、多模態工作流。這一層才是把「會出圖」變成「能交付商案」的關鍵。

1. 關鍵詞權重:不是寫了就有用

提示詞不是「列清單」,而是「分配注意力」。同一組詞,排序與加權不同,出來的圖差很多。

2. 出圖之後,才是專業的開始

一次到位的圖很少。專業流程是「生成 → 局部修 → 放大」三段:

  1. 局部重繪(inpainting):只圈出有問題的區域(例如那隻畸形的手、多出來的文字)重新生成,其他部分原封不動。
  2. 外擴(outpainting):把畫面往外延伸,做出橫幅或不同比例版本。
  3. 放大(upscale):先用小尺寸快速試風格,定稿後再放大到印刷可用解析度,省算圖額度。

這三招的完整操作,整理在本站的 AI 修圖與局部重繪教學。把「生成」和「修圖」拆開,你就不會再為了救一根手指而整張重抽。

3. 多模態:用「圖+文」一起下指令

新一代模型(GPT-4o、Gemini、Midjourney 的圖片參考)都能「看圖再生圖」。這代表你可以:

這種「圖文混合輸入」正是多模態 AI 的主場,運作原理與更多玩法整理在 多模態 AI 應用指南。對社群與電商團隊來說,這一步等於把「找參考、對風格」的來回溝通直接內建進提示詞。

4. 從「單張圖」升級到「整套視覺敘事」

當你要的不只是一張圖,而是一支短影音的分鏡、一系列廣告的視覺,提示詞就要從「描述畫面」升級成「描述故事」。先用 AI 腳本寫作教學 把文案與鏡頭順序定下來,再用 AI 分鏡腳本(storyboard)教學 把每個鏡頭轉成可出圖的畫面描述,最後才回到本文的六欄位逐格出圖。這條「腳本 → 分鏡 → 出圖」的鏈路,是內容團隊把 AI 繪圖規模化的標準路徑。

常見錯誤:這幾個雷一踩就抽卡到天荒地老

最佳實務:讓出圖又快又穩的五個習慣

  1. 建立你的「風格關鍵詞庫」:把試出來有效的風格、光線詞存成一份清單,下次直接套。團隊共用時,可升級成 AI 品牌風格指南 那種正式規範。
  2. 權重由重到輕排列:越前面的關鍵詞權重越高,把最重要的主體與風格放前面,必要時用加權語法強化。
  3. 善用排除詞清單:固定一組 --no text, watermark, blurry, extra fingers,省去反覆踩雷。
  4. 一張圖一個目的:別想用一張圖塞下所有元素,拆成多張更可控。
  5. 把流程交給 AI 助手代跑:用 Claude 或 ChatGPT 當你的「提示詞翻譯官」——你給中文、它照公式產出英文 Prompt,你只負責挑圖。指令寫法可參考 ChatGPT 提示詞教學

實際案例一:台灣社群小編的出圖效率翻倍

情境:台中一家手搖飲品牌的社群小編 Amy,每週要產出 5~7 張貼文配圖。過去她用 AI 繪圖,全靠零散的中文亂打,常常一張圖要抽 20~30 次才勉強堪用,風格還不統一,整個版面看起來雜亂。

導入前

導入做法:Amy 套用本文的「六欄位公式」,先固定一組品牌風格關鍵詞(warm pastel tones, clean flat illustration, cozy lifestyle),再針對每張圖只替換「主體」欄;並建立一份 Notion 風格範本庫,把有效關鍵詞存起來。最後她把「中文描述 → 英文 Prompt」這一步交給 ChatGPT 照公式代跑,自己只負責寫中文與挑圖。

導入後成果(導入後 1 個月實測)

指標導入前導入後改善
單張平均出圖時間約 40 分鐘約 12 分鐘縮短 70%
平均抽圖次數25 次以上6~8 次減少約 7 成
風格一致性鬆散、需人工挑高度統一版面質感明顯提升
每週配圖產出5~7 張12 張以上產能翻倍

關鍵不在她變會下英文,而在她把出圖變成一條有公式、可複製的流程

實際案例二:電商賣家的商品情境圖難題

情境:新北一位賣手工香氛蠟燭的蝦皮賣家阿哲,想替每款新品拍「生活情境圖」,但找攝影棚一組要好幾千元,自己拍背景又雜亂。他改用 AI 繪圖,卻卡在「產品本體一被 AI 重畫就走樣」。

問題拆解:他原本想用一句話「畫一個香氛蠟燭放在木桌上」整張生成——這在電商情境是錯的,因為真實商品不能讓模型自由發揮

導入做法

  1. 先用本文六欄位,只生「情境背景」:a cozy wooden table by a window, soft morning light, warm muted tones, Scandinavian minimalist, highly detailed --ar 4:5 --no text, candle(刻意用排除詞把蠟燭排除,只要背景)。
  2. 再用合成/局部重繪,把實拍的蠟燭去背貼進背景,細節操作見 AI 修圖與局部重繪教學
  3. 固定一組「光線+色調」錨點,讓全店商品圖色溫一致。

成果:單款情境圖成本從外拍的數千元,降到幾乎只剩時間成本;上架速度從「等排棚」變成「當天出圖」,新品平均提早 3~5 天上架。重點不是用 AI 取代攝影,而是用 AI 出背景、實拍出主體,各做擅長的事。

結論

AI 繪圖出不好,幾乎都不是審美問題,而是溝通方法問題。記住這條路徑:先用中文寫清楚畫面 → 拆進六欄位 → 逐欄翻成英文關鍵詞 → 加參數與排除詞 → 固定變因微調;進階再疊上權重控制、局部重繪與多模態輸入。你不需要英文很好,只需要把畫面想清楚,再照公式翻譯

從今天起,別再對著輸入框亂打中文了。挑一張你最近想做的圖,套上本文的六欄位範本,跑一次完整流程。接著往三個方向深化:想把指令寫得更精準,補上 Prompt 框架大全;想救手指、做系列圖、改比例,看 AI 修圖與局部重繪教學;想用「圖+文」一起下指令、把出圖規模化,讀 多模態 AI 應用指南。一步一步,你的 AI 繪圖就會從「抽卡」變成「可交付的專業產能」。


免責聲明:本文僅為提示詞操作教學,不構成法律意見。各 AI 繪圖平台(Midjourney、DALL·E、Stable Diffusion 等)的著作權歸屬與商用授權條款各有不同,且模仿在世藝術家風格、生成可辨識的真實人物肖像,在部分地區可能涉及法律風險。將生成圖片用於商業用途前,請務必確認該平台最新的授權條款,必要時諮詢專業法律意見。

❓ 常見問題 FAQ

我完全不會英文,可以做 AI 繪圖嗎?
可以。先用中文把畫面寫清楚,再用本文的六欄位公式把每一欄翻成英文關鍵詞即可,也能請 ChatGPT 或 Claude 幫你照公式轉換。重點是用具體名詞描述畫面,而不是寫漂亮的英文句子。
為什麼我每次生出來的圖風格都不一樣?
多半是提示詞太籠統、缺少風格與光線關鍵詞,且每次描述都改太多。固定主體與風格關鍵詞、一次只調一個變因,並善用 Midjourney 的 seed 或風格參考,圖就會穩定可複製。
中文直接整句翻成英文丟進去可以嗎?
不建議。整句翻譯常出現語意稀釋、被忽略的詞。AI 繪圖模型吃的是關鍵詞權重,用逗號分隔的具體名詞片語效果遠勝完整句子。
Midjourney、DALL·E、Stable Diffusion 提示詞通用嗎?
核心邏輯通用:主體、風格、構圖、光線都一樣重要。但參數不同,Midjourney 用 --ar、--v,DALL·E 偏好自然語言敘述,Stable Diffusion 吃權重括號與負面提示詞,套用公式後再針對工具調整語法即可。
出來的圖總是少一根手指或多一隻手,怎麼救?
這是擴散模型在複雜結構(手、牙齒、文字、對稱物件)上的通病。實務做法有三:把 extra fingers, deformed hands, mutated hands 固定寫進排除詞或負面提示詞;構圖盡量避開特寫手部;或先出大致構圖,再用局部重繪(inpainting)單獨修手。延伸閱讀本站的 AI 修圖教學
想做整組風格一致的系列圖(例如一週貼文),有什麼訣竅?
關鍵是把風格欄位鎖死、只換主體欄。先試出一組品牌風格關鍵詞當「風格錨點」,每張圖只替換主體;Midjourney 可加上 --sref 風格參考或固定 seed。把這組錨點寫成一份品牌規範,可參考 AI 品牌風格指南 的做法。
為什麼有時候把關鍵詞往前移,圖就完全不一樣?
因為多數模型對提示詞有位置權重:越靠前的詞影響越大。所以「主體+最重要的風格」要放最前面,畫質、解析度這類補強詞放後面。Stable Diffusion 還能用括號 (keyword:1.3) 手動加權,控制力更細。
AI 繪圖提示詞和 ChatGPT 文字提示詞是同一套邏輯嗎?
底層精神相同——都是「結構化、可調整、一次改一個變因」。但繪圖偏向名詞權重,文字偏向任務指令與情境。想打通兩邊,建議搭配 Prompt 框架大全ChatGPT 提示詞教學 一起看。

🔗 延伸閱讀

幫這篇打個分:
A
AgentAI 智庫團隊 ✓ 台灣實作團隊

我們是一群專注於 AI Agent、Prompt 與自動化工作流的台灣實作者。每篇教學都附可複製配方、誠實標示實測程度與限制,只分享真正能落地、可直接套用的方法——與其介紹工具,不如教你把事情做完。

關於我們 →看更多教學 →訂閱情報週報 →

每週把這類實戰教學寄給你

訂閱 AgentAI 智庫情報週報,新的 Prompt、AI Skills、工作流與教學第一時間收到。

免費 · 隨時取消