思維鏈(Chain-of-Thought)提示法:讓 AI 想清楚再回答

你有沒有遇過這種狀況:丟一道需要算的題目給 AI,它秒回一個答案,結果一驗算根本是錯的?你有沒有發現,它越是「自信地直接給答案」,反而越容易出錯?你有沒有想過,問題不在它笨,而在它「沒想就答」?這篇文章要教你一招幾乎零成本就能大幅拉高 AI 推理正確率的方法——思維鏈(Chain-of-Thought)提示法:與其讓 AI 直接蹦出結論,不如逼它先一步一步把推理過程想清楚、寫出來,再給答案。 適合已經會下基本指令、但一碰到「要算的」「要判斷多個條件的」「要做複雜推理的」題目就常被 AI 唬弄的工作者,以及準備把 AI 接進報價、核對、分類等需要「算對」流程的團隊。讀完你會得到可直接複製的思維鏈 Prompt 模板、何時該用何時別用的判斷準則,一套「找出 AI 在哪一步出錯」的除錯方法,以及一段進階心法,告訴你在推理模型當道的今天,思維鏈該怎麼用得更聰明。

為什麼 AI 直接給答案,反而常常算錯?

先講一個很多人都被坑過的場景。你問 AI:「一箱蘋果 24 顆,賣掉了三分之二,又補進 10 顆,現在有幾顆?」如果它直接回「26 顆」,你可能就信了——但其實答對與否,全看它有沒有「真的算」。很多時候它是憑語感湊一個看起來合理的數字,剛好對了你就以為它很強,剛好錯了你還不一定查得出來。(順帶一提,正確答案是 24 的三分之二是 16,賣掉 16 剩 8,補 10 顆是 18 顆——不是 26。你看,連這種小題,「沒列式」就可能差很多。)

問題的根源在於語言模型的運作方式。模型本質上是在「預測下一個字」,當你要它『直接給答案』,它就傾向直接生成一個最像答案的數字或結論,中間的計算其實被它跳過了。 這就像考試時有人不打草稿、看到題目憑直覺圈一個選項——簡單題還行,碰到要好幾步才能解的題目,跳步幾乎必錯。AI 越是「自信地秒答」,越代表它沒有把該想的步驟想完。

思維鏈提示法要做的,就是把模型的「想」和「答」強制分開。你不准它直接給結論,而是要求它先把推理過程一步一步攤開來寫,最後才下結論。當模型被迫把每一步寫出來,它在生成過程中就真的「算」了一遍——前一步的中間結果,會成為它生成下一步的依據,錯誤更不容易累積、也更容易被你抓到。這跟 ChatGPT 提示詞指南 裡強調的「把任務講清楚」是一脈相承的進階功夫:當題目需要推理時,最該講清楚的不是要什麼答案,而是「要怎麼想」。如果你用的是 Claude,Claude 提示技巧 也有專門對推理任務的寫法建議,原理相通。

核心概念:「直接作答」與「思維鏈」差在哪?

要搞懂思維鏈的價值,把它跟「直接作答」並排比較最清楚。同一道題,兩種提示方式,差別不只在過程長短,更在正確率。

比較項目直接作答(無思維鏈)思維鏈(Chain-of-Thought)
模型怎麼運作直接生成最像答案的結論先生成推理步驟,再依步驟得出結論
適合的題目查事實、翻譯、簡單摘要數學、邏輯、多條件判斷、複雜推理
正確率多步題目容易跳步出錯多步題目明顯提高
可除錯性錯了也看不出哪裡錯能直接看出在哪一步算錯
成本token 少、速度快token 多、速度稍慢
適用搭配簡單問答即可常與 步驟結構串接 合用

可以用一個生活化的比喻來記:直接作答像「心算」,思維鏈像「列式計算」。 心算簡單題很快,但碰到「(24 × 2/3) 補 10」這種要好幾步的,列式寫出來才不會錯。AI 也是一樣——你給它一張「草稿紙」(也就是要它把推理寫出來的空間),它的表現就會穩定得多。

這裡要補一個常被忽略的重點:思維鏈的價值,有一半在「除錯」。 當 AI 直接給一個錯答案,你只能整題重來;但當它把過程寫出來,你一眼就能看到「喔,它在『賣掉三分之二』這步算成了 8 顆而不是 16 顆」,你就能精準地補一句提示去修正那一步。這個特性,讓思維鏈在需要接進 Workflow 自動化、講求穩定的場景特別好用——過程攤開,問題才查得到、流程才信得過。

再補一個進階的觀念分界,避免你把幾個相近的技巧搞混:思維鏈管的是「怎麼想」,Few-shot 提示 管的是「照著範例做」,結構化輸出 管的是「答案長什麼格式」。 三者常常一起出現——你給模型一兩個「帶完整推理過程的範例」(這叫 few-shot CoT),它就會模仿那個推理的深度與格式;再要求它把最終結論包成 JSON 或固定欄位,程式就接得乾淨。把這三層分清楚,你寫提示時就知道哪個旋鈕該轉。

實際教學:五步寫出有效的思維鏈 Prompt

Step 1:判斷這題到底需不需要推理

不是每題都該用思維鏈。先問自己一個問題:「這題我自己要不要動筆算一下,才答得出來?」 如果答案是「要」——例如它牽涉計算、要比對好幾個條件、或要做有前後邏輯的判斷——那就值得用思維鏈。如果答案是「不用,看一眼就知道」——例如查事實、翻譯、簡單分類——那加思維鏈只是徒增 token 與等待時間,沒有好處,甚至可能讓模型「想太多」反而把簡單題複雜化。

一個實務上的分界線:只要題目裡出現「算」「比較」「依規則判斷」「多個條件同時成立」這類字眼,幾乎都該用思維鏈。

Step 2:在指令裡明確要求「一步一步想再回答」

這是思維鏈最核心、CP 值最高的一招。你只要在指令裡加上一句明確要求,例如「請先一步一步寫出你的推理過程,最後再給結論」,模型就會把「想」攤開來。關鍵在於動詞要明確:不要只說「仔細一點」,而要說「列出步驟」「逐項計算」「先推理再作答」——這些動詞會直接改變模型的生成行為。

注意一個細節:「想」要放在「答」前面。 如果你讓模型先講答案、再補理由,它常常是先憑直覺給答案、再硬掰一套理由來圓——這叫「事後合理化」,正確率不會提高。一定要逼它「先想、後答」。

如果這類「先想後答」的要求每次都要重打,建議把它寫進 系統提示 一勞永逸:在系統層設定「凡是需要計算或多條件判斷的問題,一律先列推理步驟、最後用固定標記給結論」,之後每一輪對話都自動套用,不用每次手動提醒。

Step 3:替複雜題目指定推理的步驟結構

當題目簡單時,一句「一步一步想」就夠了。但碰到複雜題目——例如要套用一套報價規則、或要同時滿足好幾個條件——光一句話模型可能還是亂拆。這時你要主動給它推理的骨架,告訴它該依哪些步驟走。例如:「請依以下步驟推理:(1) 先列出題目給的所有條件;(2) 逐一套用規則計算;(3) 核對每個條件是否都滿足;(4) 才給最終答案。」

給了骨架,模型就不會東漏一個條件、西跳一個步驟。這一步特別適合處理你公司內部那些「有固定判斷規則」的任務,例如折扣怎麼疊、運費怎麼算、案件該歸哪一類。想把這套骨架做得更系統、可重複套用到一整類任務,可參考 提示工程框架,把「角色+規則+步驟+輸出格式」固定成模板,團隊每個人寫出來的提示品質就會一致。

Step 4:要求最後用固定標記框出結論

推理過程很長,人讀起來要找答案、程式要擷取答案,都需要一個明確的「結論在這」。所以請 AI 在推理結束後,用一個固定標記框出結論,例如「最終答案:18 顆」。這個小動作對自動化流程至關重要——當你把 AI 接進程式,程式只要去抓「最終答案:」後面那段,就能穩定取出結果,不用在一大串推理裡瞎猜哪句是答案。若下游要程式解析,更穩的做法是讓它把結論輸出成 結構化格式(例如固定欄位或 JSON),把「會變的推理」和「要被讀取的答案」徹底分開。

Step 5:用不同題目測試,找出它常在哪一步出錯

思維鏈最大的好處之一,就是它讓你看得到 AI 在哪一步出錯。所以最後一步,是拿幾道你已知正確答案的題目去測,看它的推理過程在哪個環節容易翻車。如果它老是在「換算百分比」那步出錯,你就在提示裡針對那步補強,例如「計算百分比時,請先寫出算式再算結果」。反覆幾輪,你的思維鏈 Prompt 就會收斂到穩定可靠。

範例:Prompt 與 Workflow 流程圖

先給你一個可以直接複製、套用到大多數推理任務的思維鏈 Prompt 模板:

你是一位嚴謹的計算與判斷助理。請依照以下規則回答問題。

【推理規則】
1. 先列出題目給定的所有已知條件與數字。
2. 一步一步進行推理或計算,每一步都寫出算式與中間結果,不可跳步。
3. 完成後,回頭核對:每個條件是否都用到、每一步是否合理。
4. 最後用「最終答案:」框出結論,並用一句話說明關鍵理由。

【輸出格式】
推理過程:
(逐步寫)
核對:
(檢查每個條件)
最終答案:(一句話結論)

【題目】
(在這裡貼上你的題目)

如果這題會被程式接手、不希望使用者看到落落長的推理,可在結尾加一句:「以上推理請保留供我內部核對,最後只把『最終答案:』那一行回傳即可。」

想再升一級、讓模型照著你要的推理深度走,可以在模板前面加一個「帶推理過程的範例」,也就是 Few-shot 思維鏈

【示範一題給你看怎麼想】
題目:一箱 24 顆,賣掉三分之二,再補 10 顆,現在幾顆?
推理過程:
1. 已知:原有 24 顆;賣掉 2/3;補進 10 顆。
2. 賣掉的數量 = 24 × 2/3 = 16 顆。
3. 賣後剩 = 24 − 16 = 8 顆。
4. 補貨後 = 8 + 10 = 18 顆。
核對:賣掉與補貨都用到了,算式無誤。
最終答案:18 顆(賣掉 16、剩 8、補 10)。

請用上面這種「先列條件、逐步算式、核對、再框結論」的方式,回答下面這題:
【題目】(在這裡貼上你的題目)

把整個思維鏈的運作攤平成文字版流程圖,方便你接進團隊的 Workflow

收到題目

判斷:這題需要多步推理嗎?
   ├─ 不需要(查事實/翻譯)→ 直接作答,結束
   └─ 需要 ↓
列出題目所有已知條件

一步一步計算/推理(每步寫出算式與中間結果)

核對:條件都用到了嗎?每步合理嗎?
   ├─ 有問題 → 回到出錯的那一步重算
   └─ 都正確 ↓
用「最終答案:」框出結論 + 一句關鍵理由

依場景決定:對外只給答案/保留完整推理供核對

這張流程圖的精神是:把「判斷要不要推理」放在最前面、把「核對」放在給答案之前,這兩個關卡能擋掉最多錯誤。

進階:更深入的一層

當你已經會用基本的思維鏈,下一步是搞懂三件更底層的事——它們會決定你的提示在真實、高風險的任務裡撐不撐得住。

第一,自我一致性(Self-Consistency):讓它算很多次再投票。 思維鏈會明顯提高正確率,但單次推理仍可能走錯一條路。進階做法是讓模型用「不同的推理路徑」把同一題算三到五次,再取出現最多次的那個答案。原理很直白:一條路徑偶爾出錯,但多條路徑同時錯到同一個錯答案的機率很低,所以「多數決」比「單次」可靠。實作上你可以在提示裡寫「請用兩種不同的算法各算一次,若結果不一致,請指出差異並重新檢查」,或在程式端跑多次後比對。代價是 token 與時間翻倍,所以只用在「算錯成本很高」的關鍵任務。

第二,思維鏈≠模型的真實思路,別把它當成「可信的解釋」。 這是最多人誤會的一點。模型寫出來的推理,是它「為了得到答案而生成的文字」,多數時候確實對應它的計算,但它有可能寫出一套看似合理、實則和真正得到答案的內部過程不完全一致的說明。意思是:推理過程是除錯的好工具(能幫你抓到明顯的算錯),但不是百分百忠實的「模型內心獨白」。所以高風險場景,請把推理當「待驗證的線索」,而不是「保證正確的證明」——務必保留人工或程式的核對關卡。

第三,思維鏈 vs. 推理模型:分工正在改變。 2024 年後出現的 推理模型(如 OpenAI o 系列、DeepSeek-R1、Claude 的延伸思考模式)把「一步一步想」內建進模型訓練裡,你不手動加思維鏈,它也會自己先想一大段再答。這是不是代表手寫思維鏈過時了?不是。分工變成這樣:

你的角色一般模型(要你手動推理)推理模型(內建推理)
叫它「想」必須手動加「一步一步想」通常不必,它自己會想
告訴它「怎麼想」要,需給步驟骨架仍要,灌入你的領域規則與核對清單
規定「結論格式」要,用固定標記仍要,方便擷取
控制成本token 較省推理過程更長、更貴,更要篩題目用

一句話總結這層:推理模型幫你省掉了「叫它想」,但沒省掉「告訴它怎麼想、怎麼收尾」——而後兩者,正是你領域知識真正的價值所在。

常見錯誤

第一個常見錯誤是對簡單題也硬套思維鏈。查個事實、翻個句子也叫 AI 一步一步想,結果它把簡單事情想複雜,還多花 token 和時間。記住:思維鏈是給「要算、要判斷」的題目用的,不是萬靈丹。

第二個錯誤是讓 AI 先給答案、再補理由。這順序一反,模型就變成事後找藉口圓自己的直覺答案,正確率不會提高。一定要「先想、後答」。

第三個錯誤是沒有固定的結論標記。推理寫了一大串,結果答案散在某一句裡,人要找半天、程式根本抓不到。務必要求模型用「最終答案:」這類固定標記收尾,或直接輸出成 結構化格式

第四個錯誤是把思維鏈當成「保證正確」。思維鏈會明顯提高正確率,但不是百分百——它仍可能在某一步算錯,甚至寫出和真正算法不完全相符的推理。所以重要任務一定要保留「核對」這一步,甚至讓它算兩次比對結果。

第五個錯誤是在推理模型上重複手動加一堆「請仔細思考」。推理模型本來就會想,你再疊一層冗長的思考指令,常常只是拖長輸出、增加成本,收益有限。對推理模型,你該花力氣的是「給它領域規則和結論格式」,而不是反覆叫它想。

最佳實務

第一,先用最簡單的「一步一步想」試,不夠穩再加步驟結構。別一開始就寫落落長的規則,多數題目一句話就見效,複雜了才補骨架。

第二,要求模型在推理中寫出「算式」而非只寫文字。「先算 24 的三分之二」不如「24 × 2/3 = 16」來得可靠,寫出算式能逼它真的算,也方便你核對。

第三,內部留推理、對外給結論。給人看的場合,叫模型推理完只回傳結論加一句重點理由,兼顧正確率與閱讀體驗;要查錯或程式接手時才保留完整過程。

第四,把核對寫成獨立一步。不要只說「算對一點」,而要明確要求「算完後回頭逐一檢查每個條件」,把檢查變成流程的固定環節。

第五,重要的判斷任務,搭配 Prompt 串接 一起用。把「算」和「判斷」拆成不同段,每段內用思維鏈,整體會比一次塞進一個超長提示更穩。

第六,把成熟的思維鏈沉澱進 系統提示可重用框架。一旦你某類任務的思維鏈調穩了,別讓它只活在某一次對話裡——固定成系統層設定或團隊模板,整個團隊的輸出品質就會一起拉高。

實際案例:台灣電商客服報價,從「常報錯」到「零失誤」

台中一家做家居用品的中型電商,客服每天要回覆大量「我買這幾樣、有滿額折扣嗎、運費多少」的詢問。他們的報價規則其實不複雜,但層層疊疊:滿 1,500 免運、會員再 95 折、特定品類不參與折扣、外島運費另計。導入 AI 客服初期,他們直接叫 AI「幫忙算總價」,結果 AI 常常漏掉「特定品類不打折」這條,或把外島運費算成本島,報錯價被客人截圖客訴,客服主管每天都在救火。

導入前的狀況:AI 報價平均每 10 筆就有 1 到 2 筆算錯,客服得人工複查每一筆才敢送出,等於 AI 沒省到力,還多了不信任感。

問題就出在「AI 直接給答案、沒把規則一條條套」。他們改用思維鏈,重寫提示,要求 AI 依固定步驟推理:先列出客人購買的每項商品與金額、再逐項判斷是否屬於不打折品類、接著套用滿額免運與會員折扣、最後判斷是否外島、核對後才用「最終報價:」框出結論。同時把完整推理保留在系統後台供客服一眼複查,對客人只回傳最終報價與一句「已套用會員 95 折」。為了讓後台程式能穩定抓到金額、自動填進工單,他們還把結論固定成 結構化輸出(例如 { "報價": 1620, "已套用": ["會員95折","滿額免運"] }),而非夾在自然語句裡。

導入後的成果:報價錯誤率從約 15% 降到接近 0;因為推理過程攤開,客服複查一筆從原本要自己重算、約 90 秒,縮短到掃一眼推理、約 15 秒,等於單筆複查時間省下約 8 成;以每天約 200 筆報價估,等於每天替團隊省回近 4 小時的重算工時,能挪去處理更需要人情味的客訴。主管的原話是:「以前是 AI 算、人重算;現在是 AI 算給人看、人只要瞄一眼。」

無獨有偶,台北一家小型會計事務所,把「判斷一筆費用該歸哪個會計科目」這種要依規則判斷的工作,也用同樣手法處理——要求 AI 先列出該筆費用的性質、再逐條比對科目規則、最後標明結論並附理由。導入前新人分類的科目一致性約七成、常因「同一種費用兩個人歸不同科目」要返工;導入思維鏈後,因為每筆都附「為什麼這樣分」的推理,一致性拉到九成以上,事後查帳或新人接手時一目了然,月底結帳的返工次數明顯下降。他們進一步把這類「先比對科目、再產出傳票草稿、再交人覆核」的流程,用 Prompt 串接 拆成三段,每段內各用思維鏈,整體更穩。(提醒:會計科目認定與稅務處理涉及專業判斷與法令適用,AI 的推理僅供初步參考,正式帳務與申報仍應由合格會計師或記帳士覆核,本文不構成財務或稅務建議。)

這兩個案例的共通點很清楚:真正讓 AI 變可靠的,不是換更強的模型,而是逼它「把怎麼想攤開來」。 過程看得到,錯誤就擋得住,人也才敢把流程交給它。

結論

思維鏈提示法的核心,一句話就能講完:別讓 AI 直接給答案,逼它先一步一步想清楚、寫出來,再下結論。 它幾乎零成本,卻能在「要算、要判斷、要推理」的題目上大幅拉高正確率,還附帶兩個無價的好處——讓你看得到 AI 在哪一步出錯,從而能精準修正;也讓你的領域規則有地方「灌進去」,把通用模型變成你這一行的專家。

實作上記住這條主線:先判斷這題需不需要推理(簡單題別硬套),需要的話就要求它「先想後答」、替複雜題目給步驟骨架、用固定標記框出結論、再拿已知答案的題目測試收斂。重要任務再疊上「核對」「算兩次比對」這些保險。對外只給結論、內部保留推理,正確率與閱讀體驗就能兼顧。別忘了進階那層:推理過程是除錯線索、不是免驗證的證明,而推理模型省掉了「叫它想」,卻更需要你「告訴它怎麼想」。

接下來怎麼走?如果你想把思維鏈接進實際工作流程,建議搭配 Prompt 串接 把複雜任務拆段處理;想把這套推理結構標準化成團隊都能重用的模板,去看 提示工程框架;如果你用的是會自己推理的新模型,先讀 AI 推理模型 搞懂何時該交給它、何時還得自己給骨架。當你習慣了「逼 AI 把思路攤開」這個動作,你會發現它不只更常算對,連你自己要不要信任這個答案,都變得有依據可循。想要現成可改的範本,也可以到 任務食譜書 直接拿來套。

❓ 常見問題 FAQ

思維鏈(Chain-of-Thought)到底是什麼?
簡單講就是要求 AI 先把推理過程寫出來,再給最終答案,而不是直接蹦出一個結論。就像你解數學題時在草稿紙上一步步列算式,思維鏈就是逼 AI 也把『草稿』寫給你看。研究與實務都顯示,當題目需要多步推理時,讓模型把過程攤開來想,答對的機率會明顯提高。
什麼題目該用思維鏈,什麼不該用?
需要多步推理、計算或比對多個條件的題目才用,例如數學題、邏輯判斷、依規則做的複雜判斷。如果只是查事實(『台灣首都是哪』)、翻譯或簡單摘要,加思維鏈只是浪費 token、拖慢速度,沒有好處。一句話判斷:這題你自己也得『動筆算一下』才答得出來,那 AI 就值得用思維鏈。
我只要加一句『一步一步想』就有效嗎?
多數情況確實有效,這是 CP 值最高的一招。但若題目很複雜,光一句話模型可能還是亂拆,這時要再進一步『指定步驟結構』,明確告訴它先做什麼、再做什麼、最後核對什麼。先用簡單版試,不夠穩再補結構。延伸做法可參考 提示工程框架,把這套結構標準化成可重用的模板。
思維鏈和 <a href='/guides/prompt-chaining'>Prompt Chaining(串接)</a> 是同一件事嗎?
不是,兩者很容易混淆。思維鏈是在『同一次』提示裡,讓模型把推理過程一口氣寫完;Prompt Chaining 是把任務拆成『多次』提示、前一段的輸出餵給後一段。一個是單次內把思路攤開,一個是跨多次串接。複雜任務常兩者合用:每一段串接裡,再用思維鏈讓那一步算得更準。
讓 AI 寫一大串推理過程,使用者不會覺得很囉嗦嗎?
這要看場景設計。給人看的場合可以叫模型推理完後只回傳結論、把過程藏起來;要查錯或要程式接手的場合則保留過程,方便核對。實務上常見做法是『內部留推理、對外只給答案+一句重點理由』,兼顧正確率與閱讀體驗。若要程式穩定擷取結論,建議搭配 結構化輸出 把答案包成固定格式。
用思維鏈會不會把推理寫得很長,反而拖慢回應、增加成本?
會,思維鏈本質上是用更多 token 換更高正確率。權衡的關鍵是『只在值得的題目上花這筆 token』:簡單事實題別用、複雜判斷題才用。若你在意成本又需要正確率,可採『內部完整推理、對外只回結論』,或把要求降到『簡短列出 3 個關鍵推理步驟即可』,不必每題都洋洋灑灑。
現在已經有 o 系列、DeepSeek-R1 這種會自己推理的『推理模型』,我還需要手動寫思維鏈嗎?
需要的程度降低了,但沒有完全消失。推理模型 把『一步一步想』內建進模型本身,多數題目你不用手動加思維鏈它也會自己推理。但你仍需要做兩件事:一是『指定它該依哪些步驟、核對哪些條件』,把你的領域規則灌進去;二是『要求它用固定標記框出結論』方便擷取。換句話說,推理模型幫你省掉了『叫它想』,但沒省掉『告訴它怎麼想、怎麼收尾』。
思維鏈寫了,模型還是偶爾算錯,怎麼進一步提升可靠度?
三招可疊加:第一,要求它寫出『算式』而非只寫文字結論,逼它真的算;第二,把『核對』獨立成一步,算完回頭逐一檢查每個條件;第三,進階可用『自我一致性(self-consistency)』,讓它用不同路徑算兩三次再取多數決。重要任務還可搭配 Prompt 串接,把『算』和『驗算』拆成兩段不同提示,互相把關。

🔗 延伸閱讀

幫這篇打個分:
A
AgentAI 智庫團隊 ✓ 台灣實作團隊

我們是一群專注於 AI Agent、Prompt 與自動化工作流的台灣實作者。每篇教學都附可複製配方、誠實標示實測程度與限制,只分享真正能落地、可直接套用的方法——與其介紹工具,不如教你把事情做完。

關於我們 →看更多教學 →訂閱情報週報 →

每週把這類實戰教學寄給你

訂閱 AgentAI 智庫情報週報,新的 Prompt、AI Skills、工作流與教學第一時間收到。

免費 · 隨時取消