Prompt 除錯與優化教學：診斷壞 Prompt、逐步改寫到穩定可用

Q: Prompt 除錯和重寫一個新的有什麼不一樣？

重寫是把舊的丟掉重來，常常修好一個問題又冒出新問題； 除錯 是先找出壞在哪一層（理解、格式、護欄），只動那一層。除錯能累積知識、改動可控，是讓 Prompt 從玩具變生產工具的關鍵差別。

Q: 為什麼同一個 Prompt 有時對、有時錯？

多半是 Prompt 留了太多「自由發揮」的空間，模型每次取樣略有不同就走鐘。解法是用 Few-shot 範例 示範你要的樣子、用護欄寫死不可做的事、把溫度（temperature）調低，三者一起收斂變異。

Q: Prompt 太長是不是就一定不好？

長不是原罪， 沒結構又互相矛盾 才是。常見壞味道是同一件事在不同段落講了三種版本，模型不知道聽誰的。除錯時先抓矛盾與重複，把指令去重、分層（角色、步驟、格式、護欄）後通常會變短又變穩，可參考 框架大全 的分層寫法。

你寫好一個 Prompt，前幾次用得很順，於是把它放進客服回覆、行銷文案或報表流程裡。結果某天它突然格式跑掉、答非所問，甚至自信滿滿地編了一筆不存在的資料。你改了幾個字，好像好了，隔天又壞——這篇文章就是要終結這種惡性循環。

這篇解決什麼：教你用工程化的除錯思維，先「診斷」壞 Prompt 的真正病灶，再用控制變因、逐步改寫的方法把它修到穩定可用，而不是靠運氣亂改。誰適合讀：已經會寫基本 Prompt、但被「時好時壞」折磨的個人工作者、小編、客服主管與要把 AI 放進正式流程的團隊。讀完你會得到：一套可重複的五步除錯流程、一個可複製的診斷 Prompt、一張除錯 Workflow 流程圖，以及一套讓你每次改動都不會「修好 A 弄壞 B」的回歸測試做法。

為什麼 Prompt 需要「除錯」而不是「重寫」

多數人遇到 Prompt 不好用的反應是：刪掉重寫一個。這在程式設計裡等於遇到 bug 就把整個檔案刪了重打，幾乎沒有工程師會這樣做，因為你會丟掉所有已經正確的部分，還可能重蹈覆轍。

Prompt 本質上是一段「用自然語言寫的程式」。它有輸入（你的資料）、有邏輯（你的指令）、有輸出（模型的回答）。既然是程式，它就會有 bug，而 bug 是可以被定位、隔離、修復、驗證的，不需要每次都靠玄學。

重寫之所以危險，是因為它把「問題」和「解法」混在一起：你不知道剛剛那一版是哪裡壞、也不知道新版為什麼好，於是你永遠在原地打轉。除錯思維的價值在於，每修好一次，你就更清楚這個任務的難點在哪，這份知識會累積成你團隊的資產。如果你還沒有一套穩定的寫法基礎，建議先讀過 Prompt 工程框架大全，本篇假設你已經會用角色、範例、格式、護欄這四層來組裝 Prompt。

更務實地說，重寫與除錯的差別會直接反映在你的時間成本上。重寫是「亂數試誤」：每一次都是全新的賭局，期望值不會隨次數提升。除錯是「二分搜尋」：每一次改動都把可能的病灶範圍砍半，第三、第四次就會收斂。一個團隊如果長期靠重寫，三個月後手上仍是一堆沒人敢動的脆弱 Prompt；靠除錯的團隊，三個月後會累積出一份「這個任務常見的坑與對應護欄」清單，那才是真正的護城河。

核心概念：壞 Prompt 的五種病灶

除錯的第一步不是改，是「分類」。看醫生要先知道是發燒還是骨折，藥方完全不同。Prompt 出問題也一樣，九成以上都能歸到下面五類之一：

病灶類型	典型症狀	真正病因	主要藥方
理解錯	答非所問、抓錯重點	任務描述模糊、有歧義	重寫任務句、加角色設定
格式跑掉	該給 JSON 卻給散文、欄位漏東漏西	沒明確鎖定輸出結構	給格式範本、Few-shot 示範
亂編資料	自信地給出錯誤事實或數字	沒護欄、要求超出已知資料	加護欄、把真實資料貼進上下文
漏需求	大致對但漏掉某個條件	多個需求塞在一句、被淹沒	把需求拆成編號清單
不穩定	同輸入時好時壞	自由空間太大、溫度太高	補範例、收斂護欄、降溫度

這張表是你的「診斷對照表」。每次 Prompt 出包，先別動手改，先問自己：它是哪一類？很多人改 Prompt 改不好，根本原因是把「格式跑掉」當成「理解錯」來治，於是一直加任務說明，但問題出在沒給格式範本，怎麼加都沒用。若你想自動化第一輪分類，也可以直接用 Prompt 產生器套出一版結構化的診斷指令當起點。

值得注意的是，「不穩定」這一類最容易被忽略也最致命。如果一個 Prompt 跑 10 次有 3 次出錯，你很可能在測試時剛好抽到那 7 次好的，就以為修好了，上線後才被那 3 次打臉。所以除錯的鐵則是：永遠連跑多次，看分布，不看單次。

另一個常被誤判的，是「理解錯」與「漏需求」的界線。理解錯是模型「整個方向跑偏」，漏需求是「方向對、但漏掉一個條件」。兩者藥方不同：理解錯要重寫任務句、補角色定義（建議搭配 System Prompt 設定指南把角色沉澱到系統層）；漏需求則只要把那一串塞在同一句裡的條件拆成編號清單，模型就不會再淹沒其中一條。診斷時把這兩類分清楚，能省下大量無效改動。

實際教學：五步把壞 Prompt 修到穩定

Step 1：重現並記錄問題

第一件事不是改 Prompt，是把「壞」變成可重現、可記錄的事實。拿出你那個有問題的 Prompt，用同一份輸入連跑 5 到 10 次，把每次輸出貼進一張表。

這一步要回答一個關鍵問題：它是「每次都錯」還是「時好時壞」？

每次都錯：代表是確定性問題（理解、格式、漏需求），通常一改就見效，相對好治。
時好時壞：代表是穩定性問題，要靠範例與護欄收斂，需要多輪。

把這個判斷寫下來，它決定了你接下來走哪條路。同時記下「錯在哪個欄位、錯成什麼樣」，這些就是你的除錯線索。提醒一個常被忽略的變因：重現時務必固定模型版本與參數。同一個 Prompt 從 ChatGPT 換到 Claude、或把溫度從 0.7 調到 0.2，輸出分布會完全不同；如果你在不同模型間比較，等於沒有對照組，記錄也就失去意義。

Step 2：定位病灶，對照五大類

拿 Step 1 的紀錄，對照上面那張診斷對照表，把問題歸類。如果一個 Prompt 同時有多個病灶（很常見），先治最致命的那個——通常是「亂編資料」和「格式跑掉」，因為這兩種會讓下游流程直接爆掉，而「漏需求」至少還能用。

定位時有個好用的技巧：把模型當病人問診。直接在對話裡追問「你剛剛為什麼這樣回答？你是根據哪一句指令做的？」模型的自我解釋常常會暴露出你 Prompt 裡那句它「誤讀」的話，這比你自己盯著看半天有效得多。如果連自我解釋都看不出所以然，就改用思維鏈（Chain of Thought），要求模型「先一步步寫出推理再給結論」，讓它在哪一步岔出去看得一清二楚——很多「亂編資料」其實是某一步推理錯了才連鎖出錯。

Step 3：控制單一變因，一次只改一處

這是整套方法的核心，也是最多人做錯的地方。一次只改一個地方，改完用 Step 1 那組測試重跑，再決定這一改是好是壞。

如果你一次同時改了角色設定、加了範例、又動了格式，結果變好了——你根本不知道是哪一個有效，下次遇到類似問題還是只能瞎猜。控制變因雖然慢，但它讓你每一步都長出確定的知識。

改動的優先順序建議：先改任務句（最便宜、影響最大）→ 再鎖輸出格式 → 再補護欄 → 最後才加 Few-shot 範例（最貴、最占上下文）。能用便宜手段解決就別動用昂貴手段。這個順序背後的邏輯是「投資報酬率」：一句任務句改寫幾乎不花上下文成本，卻常能一舉解決理解錯；Few-shot 範例則會吃掉大量 token、也讓 Prompt 更難維護，所以擺在最後。

Step 4：對「不穩定」補範例與護欄

如果 Step 1 判定是「時好時壞」，光改文字說明通常壓不住，因為問題不是模型不懂，是它的自由空間太大。這時要做兩件事：

補 Few-shot 範例：放 2 到 3 個「輸入對輸出」的示範，且務必包含一個邊界情況（例如資料缺漏、格式異常時該怎麼回）。範例是最強的格式與風格教具，詳見 Few-shot 提示教學。
收斂護欄：把「不可以做的事」寫死。例如「資料不足時回答『無法確定』，禁止猜測」「只輸出 JSON，前後不得有任何說明文字」。

若是透過 API 呼叫，再把溫度（temperature）調低到 0.2 以下，能進一步減少隨機性。三管齊下，多數不穩定的 Prompt 能從「10 次對 7 次」拉到「10 次對 10 次」。

要特別提醒：補範例不是「越多越好」。範例放太多，模型容易過度模仿某一個樣本的措辭，反而對沒見過的輸入更脆弱；而且每多一個範例都在稀釋你真正想強調的護欄。實務上 2 到 3 個、且彼此「夠不一樣」（涵蓋正常、邊界、刁鑽各一）的範例，效果通常比塞十個雷同範例好。

Step 5：建立回歸測試，防止改 A 壞 B

修好之後別急著收工。Prompt 除錯有個陷阱：你修好了客訴情境，卻不知不覺弄壞了詢價情境。解法跟工程師寫程式一樣——建一組回歸測試。

把 5 到 10 個有代表性的輸入（涵蓋正常、邊界、刁鑽情況）存成一個測試集。以後每次改 Prompt，都把整組跑一遍，確認全部通過才上線。這組測試集會隨著你遇到的每個新 bug 不斷長大，變成你 Prompt 品質的護城河。對於更複雜、需要分多步處理的任務，可以考慮拆成 Prompt Chaining，每一步都更小、更好測。

回歸測試還有一個進階用法：把「上次出包的真實輸入」永遠留在測試集裡。每修好一個 bug，就把那個曾經讓你翻車的輸入加進去當「永久哨兵」。久了之後，你的測試集不只是抽樣，而是一份「這個任務歷史上所有踩過的坑」總集，任何改動只要碰到舊坑就會立刻被攔下來。

進階：更深入的一層

走完五步法，你已經能把單一 Prompt 修到穩定。但當任務規模變大、或交給團隊維護時，會浮現幾個更深的議題，這一節把它們補齊。

第一，分清「Prompt 層」與「系統層」的 bug。 同樣是「語氣不對」，可能是你這次的任務句寫得不好（Prompt 層），也可能是底層 System Prompt 把角色定得太死（系統層）。除錯時要先確認 bug 出在哪一層：每次任務都會復發、跟具體輸入無關的問題，多半在系統層，該回到 System Prompt 設定指南調整；只在特定輸入才出現的，才是 Prompt 層。把層次分清楚，能避免你在 Prompt 裡狂貼補丁，卻治不好其實長在系統層的病根。

第二，用 Meta Prompting 做自動診斷，但設好停損點。 你可以請另一個模型扮演「Prompt 審查員」，吃進你的 Prompt 與壞輸出，產出病灶報告與改寫建議，這就是 AI Meta Prompting 的核心。它很適合做第一輪掃描、抓出人眼漏看的矛盾句。但停損點是：審查員的改寫版一律視為「待驗證假設」，必須過你的回歸測試集才採用。否則你只是把「人類亂改」換成「AI 亂改」，問題沒解決，還更難追蹤是誰改壞的。

第三，把 temperature、模型選擇也納入變因管理。 很多人除錯只盯 Prompt 文字，忘了參數與模型也是變因。一個穩健做法是建一張「除錯變因表」：

變因層級	例子	何時優先動它
任務句	重寫第一句、補角色	理解錯、答非所問
輸出格式	給 JSON 範本、欄位清單	格式跑掉、欄位漏
護欄	禁止猜測、缺資料時的回法	亂編資料、邊界崩
範例	2~3 個 Few-shot	時好時壞、風格不一
參數	temperature、top_p	補完範例護欄仍抖動
模型	換等級或換家	以上全試過仍解不掉

這張表的用法是「由上往下、一次一層」。換模型永遠是最後一招，因為它最貴、也最容易讓你誤以為「問題解決了」，其實只是換了個還沒踩到的雷區。換模型後務必把整組黃金測試集重跑，並依新模型的官方偏好微調寫法——例如 Claude 偏好的寫法與 ChatGPT 偏好的寫法在護欄措辭與標籤習慣上並不相同。

第四，建立「Prompt 健康度」指標，讓品質可被監看。 上線不是終點。為每個正式 Prompt 設兩三個可量化指標（例如：人工改寫率、致命事故次數、平均處理時間），每週記一次。指標一旦惡化，往往代表真實輸入的分布漂移了（季節活動、新商品上架），這時該回頭擴充測試集、補新護欄，而不是等到客訴爆量才救火。

範例：診斷 Prompt 與除錯 Workflow

下面這個診斷 Prompt 可以直接複製，貼上你那個有問題的 Prompt 與幾次壞輸出，讓模型幫你做第一輪病灶定位：

你是一位資深 Prompt 工程師，專長是診斷與優化提示詞。

我有一個在正式流程使用的 Prompt 出了問題。以下是它的內容與幾次實際輸出。

【原始 Prompt】
（貼上你的 Prompt）

【實際輸出 1～5】
（貼上連跑 5 次的輸出，標明哪幾次是錯的、錯在哪）

請依序完成：
1. 判斷主要病灶屬於下列哪幾類：理解錯／格式跑掉／亂編資料／漏需求／不穩定。
2. 指出原始 Prompt 中造成問題的「具體句子」並說明為什麼。
3. 找出 Prompt 內互相矛盾或重複的指令。
4. 一次只針對「最致命的那一個病灶」提出改寫版，其餘先不動。
5. 列出 3 個我應該拿來測試這版的邊界情況輸入。

護欄：不要重寫整個 Prompt，只動必要處；不確定病因時，明說「需要更多輸出樣本」而非猜測。

如果你想更進一步，讓模型在診斷後自己反覆優化、再自評，可以加一段 Meta Prompting 收尾指令：

（接續上方診斷後）

接著請執行兩輪自我優化：
第 1 輪：依你找出的最致命病灶，產出改寫版 A。
自評：用我下方提供的 3 個邊界輸入，預測改寫版 A 各會怎麼回，標出仍可能出錯的點。
第 2 輪：只針對自評抓到的弱點，再改一次，產出改寫版 B。

輸出格式：分「改寫版 A」「A 的自評」「改寫版 B」「仍需我人工驗證的風險點」四段。
護欄：每一版都只動上一版的弱點，不得整段重寫；不得假裝測試已通過，最終仍由我用回歸測試集實測為準。

對應的除錯流程，文字版流程圖如下：

壞 Prompt
   ↓
連跑 5～10 次 ── 記錄每次輸出（固定模型與溫度）
   ↓
每次都錯？ ──是──→ 確定性問題（理解／格式／漏需求）
   │                        ↓
   否                   重寫任務句／鎖格式（單一變因）
   ↓                        ↓
時好時壞 → 穩定性問題 ──→ 補 Few-shot + 護欄 + 降溫度
   ↓                        ↓
   └──────────→ 用回歸測試集全跑 ←──────────┘
                       ↓
              全部通過？ ──否──→ 回到「單一變因」再改
                       ↓是
                  仍不穩？ ──是──→ 拆成 Prompt Chaining 多步
                       ↓否
                    上線交付 → 設健康度指標每週監看

這張圖的精神是：先分流（確定性 vs 穩定性），對症下藥，再用測試集把關，必要時拆步。 不分流就亂改，是大多數人卡關的根因。

常見錯誤

一次改一大把：同時動四五個地方，變好了也不知道功臣是誰。永遠單一變因。
只測一次就宣告修好：尤其對「不穩定」型 bug，單次測試的成功是假象，務必連跑看分布。
把所有問題都當「模型不夠聰明」：九成的壞 Prompt 是指令問題不是模型問題，換更貴的模型常常治標不治本。
無限加字：Prompt 越改越長，矛盾與重複也越來越多。除錯時要敢「刪」，先把互相打架的指令清掉。
沒處理邊界情況：只測正常輸入，上線遇到空白、亂碼、超長文字就崩。範例與測試一定要含邊界。
靠 AI 改寫就直接信：請 AI 優化 Prompt 是好起點，但改寫版仍要過你的測試集，判準是輸出有沒有變穩，不是讀起來順不順。
跨模型比較卻不固定變因：今天用 ChatGPT、明天用 Claude，輸出本就不同，這樣記錄等於沒有對照組。

最佳實務

版本化你的 Prompt：每個能用的版本都存檔並註記「改了什麼、解決什麼」，等於 Prompt 的 git log，回溯與交接都靠它。
錯誤要寫進護欄而非記在腦裡：每修好一個 bug，就把對應的禁止事項補進 Prompt 護欄，讓它不再復發。
分層結構固定：角色 → 任務 → 步驟 → 輸出格式 → 護欄，五層各司其職，出問題時一眼知道該動哪一層。可搭配 System Prompt 設定指南把穩定不變的部分沉澱到系統層。
保留一份「黃金測試集」：精挑 5 到 10 個最能代表真實場景的輸入，當作每次改動的驗收標準，這是品質的最後防線。
複雜任務優先拆步而非堆指令：與其在一個 Prompt 裡塞滿條件硬撐，不如用 Prompt Chaining 拆成單純的小步，每步好測也好修。
善用 AI 但設停損：用 Meta Prompting 做第一輪診斷與自評很有效率，但任何改寫版都得過回歸測試集才算數。

實際案例一：台灣電商客服的 Prompt 救火記

台中一家做居家用品的中型電商，用一個 Prompt 讓 AI 草擬客服回覆，由真人客服審核後送出。導入兩週後團隊抱怨連連：回覆時好時壞，有時親切到位，有時冷冰冰；最嚴重的是 AI 偶爾會「保證七天到貨」或編出根本沒有的退換貨條款，逼得主管不敢再放它進流程。

導入除錯方法前：客服主管的做法是每次出包就手動改幾個字，改了三週越改越亂，Prompt 從原本 200 字膨脹到 600 字，裡頭關於退貨的說明出現了三種互相矛盾的版本，AI 不知道聽哪句，問題反而更頻繁。

用五步法除錯後，他們這樣做：

重現：拿 8 筆真實客訴連跑各 5 次，發現問題集中在「亂編退貨政策」與「語氣不穩」兩類。
定位：亂編是因為 Prompt 要 AI 回答退貨問題，卻沒給它公司實際的退貨條款；語氣不穩是因為沒有任何語氣範例。
單一變因改：先只治亂編——把公司退換貨條款原文貼進 Prompt，並加護欄「退貨、運費、到貨時間只能引用上方條款原文，條款沒寫的回答『這部分我幫您轉專人確認』」。
補範例：針對語氣，加入 3 個示範回覆（含一個客訴情緒激動的邊界案例）。
回歸測試：把那 8 筆客訴固定成測試集，每次改完全跑。

成果數據（導入後一個月）：客服回覆需要真人大幅改寫的比例從約 45% 降到 12%；「亂編政策」這類事故從每週 5 至 8 次降到掛零；單筆回覆平均處理時間從 4 分鐘縮短到 1.5 分鐘，等於一位客服人力多出近一半產能。主管最有感的一句話是：「以前是賭它今天乖不乖，現在是它本來就該這樣。」這正是 Prompt 從玩具變生產工具的分水嶺。

實際案例二：行銷團隊的選品文案抖動

另一個更貼近「不穩定」與「拆步」的例子，來自一家台北的保養品電商行銷團隊。他們用一個 Prompt 一次完成三件事：判斷商品賣點分類、抽出三個核心成分、再寫成一段 150 字社群文案。問題是這個 Prompt 每五次就有一兩次整包歪掉——有時分類對但成分抓錯，有時文案漂亮卻把競品成分寫了進去。

團隊一開始的反應是「文案不夠好」，於是一直加形容詞、加語氣要求，越改越長，穩定度卻沒提升。後來用診斷對照表一分流才發現：這不是單一病灶，而是「一個 Prompt 同時扛三個子任務，任一步出錯整包就壞」。

他們的解法不是繼續改文字，而是拆成 Prompt Chaining：第一步只做分類、第二步只抽成分（並加護欄「只能從我提供的成分表選，表上沒有的禁止出現」）、第三步才吃前兩步的乾淨結果來寫文案。每一步都單純到幾乎不會錯，並各自配了小型 Few-shot 範例。

成果（導入後三週）：文案整包需要重寫的比例從約 38% 降到 9%；「寫進競品成分」這種致命事故掛零；因為每步輸出單純，新進小編也能看懂哪一步該負責哪件事，交接成本大幅下降。這個案例的教訓是：當你怎麼改一個 Prompt 都壓不穩時，問題往往不在措辭，而在你要它「一次做太多」。

免責聲明：本文涉及退換貨條款、到貨承諾、商品成分等內容僅為流程範例，實際商品政策、成分標示與消費爭議處理應以各企業公告及《消費者保護法》、《化粧品衛生安全管理法》等現行法規為準。AI 草擬內容務必經真人審核後再對外發送。

結論

Prompt 不好用，幾乎從來不是「運氣不好」，而是你還沒把它當成可以除錯的程式來對待。記住這條主線：先連跑重現、分流是確定性還是穩定性問題、對照五大病灶、控制單一變因逐步改、用回歸測試把關，必要時拆成多步。 把每一次出包都當成一次定位與修復，而不是砍掉重練，你的 Prompt 才會越用越穩，最終成為團隊可以放心交付的資產。

下一步，建議把本篇學到的除錯流程，套用在你手邊那個最讓你頭痛的 Prompt 上，並順手讀 Few-shot 提示與 Prompt Chaining，它們是穩定化與拆步的兩大利器；想讓 AI 幫你做第一輪診斷與改寫，再參考 AI Meta Prompting 把自評流程套起來。

❓ 常見問題 FAQ

Prompt 除錯和重寫一個新的有什麼不一樣？

重寫是把舊的丟掉重來，常常修好一個問題又冒出新問題；除錯是先找出壞在哪一層（理解、格式、護欄），只動那一層。除錯能累積知識、改動可控，是讓 Prompt 從玩具變生產工具的關鍵差別。

為什麼同一個 Prompt 有時對、有時錯？

多半是 Prompt 留了太多「自由發揮」的空間，模型每次取樣略有不同就走鐘。解法是用 Few-shot 範例示範你要的樣子、用護欄寫死不可做的事、把溫度（temperature）調低，三者一起收斂變異。

AI 亂編資料（幻覺）要怎麼從 Prompt 端壓下來？

在護欄明寫「只能根據我提供的內容作答，資料不足時回答『無法確定』而非猜測」，並要求附上依據句。若任務本質需要外部事實，光靠 Prompt 不夠，要把真實資料源貼進上下文，或改用會把推理過程攤開的思維鏈讓錯誤更早暴露。

Prompt 太長是不是就一定不好？

長不是原罪，沒結構又互相矛盾才是。常見壞味道是同一件事在不同段落講了三種版本，模型不知道聽誰的。除錯時先抓矛盾與重複，把指令去重、分層（角色、步驟、格式、護欄）後通常會變短又變穩，可參考框架大全的分層寫法。

要不要請 AI 自己幫我優化 Prompt？

可以當起點但別全信。請模型扮演 Prompt 工程師、指出你 Prompt 的模糊與矛盾處很有用，這就是 Meta Prompting 的用法；但它給的改寫版仍要用你的測試集實測。判準永遠是輸出有沒有變穩，不是改寫版讀起來順不順。

ChatGPT 和 Claude 的 Prompt 除錯方式一樣嗎？

五步法（重現、定位、單一變因、補範例護欄、回歸測試）完全通用，但護欄與格式的「下藥」細節會因模型而異。建議搭配各自的官方寫法調整，例如 ChatGPT 寫法偏好條列指令、Claude 寫法對 XML 標籤與長護欄反應更好。換模型前後都要重跑你的黃金測試集。

除錯到一半發現任務太複雜，一個 Prompt 怎麼弄都不穩，怎麼辦？

這通常不是 Prompt 寫得不好，是你把太多步驟塞進一次呼叫。當一個 Prompt 同時要分類、抽取又要改寫，任何一步出錯整包就壞。把它拆成 Prompt Chaining，每一步輸入輸出單純、好測也好修，整體穩定度會明顯回升。

怎麼知道我的 Prompt 已經「夠穩」可以上線了？

訂一個量化門檻再上線，別憑感覺。常見做法是：黃金測試集（含邊界案例）連跑後通過率要達 95% 以上、致命類事故（亂編、格式崩）必須掛零、且連續兩次改動都沒有新破口。達標才交付，沒達標就回到單一變因再改。

🔗 延伸閱讀

這篇對你有幫助嗎？

AgentAI 智庫團隊 ✓ 台灣實作團隊

我們是一群專注於 AI Agent、Prompt 與自動化工作流的台灣實作者。每篇教學都附可複製配方、誠實標示實測程度與限制，只分享真正能落地、可直接套用的方法——與其介紹工具，不如教你把事情做完。

關於我們 →看更多教學 →訂閱情報週報 →

每週把這類實戰教學寄給你

訂閱 AgentAI 智庫情報週報，新的 Prompt、AI Skills、工作流與教學第一時間收到。

免費 · 隨時取消