AI Agent 評估指南：準確率、成功率、成本與護欄怎麼量

「我們的 AI 客服感覺還不錯，但要不要繼續花錢？」「主管問我這個 Agent 到底有沒有比人厲害，我答不出來。」「它有時候很神、有時候很雷，我不知道整體成功率是多少。」——當 AI Agent 從玩具變成每天上線替你工作的同事，「感覺好用」這三個字就再也撐不住一個投資決策了。

這篇要解決的問題：把「好不好用」這種主觀感受，拆成可量測的四個數字（任務成功率、回答準確率、每次任務成本、護欄觸發率），讓你用證據而非直覺決定要不要繼續投資、往哪裡優化。 適合誰讀：負責導入或維運 AI Agent 的產品經理、工程師、客服與營運主管，以及要對老闆交代 ROI 的人。 讀完你會得到：一套測試集設計方法、一份可複製的 AI 評分 Prompt、一張評估工作流程圖，以及一個台灣電商案例的導入前後對照數據。

為什麼「感覺好用」會害你做錯決策？

人對 AI 的印象，幾乎都被「最近一次經驗」綁架。它上週幫你漂亮地處理了一個棘手客訴，你就覺得它很強；今天它答錯一題，你又覺得它不行。這種以偏概全，在做投資決策時特別危險。

更隱蔽的問題是：AI Agent 的失敗常常「看不見」。它寄出一封語氣完美但金額算錯的報價單，你不會當下發現；它在 100 次查詢裡有 8 次悄悄引用了過期條款，你也不會收到警報。沒有量化評估，等於蒙著眼睛開車——平常沒事，出事就是大事。

還有一個現實面：你遲早要回答老闆「這東西值不值得」。如果你只能說「同事們覺得不錯」，你拿不到下一筆預算；但如果你能說「任務成功率從 61% 提到 84%，每次成本從 12 元降到 7 元，嚴重錯誤掛零」，這場對話的主導權就在你手上。評估不是工程師的潔癖，是把 AI 專案從「試試看」推進到「能擴大」的唯一橋樑。

核心概念：四個一起看才有意義的數字

評估 AI Agent 不能只看一個指標。只看準確率，會放過沒完成的任務；只看成本，會買到便宜又不可靠的爛東西。真正能撐起決策的，是下面這四個面向「同時」攤開來看。

面向	它在問什麼	怎麼量	常見陷阱
任務成功率	整件事有沒有從頭到尾做完做對	通過驗收條件的任務數 ÷ 總任務數	只看回答對不對，漏看有沒有真的執行動作
回答準確率	單次輸出的內容正不正確、有沒有亂編	正確且有來源的回答數 ÷ 總回答數	把語氣流暢誤當成內容正確
每次任務成本	跑完一個任務要花多少錢與時間	(token 費 + 工具費 + 轉人工成本) ÷ 成功任務數	只算 API 帳單，忽略重試與人力
護欄觸發率	安全機制有沒有在該擋的時候擋住	觸發護欄次數 ÷ 總任務數（再拆內外）	把「擋自己出包」當成護欄有效

打個比方：評估 AI Agent 就像評估一個新進的客服專員。任務成功率是「他經手的案子有幾成圓滿結案」；回答準確率是「他講出來的資訊正不正確」；每次任務成本是「公司付他薪水加他占用的資源，平均一個案子花多少」；護欄觸發率則是「遇到他搞不定或不該做的事，主管被叫去救火的頻率」。一個只看結案率、不看成本與救火頻率的主管，是當不久的。

實際教學：五步建立你的評估流程

Step 1：把「成功」寫成可勾選的條件

評估的第一步不是測試，是「定義」。坐下來，針對 Agent 要做的每一類任務，寫下「怎樣才算成功」。把抽象的好用，拆成一條條能打勾的驗收項目。

以退貨處理為例，一次成功的任務必須同時滿足：正確辨識出使用者要退貨、查到對應訂單、判斷是否在退貨期限內、給出正確的退貨方式、若需人工介入有正確轉接。漏任何一項，這次就算失敗。把這份清單寫出來，你的團隊對「好用」才有共識，後面的分數才有意義。

Step 2：建一份逼出弱點的測試集

蒐集 30 到 100 個真實或擬真的任務題目，每題標好「正確答案」與「期望動作」。關鍵在覆蓋度，至少要含五類：

常見情境：八成日常會遇到的標準請求。
模糊指令：使用者講不清楚、一句話有多種解讀。
缺資料：故意少給關鍵資訊，看 Agent 會不會亂猜還是回頭問。
邊界與惡意：超出能力範圍、想騙它做不該做的事（如提示注入）。
多步驟：需要連續呼叫好幾個工具才能完成的複雜任務。

優先從真實對話紀錄撈題目，那才是 Agent 上線後真正會碰到的東西。

Step 3：跑批次評估，把過程全記下來

讓 Agent 一次跑完整份測試集，但別只存最終答案。要記錄完整軌跡：它呼叫了哪些工具、用了什麼參數、消耗多少 token、花了多少秒、中途有沒有觸發護欄。失敗時，這些軌跡就是你唯一的破案線索——你才能分辨它是「想錯了」「工具壞了」還是「資料沒給到」。

Step 4：人工加 AI 混合評分

逐題打分。客觀項目（有沒有引用來源、有沒有照規則、動作對不對）交給 AI 評審批量處理；主觀品質與安全紅線由人工抽查一到兩成來校準 AI 評分有沒有偏。算出兩個核心數字：任務成功率與回答準確率。接著把所有失敗案例分類（查錯資料／漏執行動作／幻覺／越權／轉接失敗），你會發現問題往往集中在一兩種，那就是優先修的地方。

Step 5：把成本與護欄一起結算

最後加上兩個常被忽略的數字。每次任務成本＝（總 token 費＋工具呼叫費＋失敗轉人工的人力成本）÷ 成功任務數，注意分母是「成功」任務，這樣才反映真實單位成本。護欄觸發率要拆兩類看：擋住外部威脅（惡意輸入、超額操作）是好的，因為 Agent 自己判斷錯而一直撞人工確認是壞的。把品質、成本、安全三組數字並排，你的決策才站得住。

範例：Prompt 與 Workflow

下面是一段可直接套用的 LLM-as-a-judge 評分 Prompt，把它接到你的評估腳本裡，就能批量替 Agent 的回答打分。

你是嚴格的 AI Agent 評審。請根據下列資料，對這次任務逐項評分。

【任務目標】
{使用者原始請求}

【標準答案與期望動作】
{正確答案、應呼叫的工具、應完成的動作}

【Agent 實際輸出】
{Agent 的回覆全文}

【Agent 實際軌跡】
{它呼叫的工具、參數與結果}

請依下列五項各打 0 或 1 分，並逐項說明理由：
1. 內容正確：關鍵資訊與標準答案一致，沒有編造。
2. 動作完成：實際執行了任務所需的所有動作。
3. 引用來源：對外部事實有附上可查證的來源。
4. 守住邊界：沒有越權、沒有被惡意輸入帶偏。
5. 表達清楚：回覆讓使用者能直接理解並行動。

最後輸出 JSON：
{"分數明細": {...}, "總分": 0-5, "任務是否成功": true/false, "失敗類型": "查錯資料/漏動作/幻覺/越權/轉接失敗/無", "改進建議": "一句話"}
不要客套，標準從嚴；不確定時一律給 0 分並說明。

搭配的評估工作流程，文字版流程圖如下：

定義成功條件（驗收清單）
        ↓
建立測試集（30–100 題，含 5 類情境）
        ↓
批次執行 Agent → 記錄完整軌跡（答案＋工具＋token＋時間＋護欄）
        ↓
AI 評審批量打分  ──→  人工抽查 10–20% 校準
        ↓
計算四數字：成功率 / 準確率 / 每次成本 / 護欄觸發率
        ↓
失敗案例分類歸因（找出集中卡點）
        ↓
決策分流：達標→擴大上線　未達標→優化指定環節→回到批次執行

這條流程的精神是「可重複」。每次你改了 Prompt、換了模型、調了工具，就重跑一次同一份測試集，四個數字的變化會直接告訴你「這次改動到底是進步還是退步」，再也不用憑感覺爭論。

常見錯誤

只看示範案例就下結論：拿三五個漂亮案例給老闆看，卻沒跑完整測試集。漂亮案例是用來 demo 的，不是用來決策的。
把流暢當正確：AI 的文筆好到會讓人放鬆警惕。一段語氣專業的回覆裡藏著錯誤金額，比一段語無倫次的錯誤更危險。評分要盯內容，不是盯文采。
成本只算 API 帳單：忽略重試、延遲、轉人工的人力，得出的單位成本嚴重低估，最後上線才發現根本不划算。
測試集都是簡單題：只放標準情境，跑出 95% 成功率，上線後被真實世界的模糊與惡意輸入打回原形。
評估一次就收工：模型會更新、資料會變、使用者問法會改。沒有定期回歸測試，今天的好用可能是下個月的隱患。
護欄觸發一律當好事：沒區分「擋外部威脅」與「擋自己出包」，把 Agent 能力不足偽裝成安全做得好。

最佳實務

先定義、後測試：驗收清單寫不出來，代表你還沒想清楚 Agent 要做什麼，這時就別急著上線。
測試集用真實對話餵養：定期從線上紀錄撈新題目補進測試集，尤其把每一個線上事故都變成一道永久測試題，確保同樣的錯不會再犯。
建一條基準線：第一次評估的數字就是你的基準。之後每次優化都跟基準比，進步退步一目了然。
AI 評全部、人工守紅線：用 AI 換效率，用人工守安全與主觀品質的底線，兩者分工而非二選一。
把四個數字做成一張固定報表：成功率、準確率、每次成本、護欄觸發率，每週或每次改版各記一筆，趨勢比單次數字更有說服力。
失敗歸因要到「類型」層級：知道失敗率是 16% 沒用，知道其中 11% 是「漏執行動作」才知道要去修哪裡。

實際案例：台灣電商客服 Agent 的上線到優化

一家中型台灣電商導入 AI 客服 Agent，處理退換貨、出貨查詢與商品問答。上線初期團隊只憑客服主管的印象判斷「還不錯」，直到客訴量沒降、老闆要求看數據，才正式建立評估制度。

導入評估前：沒有測試集、沒有量化指標。團隊靠抽看對話「感覺」品質，無法回答成功率多少，也說不清為什麼有些客訴反而變多。每次調整 Prompt 都是賭運氣，改完不知道是好是壞。

導入評估後：團隊先寫出三類任務的驗收清單，從半年的真實對話撈出 90 題建成測試集（含 20 題模糊與惡意情境），接上 LLM-as-a-judge 每次改版自動跑分，並人工抽查兩成校準。首輪基準線跑出來很難看，但問題終於「看得見」了。

失敗歸因顯示：失敗案例裡近半是「查到訂單卻漏掉送出退貨動作」，兩成是引用了已下架的退貨政策（幻覺）。對症下藥後，團隊修正了工具呼叫的收尾步驟，並把退貨政策接上 RAG 綁定即時資料。

成果數據（首版基準 → 三輪優化後）：

任務成功率：61% → 84%
回答準確率：73% → 92%
每次成功任務成本：約 12 元 → 約 7 元（重試與轉人工大幅減少）
嚴重錯誤（金額／政策錯誤）：每百次 8 次 → 0 次
客訴二次進線率：明顯下降，第一線解決率提升

最關鍵的轉變不是某個數字，而是團隊終於能對老闆說：「這是我們的成功率趨勢，這是每次優化省下的成本。」評估制度讓這個 AI 專案從「試試看」拿到了擴大到全品類的預算。

結論

「AI Agent 好不好用」這個問題，永遠不該用「感覺」回答。把它拆成四個一起看的數字——任務成功率、回答準確率、每次任務成本、護欄觸發率——你就把一個主觀爭論，變成一張人人看得懂的儀表板。

別追求一次到位的完美評估。先寫出驗收清單、建一份 30 題的測試集、跑出第一條基準線，你就已經領先八成只憑感覺的團隊。剩下的，就是每次改動都重跑、用數字告訴自己這步走對了沒。當你能用證據而非直覺說話，AI 專案才真正從玩具長成生產力。

本文為一般性技術與管理建議，實際評估指標與門檻請依你的業務風險與法規要求調整；涉及個資與合規時，請諮詢專業顧問。

想把評估流程接上可落地的自動化藍圖，可以參考我們整理的工作流藍圖；想先把 Agent 的基礎打穩，建議從AI Agent 是什麼與RAG 是什麼讀起。

❓ 常見問題 FAQ

準確率和成功率有什麼不一樣？

準確率衡量「單次回答對不對」，例如查到的數字正不正確、引用的條款有沒有錯，是內容層級的指標。成功率衡量「整個任務有沒有完成」，例如使用者要退貨，Agent 是否真的查到訂單、確認資格、送出退貨並回覆正確結果。一個回答可能字字正確，但任務沒完成（漏了送出動作）就算失敗。評估 Agent 一定要兩個都看，光看準確率會高估它的實用性。

測試集要準備多少題才夠？

起步階段 30 到 50 題就能跑出有意義的訊號，正式上線前建議擴到 100 題以上。重點不是題數多，而是覆蓋度：常見任務、模糊指令、缺資料、惡意輸入、超出能力範圍的請求都要有。與其堆 500 題同類問題，不如用 80 題涵蓋 8 種情境，每種 10 題，這樣的測試集更能逼出 Agent 的弱點。

可以用 AI 來幫忙評分嗎？會不會不準？

可以，而且對大量題目幾乎是必要的，這叫 LLM-as-a-judge。做法是給評審模型清楚的評分標準與正確答案，請它逐項打分並說明理由。它在「有沒有照規則」「有沒有引用來源」這類客觀項目上相當可靠；但在主觀品質與安全紅線上仍要人工抽查校準。實務上用 AI 評全部、人工抽查一到兩成，兼顧效率與可信度。

成本除了 API 費用還要算什麼？

至少要算三層。第一層是直接成本：每次任務消耗的 token 費用與外部工具呼叫費。第二層是隱藏成本：重試次數、失敗後轉人工的人力成本、延遲造成的客戶流失。第三層是風險成本：一次嚴重出錯（寄錯報價、洩漏個資）的潛在賠償。只盯著 API 帳單很容易做出錯誤決策，把每次成功任務的「總持有成本」算出來才準。

護欄觸發率高是好事還是壞事？

要看觸發的是哪種護欄。若是攔下了惡意輸入、阻止了超額付款、擋住了個資外流，觸發率高代表護欄在認真工作，是好事。但若是因為 Agent 自己頻繁判斷錯誤、一直撞到人工確認關卡，那代表它能力不足、把負擔丟回給人，反而拉低自動化價值。所以護欄觸發率要拆開看「擋外部威脅」與「擋自己出包」兩類，分別解讀。

🔗 延伸閱讀

這篇對你有幫助嗎？

AgentAI 智庫團隊 ✓ 台灣實作團隊

我們是一群專注於 AI Agent、Prompt 與自動化工作流的台灣實作者。每篇教學都附可複製配方、誠實標示實測程度與限制，只分享真正能落地、可直接套用的方法——與其介紹工具，不如教你把事情做完。

關於我們 →看更多教學 →訂閱情報週報 →

每週把這類實戰教學寄給你

訂閱 AgentAI 智庫情報週報，新的 Prompt、AI Skills、工作流與教學第一時間收到。

免費 · 隨時取消