AI Agent 成本控制全攻略：token 計費、省錢技巧與選模型

Q: AI Agent 的成本主要花在哪裡？

九成以上的成本來自 token 計費 。每次呼叫模型，會依「輸入 token（你給的提示與情境）＋輸出 token（模型回覆）」收費，而 Agent 通常一個任務要來回呼叫很多次，加上重複塞入長情境，成本就疊高。其餘是向量資料庫、外部工具 API 等周邊費用。

Q: input 和 output token 哪個比較貴？

output（輸出）token 通常比 input 貴好幾倍 。所以控制成本的重點之一，是讓模型「少話多做」——要求簡潔結構化的回覆、避免它長篇大論地解釋，能明顯壓低帳單。

Q: 是不是一律用便宜的小模型最省？

不是。小模型單價便宜，但若它做不好任務、反覆出錯要重試，或需要更長的提示去補救，總成本反而更高。正解是 分層 ：簡單任務交小模型，複雜推理才動用大模型，用對地方才是真省。

Q: 怎麼避免 Agent 陷入迴圈把錢燒光？

一定要設 護欄 ：限制單一任務的最大呼叫次數、最大 token 數、最長執行時間，並設定每日花費上限與警報。多數框架都支援這些設定，務必在上線前開好，否則一個失控迴圈可能一夜燒掉整月預算。

很多人第一次把 AI Agent 上線跑真實任務，月底打開帳單都會倒抽一口氣：明明只是自動處理一些客服與報表，怎麼一個月就花掉好幾千、甚至上萬元？問題不在 AI Agent 太貴，而在於沒人教你它的錢是怎麼花掉的。

這篇要解決的問題：把 AI Agent 的成本結構講清楚，並教你具體怎麼省，而不是叫你「少用一點」。 適合誰讀：正在導入或評估 AI Agent 的中小企業、開發者、想控管雲端與 API 帳單的團隊，零到中階都適合。 讀完你會得到：看懂 token 帳單的能力、一套分層選模型的方法、可複製的省錢 Prompt 與 Workflow 流程圖，以及一個台灣團隊把成本砍六成的真實案例。

為什麼 AI Agent 的成本會失控？

傳統軟體的成本是固定的：買了授權、付了月費，用多少都一樣。AI Agent 完全不同，它是用多少算多少，而且「用量」這件事比你想的更難預估。

關鍵在於 Agent 和單純聊天機器人的差別。你問 ChatGPT 一個問題，它回一次，計費一次。但一個 Agent 要完成「讀這份報表、分析、寫摘要、寄信」這種任務，背後可能來回呼叫模型十幾次：規劃步驟、呼叫工具、看工具回傳結果、再決定下一步……每一次來回都在花 token。更糟的是，很多人設計時會把整份文件、整段對話歷史在每一輪都重新塞給模型，等於同樣的內容付了好幾次錢。

再加上 Agent 有「自主性」，萬一卡進迴圈（例如反覆嘗試一個失敗的動作），沒有護欄的話，它會默默地一直燒錢直到你發現。這就是為什麼成本管理不是上線後才想的事，而是設計階段就要納入的核心。

核心概念：token 到底怎麼計費？

要省錢，先得看懂帳單。AI Agent 的成本九成來自 token 計費，而 token 分成兩種，價格天差地遠。

可以把模型想成一位「按字計酬的口譯員」：你講給他聽的（輸入）算錢，他開口回給你的（輸出）也算錢，而且他回話的單價往往是聽話的好幾倍——因為「生成」比「閱讀」更耗算力。

下面這張表把主要成本項目與省錢槓桿整理清楚：

成本項目	它是什麼	相對單價	主要省錢槓桿
輸入 token（input）	你給模型的提示、情境、歷史對話	低～中	精簡 prompt、用 RAG 取代全文塞入、prompt caching
輸出 token（output）	模型生成的回覆內容	高（常為 input 數倍）	要求簡潔/結構化回覆、限制最大輸出長度
呼叫次數	Agent 完成任務的來回輪數	累乘效應大	簡化流程、減少不必要的推理步驟
模型等級	用旗艦大模型還是輕量小模型	差距可達數十倍	分層：簡單任務用小模型
周邊服務	向量資料庫、工具 API、託管	通常較小	選用量級方案、避免過度檢索

記住一個心法：成本 ≈ 模型單價 × token 量 × 呼叫次數。三個因子任何一個都能優化，而真正的高手是三個一起壓。

實際教學：五步驟把帳單砍到可控

Step 1：先量測，沒有數據不要優化

最常見的錯誤是憑感覺省錢。請先在你的 Agent 上加一層紀錄，把每個任務的 input token、output token、呼叫次數、單次成本記下來。多數模型 API 的回應都會附上 token 用量欄位，框架如 LangChain、n8n 也能輸出這些數據。

跑一週後，你會立刻看到「二八法則」：通常兩成的任務吃掉八成的成本。先針對那兩成下手，CP 值最高。

Step 2：用對模型——分層，不要一律用旗艦

這是最有感的一招。把任務分成三層：

輕量層（分類、判斷意圖、抽取欄位、格式整理）：用最便宜的小模型就綽綽有餘。
標準層（撰寫回覆、一般摘要、客服對話）：用中階模型，平衡品質與成本。
重度層（複雜推理、多步驟規劃、程式生成）：才動用旗艦大模型。

很多團隊的失誤是「為了保險，全部都用最貴的」。實際上，一個客服 Agent 八成的工作是分類與套版回覆，這些用小模型即可，只有真正棘手的問題才升級。光是這層分流，常常就能省下五成以上。

Step 3：壓縮情境，善用快取與檢索

不要每次都把整份知識庫、整段歷史對話塞給模型。三個做法：

精簡 system prompt：把冗長的指令濃縮成要點，每一輪都帶著它，省下來的是長期複利。
prompt caching：對於每次都相同的固定情境（角色設定、產品說明），開啟快取，命中時這段大幅折扣。
用 RAG 取代全文：不要把 50 頁手冊整個丟進去，而是只檢索出與當前問題相關的兩三段，輸入 token 可能從上萬降到幾百。

Step 4：設預算上限與護欄

上線前一定要設好三道防線，避免失控：

最大呼叫次數：單一任務最多來回幾次，超過就中止並通報。
最大 token / 輸出長度：限制單次輸出，防止模型長篇大論。
每日花費警報：當日累計超過門檻就發通知，甚至自動暫停。

這些設定在 OpenAI、Anthropic 的 API 與多數 Agent 框架都支援，務必開啟。一個沒有護欄的迴圈，真的可能一夜燒掉整月預算。

Step 5：持續監控與迭代

把 Step 1 的數據做成簡單儀表板（Google 試算表或 Looker Studio 都行），每週看三個指標：每日總成本、單位任務成本、最貴的前十次呼叫。針對最貴的呼叫逐一檢視——是模型選太大？情境塞太多？還是流程繞太多圈？優化是持續的，不是一次到位。

範例：Prompt 與 Workflow

可複製的省 token Prompt

下面這段 system prompt 同時做到「分層判斷」與「要求簡潔輸出」，可直接貼進你的 Agent 設定：

你是客服分流助理。請依規則處理每則客戶訊息，目標是用最少字數完成任務。

規則：
1. 先判斷訊息類別：[一般查詢 / 訂單問題 / 投訴 / 需轉真人]。
2. 若為「一般查詢」或「訂單問題」，直接從下方知識片段回答，不要解釋你的推理過程。
3. 若為「投訴」或「需轉真人」，只輸出 {"action":"escalate","reason":"..."}，不要嘗試自行回覆。
4. 所有回覆限制在 120 字以內，使用條列，不寒暄、不重複客戶問題。

知識片段（僅使用以下內容，無關資料不要臆測）：
{{檢索出的相關段落}}

客戶訊息：{{message}}

重點在第 2、3、4 條：明確要求不要解釋推理過程、簡單情況不升級到大模型、輸出限字數——這三點直接壓低最貴的 output token。

Workflow 流程圖（文字版）

下面是一個「成本感知客服 Agent」的分層流程，照著搭可避免每件事都打到旗艦模型：

客戶訊息進來
        ↓
[小模型] 分類意圖（便宜、快速）
        ↓
   是否為簡單問題？
   ├── 是 → [RAG] 檢索相關片段 → [小模型] 套版簡短回覆 → 回傳
   └── 否 ↓
   是否需要複雜推理／多步驟？
   ├── 是 → [大模型] 深度處理（設呼叫上限）→ 回傳
   └── 否 → [中模型] 撰寫回覆 → 回傳
        ↓
   全程記錄 token 用量 → 寫入成本儀表板
        ↓
   當日累計超過預算？→ 是 → 發警報並暫停

這張流程圖的精神是：讓貴的模型只在必要時上場，其餘交給便宜的環節，並全程把成本數據留痕。

常見錯誤

一律用旗艦模型：覺得「貴的比較準」就全用大模型，是最燒錢的習慣。先分層再說。
每輪都塞全部歷史：把整段對話、整份文件每次重新輸入，等於同樣內容付好幾次錢。
放任模型長篇大論：沒限制輸出長度，模型愛解釋、愛客套，output token 默默暴增。
沒設護欄就上線：沒有呼叫上限與花費警報，一個失控迴圈就能燒爆預算。
只看總帳單、不看單位成本：總額下降可能只是用量減少，要看「每件任務成本」才知道有沒有真的優化。
為省小錢犧牲品質：把模型壓到太弱導致一直重試、客訴變多，反而更貴。省錢要算「總成本」，不是單價。

最佳實務

先量測、再優化：用數據找出最貴的兩成任務，集中火力。
分層選模型：建立輕量／標準／重度三層路由，預設走便宜層，必要才升級。
情境最小化：system prompt 精簡、開 prompt caching、用 RAG 只取相關片段。
輸出受控：要求結構化、限字數、禁止無謂解釋與寒暄。
護欄先行：上線前設好呼叫上限、token 上限、每日花費警報。
持續監控：每週看儀表板，盯緊單位任務成本與最貴呼叫，迭代優化。
批次處理：能合併的請求合併送，能離線排程的別即時跑，攤平成本。

實際案例：台灣電商客服 Agent 把成本砍六成

台中一家經營保健食品的電商團隊（約 15 人），導入了一個處理售前詢問與訂單查詢的 AI Agent，每月處理約 8,000 則客戶訊息。

導入初期（未優化）：

所有訊息一律丟給旗艦大模型處理。
每則訊息都把完整的 30 頁產品手冊塞進情境。
沒有限制輸出長度，回覆常常落落長。
沒有任何成本護欄。
結果：每月 API 帳單約 新台幣 28,000 元，且曾因一次工具串接錯誤導致 Agent 迴圈，單日暴衝近 4,000 元才被發現。

優化後（套用本文五步驟）：

加上 token 紀錄，發現八成成本來自「重複塞手冊」與「output 過長」。
改為分層：用小模型先分類，八成的查詢由小模型＋RAG 套版回覆，僅疑難雜症升級大模型。
導入 RAG，只檢索與問題相關的兩三段，輸入 token 從每則約 9,000 降到約 600。
限制輸出 120 字、開啟 prompt caching、設每日花費上限 1,200 元並接 LINE 警報。

成果數據：

每月 API 帳單從 28,000 元降到約 10,500 元，下降約 62%。
平均單則訊息成本從 3.5 元降到 1.3 元。
因為設了護欄，後續再也沒發生失控暴衝。
客服滿意度不降反升——因為回覆變得更簡潔、更快，客戶反而更喜歡。

這個案例最值得記住的一點是：省成本和提升品質並不衝突。逼自己精簡情境、控制輸出、分層選模型，往往同時讓回覆更精準、回應更快。省錢，常常是「設計變好」的副產品。

免責聲明：本文所列之費用金額、節省比例與成本數據為特定情境之示意，實際成本受模型供應商定價、用量、匯率與串接方式影響甚大，請以各 API 供應商官方計價與你自身的實測數據為準，本文不構成任何財務或採購建議。

結論

AI Agent 燒不燒錢，從來不是模型本身的問題，而是設計與管理的問題。掌握「成本 ≈ 模型單價 × token 量 × 呼叫次數」這條心法，從量測開始，做到分層選模型、壓縮情境、設好護欄、持續監控，多數團隊都能把帳單砍到原本的三到五成，而且品質不減反增。

下一步，建議你先花一週把現有 Agent 的 token 用量記錄下來，找出最貴的兩成任務動手優化；想更進一步，可以參考 RAG 教學把情境壓到最小，或到工作流知識庫找現成的成本感知藍圖直接套用。把成本管理變成設計的一部分，你的 AI Agent 才能真正長久、划算地跑下去。

❓ 常見問題 FAQ

AI Agent 的成本主要花在哪裡？

九成以上的成本來自 token 計費。每次呼叫模型，會依「輸入 token（你給的提示與情境）＋輸出 token（模型回覆）」收費，而 Agent 通常一個任務要來回呼叫很多次，加上重複塞入長情境，成本就疊高。其餘是向量資料庫、外部工具 API 等周邊費用。

input 和 output token 哪個比較貴？

output（輸出）token 通常比 input 貴好幾倍。所以控制成本的重點之一，是讓模型「少話多做」——要求簡潔結構化的回覆、避免它長篇大論地解釋，能明顯壓低帳單。

什麼是 prompt caching，真的能省錢嗎？

可以，而且常常很有感。prompt caching 會把重複出現的固定情境（例如長長的 system prompt、產品說明）快取起來，下次命中時這段的計費大幅折扣。對於每次都帶相同背景的 Agent，省下三到五成輸入成本很常見。

是不是一律用便宜的小模型最省？

不是。小模型單價便宜，但若它做不好任務、反覆出錯要重試，或需要更長的提示去補救，總成本反而更高。正解是分層：簡單任務交小模型，複雜推理才動用大模型，用對地方才是真省。

怎麼避免 Agent 陷入迴圈把錢燒光？

一定要設護欄：限制單一任務的最大呼叫次數、最大 token 數、最長執行時間，並設定每日花費上限與警報。多數框架都支援這些設定，務必在上線前開好，否則一個失控迴圈可能一夜燒掉整月預算。

🔗 延伸閱讀

這篇對你有幫助嗎？

AgentAI 智庫團隊 ✓ 台灣實作團隊

我們是一群專注於 AI Agent、Prompt 與自動化工作流的台灣實作者。每篇教學都附可複製配方、誠實標示實測程度與限制，只分享真正能落地、可直接套用的方法——與其介紹工具，不如教你把事情做完。

關於我們 →看更多教學 →訂閱情報週報 →

每週把這類實戰教學寄給你

訂閱 AgentAI 智庫情報週報，新的 Prompt、AI Skills、工作流與教學第一時間收到。

免費 · 隨時取消