很多人第一次把 AI Agent 上線跑真實任務,月底打開帳單都會倒抽一口氣:明明只是自動處理一些客服與報表,怎麼一個月就花掉好幾千、甚至上萬元?問題不在 AI Agent 太貴,而在於沒人教你它的錢是怎麼花掉的。
這篇要解決的問題:把 AI Agent 的成本結構講清楚,並教你具體怎麼省,而不是叫你「少用一點」。 適合誰讀:正在導入或評估 AI Agent 的中小企業、開發者、想控管雲端與 API 帳單的團隊,零到中階都適合。 讀完你會得到:看懂 token 帳單的能力、一套分層選模型的方法、可複製的省錢 Prompt 與 Workflow 流程圖,以及一個台灣團隊把成本砍六成的真實案例。
為什麼 AI Agent 的成本會失控?
傳統軟體的成本是固定的:買了授權、付了月費,用多少都一樣。AI Agent 完全不同,它是用多少算多少,而且「用量」這件事比你想的更難預估。
關鍵在於 Agent 和單純聊天機器人的差別。你問 ChatGPT 一個問題,它回一次,計費一次。但一個 Agent 要完成「讀這份報表、分析、寫摘要、寄信」這種任務,背後可能來回呼叫模型十幾次:規劃步驟、呼叫工具、看工具回傳結果、再決定下一步……每一次來回都在花 token。更糟的是,很多人設計時會把整份文件、整段對話歷史在每一輪都重新塞給模型,等於同樣的內容付了好幾次錢。
再加上 Agent 有「自主性」,萬一卡進迴圈(例如反覆嘗試一個失敗的動作),沒有護欄的話,它會默默地一直燒錢直到你發現。這就是為什麼成本管理不是上線後才想的事,而是設計階段就要納入的核心。
核心概念:token 到底怎麼計費?
要省錢,先得看懂帳單。AI Agent 的成本九成來自 token 計費,而 token 分成兩種,價格天差地遠。
可以把模型想成一位「按字計酬的口譯員」:你講給他聽的(輸入)算錢,他開口回給你的(輸出)也算錢,而且他回話的單價往往是聽話的好幾倍——因為「生成」比「閱讀」更耗算力。
下面這張表把主要成本項目與省錢槓桿整理清楚:
| 成本項目 | 它是什麼 | 相對單價 | 主要省錢槓桿 |
|---|---|---|---|
| 輸入 token(input) | 你給模型的提示、情境、歷史對話 | 低~中 | 精簡 prompt、用 RAG 取代全文塞入、prompt caching |
| 輸出 token(output) | 模型生成的回覆內容 | 高(常為 input 數倍) | 要求簡潔/結構化回覆、限制最大輸出長度 |
| 呼叫次數 | Agent 完成任務的來回輪數 | 累乘效應大 | 簡化流程、減少不必要的推理步驟 |
| 模型等級 | 用旗艦大模型還是輕量小模型 | 差距可達數十倍 | 分層:簡單任務用小模型 |
| 周邊服務 | 向量資料庫、工具 API、託管 | 通常較小 | 選用量級方案、避免過度檢索 |
記住一個心法:成本 ≈ 模型單價 × token 量 × 呼叫次數。三個因子任何一個都能優化,而真正的高手是三個一起壓。
實際教學:五步驟把帳單砍到可控
Step 1:先量測,沒有數據不要優化
最常見的錯誤是憑感覺省錢。請先在你的 Agent 上加一層紀錄,把每個任務的 input token、output token、呼叫次數、單次成本記下來。多數模型 API 的回應都會附上 token 用量欄位,框架如 LangChain、n8n 也能輸出這些數據。
跑一週後,你會立刻看到「二八法則」:通常兩成的任務吃掉八成的成本。先針對那兩成下手,CP 值最高。
Step 2:用對模型——分層,不要一律用旗艦
這是最有感的一招。把任務分成三層:
- 輕量層(分類、判斷意圖、抽取欄位、格式整理):用最便宜的小模型就綽綽有餘。
- 標準層(撰寫回覆、一般摘要、客服對話):用中階模型,平衡品質與成本。
- 重度層(複雜推理、多步驟規劃、程式生成):才動用旗艦大模型。
很多團隊的失誤是「為了保險,全部都用最貴的」。實際上,一個客服 Agent 八成的工作是分類與套版回覆,這些用小模型即可,只有真正棘手的問題才升級。光是這層分流,常常就能省下五成以上。
Step 3:壓縮情境,善用快取與檢索
不要每次都把整份知識庫、整段歷史對話塞給模型。三個做法:
- 精簡 system prompt:把冗長的指令濃縮成要點,每一輪都帶著它,省下來的是長期複利。
- prompt caching:對於每次都相同的固定情境(角色設定、產品說明),開啟快取,命中時這段大幅折扣。
- 用 RAG 取代全文:不要把 50 頁手冊整個丟進去,而是只檢索出與當前問題相關的兩三段,輸入 token 可能從上萬降到幾百。
Step 4:設預算上限與護欄
上線前一定要設好三道防線,避免失控:
- 最大呼叫次數:單一任務最多來回幾次,超過就中止並通報。
- 最大 token / 輸出長度:限制單次輸出,防止模型長篇大論。
- 每日花費警報:當日累計超過門檻就發通知,甚至自動暫停。
這些設定在 OpenAI、Anthropic 的 API 與多數 Agent 框架都支援,務必開啟。一個沒有護欄的迴圈,真的可能一夜燒掉整月預算。
Step 5:持續監控與迭代
把 Step 1 的數據做成簡單儀表板(Google 試算表或 Looker Studio 都行),每週看三個指標:每日總成本、單位任務成本、最貴的前十次呼叫。針對最貴的呼叫逐一檢視——是模型選太大?情境塞太多?還是流程繞太多圈?優化是持續的,不是一次到位。
範例:Prompt 與 Workflow
可複製的省 token Prompt
下面這段 system prompt 同時做到「分層判斷」與「要求簡潔輸出」,可直接貼進你的 Agent 設定:
你是客服分流助理。請依規則處理每則客戶訊息,目標是用最少字數完成任務。
規則:
1. 先判斷訊息類別:[一般查詢 / 訂單問題 / 投訴 / 需轉真人]。
2. 若為「一般查詢」或「訂單問題」,直接從下方知識片段回答,不要解釋你的推理過程。
3. 若為「投訴」或「需轉真人」,只輸出 {"action":"escalate","reason":"..."},不要嘗試自行回覆。
4. 所有回覆限制在 120 字以內,使用條列,不寒暄、不重複客戶問題。
知識片段(僅使用以下內容,無關資料不要臆測):
{{檢索出的相關段落}}
客戶訊息:{{message}}
重點在第 2、3、4 條:明確要求不要解釋推理過程、簡單情況不升級到大模型、輸出限字數——這三點直接壓低最貴的 output token。
Workflow 流程圖(文字版)
下面是一個「成本感知客服 Agent」的分層流程,照著搭可避免每件事都打到旗艦模型:
客戶訊息進來
↓
[小模型] 分類意圖(便宜、快速)
↓
是否為簡單問題?
├── 是 → [RAG] 檢索相關片段 → [小模型] 套版簡短回覆 → 回傳
└── 否 ↓
是否需要複雜推理/多步驟?
├── 是 → [大模型] 深度處理(設呼叫上限)→ 回傳
└── 否 → [中模型] 撰寫回覆 → 回傳
↓
全程記錄 token 用量 → 寫入成本儀表板
↓
當日累計超過預算?→ 是 → 發警報並暫停
這張流程圖的精神是:讓貴的模型只在必要時上場,其餘交給便宜的環節,並全程把成本數據留痕。
常見錯誤
- 一律用旗艦模型:覺得「貴的比較準」就全用大模型,是最燒錢的習慣。先分層再說。
- 每輪都塞全部歷史:把整段對話、整份文件每次重新輸入,等於同樣內容付好幾次錢。
- 放任模型長篇大論:沒限制輸出長度,模型愛解釋、愛客套,output token 默默暴增。
- 沒設護欄就上線:沒有呼叫上限與花費警報,一個失控迴圈就能燒爆預算。
- 只看總帳單、不看單位成本:總額下降可能只是用量減少,要看「每件任務成本」才知道有沒有真的優化。
- 為省小錢犧牲品質:把模型壓到太弱導致一直重試、客訴變多,反而更貴。省錢要算「總成本」,不是單價。
最佳實務
- 先量測、再優化:用數據找出最貴的兩成任務,集中火力。
- 分層選模型:建立輕量/標準/重度三層路由,預設走便宜層,必要才升級。
- 情境最小化:system prompt 精簡、開 prompt caching、用 RAG 只取相關片段。
- 輸出受控:要求結構化、限字數、禁止無謂解釋與寒暄。
- 護欄先行:上線前設好呼叫上限、token 上限、每日花費警報。
- 持續監控:每週看儀表板,盯緊單位任務成本與最貴呼叫,迭代優化。
- 批次處理:能合併的請求合併送,能離線排程的別即時跑,攤平成本。
實際案例:台灣電商客服 Agent 把成本砍六成
台中一家經營保健食品的電商團隊(約 15 人),導入了一個處理售前詢問與訂單查詢的 AI Agent,每月處理約 8,000 則客戶訊息。
導入初期(未優化):
- 所有訊息一律丟給旗艦大模型處理。
- 每則訊息都把完整的 30 頁產品手冊塞進情境。
- 沒有限制輸出長度,回覆常常落落長。
- 沒有任何成本護欄。
- 結果:每月 API 帳單約 新台幣 28,000 元,且曾因一次工具串接錯誤導致 Agent 迴圈,單日暴衝近 4,000 元才被發現。
優化後(套用本文五步驟):
- 加上 token 紀錄,發現八成成本來自「重複塞手冊」與「output 過長」。
- 改為分層:用小模型先分類,八成的查詢由小模型+RAG 套版回覆,僅疑難雜症升級大模型。
- 導入 RAG,只檢索與問題相關的兩三段,輸入 token 從每則約 9,000 降到約 600。
- 限制輸出 120 字、開啟 prompt caching、設每日花費上限 1,200 元並接 LINE 警報。
成果數據:
- 每月 API 帳單從 28,000 元降到約 10,500 元,下降約 62%。
- 平均單則訊息成本從 3.5 元降到 1.3 元。
- 因為設了護欄,後續再也沒發生失控暴衝。
- 客服滿意度不降反升——因為回覆變得更簡潔、更快,客戶反而更喜歡。
這個案例最值得記住的一點是:省成本和提升品質並不衝突。逼自己精簡情境、控制輸出、分層選模型,往往同時讓回覆更精準、回應更快。省錢,常常是「設計變好」的副產品。
免責聲明:本文所列之費用金額、節省比例與成本數據為特定情境之示意,實際成本受模型供應商定價、用量、匯率與串接方式影響甚大,請以各 API 供應商官方計價與你自身的實測數據為準,本文不構成任何財務或採購建議。
結論
AI Agent 燒不燒錢,從來不是模型本身的問題,而是設計與管理的問題。掌握「成本 ≈ 模型單價 × token 量 × 呼叫次數」這條心法,從量測開始,做到分層選模型、壓縮情境、設好護欄、持續監控,多數團隊都能把帳單砍到原本的三到五成,而且品質不減反增。
下一步,建議你先花一週把現有 Agent 的 token 用量記錄下來,找出最貴的兩成任務動手優化;想更進一步,可以參考 RAG 教學把情境壓到最小,或到 工作流知識庫找現成的成本感知藍圖直接套用。把成本管理變成設計的一部分,你的 AI Agent 才能真正長久、划算地跑下去。
❓ 常見問題 FAQ
AI Agent 的成本主要花在哪裡?
input 和 output token 哪個比較貴?
什麼是 prompt caching,真的能省錢嗎?
是不是一律用便宜的小模型最省?
怎麼避免 Agent 陷入迴圈把錢燒光?
🔗 延伸閱讀
每週把這類實戰教學寄給你
訂閱 AgentAI 智庫情報週報,新的 Prompt、AI Skills、工作流與教學第一時間收到。
免費 · 隨時取消