控制 AI Agent 的成本:token 怎麼花、哪裡省、用對模型不燒錢

很多人第一次把 AI Agent 上線跑真實任務,月底打開帳單都會倒抽一口氣:明明只是自動處理一些客服與報表,怎麼一個月就花掉好幾千、甚至上萬元?問題不在 AI Agent 太貴,而在於沒人教你它的錢是怎麼花掉的

這篇要解決的問題:把 AI Agent 的成本結構講清楚,並教你具體怎麼省,而不是叫你「少用一點」。 適合誰讀:正在導入或評估 AI Agent 的中小企業、開發者、想控管雲端與 API 帳單的團隊,零到中階都適合。 讀完你會得到:看懂 token 帳單的能力、一套分層選模型的方法、可複製的省錢 Prompt 與 Workflow 流程圖,以及一個台灣團隊把成本砍六成的真實案例。

為什麼 AI Agent 的成本會失控?

傳統軟體的成本是固定的:買了授權、付了月費,用多少都一樣。AI Agent 完全不同,它是用多少算多少,而且「用量」這件事比你想的更難預估。

關鍵在於 Agent 和單純聊天機器人的差別。你問 ChatGPT 一個問題,它回一次,計費一次。但一個 Agent 要完成「讀這份報表、分析、寫摘要、寄信」這種任務,背後可能來回呼叫模型十幾次:規劃步驟、呼叫工具、看工具回傳結果、再決定下一步……每一次來回都在花 token。更糟的是,很多人設計時會把整份文件、整段對話歷史在每一輪都重新塞給模型,等於同樣的內容付了好幾次錢。

再加上 Agent 有「自主性」,萬一卡進迴圈(例如反覆嘗試一個失敗的動作),沒有護欄的話,它會默默地一直燒錢直到你發現。這就是為什麼成本管理不是上線後才想的事,而是設計階段就要納入的核心

核心概念:token 到底怎麼計費?

要省錢,先得看懂帳單。AI Agent 的成本九成來自 token 計費,而 token 分成兩種,價格天差地遠。

可以把模型想成一位「按字計酬的口譯員」:你講給他聽的(輸入)算錢,他開口回給你的(輸出)也算錢,而且他回話的單價往往是聽話的好幾倍——因為「生成」比「閱讀」更耗算力。

下面這張表把主要成本項目與省錢槓桿整理清楚:

成本項目它是什麼相對單價主要省錢槓桿
輸入 token(input)你給模型的提示、情境、歷史對話低~中精簡 prompt、用 RAG 取代全文塞入、prompt caching
輸出 token(output)模型生成的回覆內容高(常為 input 數倍)要求簡潔/結構化回覆、限制最大輸出長度
呼叫次數Agent 完成任務的來回輪數累乘效應大簡化流程、減少不必要的推理步驟
模型等級用旗艦大模型還是輕量小模型差距可達數十倍分層:簡單任務用小模型
周邊服務向量資料庫、工具 API、託管通常較小選用量級方案、避免過度檢索

記住一個心法:成本 ≈ 模型單價 × token 量 × 呼叫次數。三個因子任何一個都能優化,而真正的高手是三個一起壓。

實際教學:五步驟把帳單砍到可控

Step 1:先量測,沒有數據不要優化

最常見的錯誤是憑感覺省錢。請先在你的 Agent 上加一層紀錄,把每個任務的 input token、output token、呼叫次數、單次成本記下來。多數模型 API 的回應都會附上 token 用量欄位,框架如 LangChain、n8n 也能輸出這些數據。

跑一週後,你會立刻看到「二八法則」:通常兩成的任務吃掉八成的成本。先針對那兩成下手,CP 值最高。

Step 2:用對模型——分層,不要一律用旗艦

這是最有感的一招。把任務分成三層:

很多團隊的失誤是「為了保險,全部都用最貴的」。實際上,一個客服 Agent 八成的工作是分類與套版回覆,這些用小模型即可,只有真正棘手的問題才升級。光是這層分流,常常就能省下五成以上。

Step 3:壓縮情境,善用快取與檢索

不要每次都把整份知識庫、整段歷史對話塞給模型。三個做法:

  1. 精簡 system prompt:把冗長的指令濃縮成要點,每一輪都帶著它,省下來的是長期複利。
  2. prompt caching:對於每次都相同的固定情境(角色設定、產品說明),開啟快取,命中時這段大幅折扣。
  3. RAG 取代全文:不要把 50 頁手冊整個丟進去,而是只檢索出與當前問題相關的兩三段,輸入 token 可能從上萬降到幾百。

Step 4:設預算上限與護欄

上線前一定要設好三道防線,避免失控:

這些設定在 OpenAI、Anthropic 的 API 與多數 Agent 框架都支援,務必開啟。一個沒有護欄的迴圈,真的可能一夜燒掉整月預算。

Step 5:持續監控與迭代

把 Step 1 的數據做成簡單儀表板(Google 試算表或 Looker Studio 都行),每週看三個指標:每日總成本、單位任務成本、最貴的前十次呼叫。針對最貴的呼叫逐一檢視——是模型選太大?情境塞太多?還是流程繞太多圈?優化是持續的,不是一次到位。

範例:Prompt 與 Workflow

可複製的省 token Prompt

下面這段 system prompt 同時做到「分層判斷」與「要求簡潔輸出」,可直接貼進你的 Agent 設定:

你是客服分流助理。請依規則處理每則客戶訊息,目標是用最少字數完成任務。

規則:
1. 先判斷訊息類別:[一般查詢 / 訂單問題 / 投訴 / 需轉真人]。
2. 若為「一般查詢」或「訂單問題」,直接從下方知識片段回答,不要解釋你的推理過程。
3. 若為「投訴」或「需轉真人」,只輸出 {"action":"escalate","reason":"..."},不要嘗試自行回覆。
4. 所有回覆限制在 120 字以內,使用條列,不寒暄、不重複客戶問題。

知識片段(僅使用以下內容,無關資料不要臆測):
{{檢索出的相關段落}}

客戶訊息:{{message}}

重點在第 2、3、4 條:明確要求不要解釋推理過程、簡單情況不升級到大模型、輸出限字數——這三點直接壓低最貴的 output token。

Workflow 流程圖(文字版)

下面是一個「成本感知客服 Agent」的分層流程,照著搭可避免每件事都打到旗艦模型:

客戶訊息進來

[小模型] 分類意圖(便宜、快速)

   是否為簡單問題?
   ├── 是 → [RAG] 檢索相關片段 → [小模型] 套版簡短回覆 → 回傳
   └── 否 ↓
   是否需要複雜推理/多步驟?
   ├── 是 → [大模型] 深度處理(設呼叫上限)→ 回傳
   └── 否 → [中模型] 撰寫回覆 → 回傳

   全程記錄 token 用量 → 寫入成本儀表板

   當日累計超過預算?→ 是 → 發警報並暫停

這張流程圖的精神是:讓貴的模型只在必要時上場,其餘交給便宜的環節,並全程把成本數據留痕。

常見錯誤

最佳實務

實際案例:台灣電商客服 Agent 把成本砍六成

台中一家經營保健食品的電商團隊(約 15 人),導入了一個處理售前詢問與訂單查詢的 AI Agent,每月處理約 8,000 則客戶訊息。

導入初期(未優化)

優化後(套用本文五步驟)

  1. 加上 token 紀錄,發現八成成本來自「重複塞手冊」與「output 過長」。
  2. 改為分層:用小模型先分類,八成的查詢由小模型+RAG 套版回覆,僅疑難雜症升級大模型。
  3. 導入 RAG,只檢索與問題相關的兩三段,輸入 token 從每則約 9,000 降到約 600。
  4. 限制輸出 120 字、開啟 prompt caching、設每日花費上限 1,200 元並接 LINE 警報。

成果數據

這個案例最值得記住的一點是:省成本和提升品質並不衝突。逼自己精簡情境、控制輸出、分層選模型,往往同時讓回覆更精準、回應更快。省錢,常常是「設計變好」的副產品。

免責聲明:本文所列之費用金額、節省比例與成本數據為特定情境之示意,實際成本受模型供應商定價、用量、匯率與串接方式影響甚大,請以各 API 供應商官方計價與你自身的實測數據為準,本文不構成任何財務或採購建議。

結論

AI Agent 燒不燒錢,從來不是模型本身的問題,而是設計與管理的問題。掌握「成本 ≈ 模型單價 × token 量 × 呼叫次數」這條心法,從量測開始,做到分層選模型、壓縮情境、設好護欄、持續監控,多數團隊都能把帳單砍到原本的三到五成,而且品質不減反增。

下一步,建議你先花一週把現有 Agent 的 token 用量記錄下來,找出最貴的兩成任務動手優化;想更進一步,可以參考 RAG 教學把情境壓到最小,或到 工作流知識庫找現成的成本感知藍圖直接套用。把成本管理變成設計的一部分,你的 AI Agent 才能真正長久、划算地跑下去。

❓ 常見問題 FAQ

AI Agent 的成本主要花在哪裡?
九成以上的成本來自 token 計費。每次呼叫模型,會依「輸入 token(你給的提示與情境)+輸出 token(模型回覆)」收費,而 Agent 通常一個任務要來回呼叫很多次,加上重複塞入長情境,成本就疊高。其餘是向量資料庫、外部工具 API 等周邊費用。
input 和 output token 哪個比較貴?
output(輸出)token 通常比 input 貴好幾倍。所以控制成本的重點之一,是讓模型「少話多做」——要求簡潔結構化的回覆、避免它長篇大論地解釋,能明顯壓低帳單。
什麼是 prompt caching,真的能省錢嗎?
可以,而且常常很有感。prompt caching 會把重複出現的固定情境(例如長長的 system prompt、產品說明)快取起來,下次命中時這段的計費大幅折扣。對於每次都帶相同背景的 Agent,省下三到五成輸入成本很常見。
是不是一律用便宜的小模型最省?
不是。小模型單價便宜,但若它做不好任務、反覆出錯要重試,或需要更長的提示去補救,總成本反而更高。正解是分層:簡單任務交小模型,複雜推理才動用大模型,用對地方才是真省。
怎麼避免 Agent 陷入迴圈把錢燒光?
一定要設護欄:限制單一任務的最大呼叫次數、最大 token 數、最長執行時間,並設定每日花費上限與警報。多數框架都支援這些設定,務必在上線前開好,否則一個失控迴圈可能一夜燒掉整月預算。

🔗 延伸閱讀

幫這篇打個分:
A
AgentAI 智庫團隊 ✓ 台灣實作團隊

我們是一群專注於 AI Agent、Prompt 與自動化工作流的台灣實作者。每篇教學都附可複製配方、誠實標示實測程度與限制,只分享真正能落地、可直接套用的方法——與其介紹工具,不如教你把事情做完。

關於我們 →看更多教學 →訂閱情報週報 →

每週把這類實戰教學寄給你

訂閱 AgentAI 智庫情報週報,新的 Prompt、AI Skills、工作流與教學第一時間收到。

免費 · 隨時取消