Token 是什麼？AI 字數限制與費用一次搞懂

Q: Token 到底是什麼？跟「字」一樣嗎？

不一樣。Token 是 AI 把文字切開後的 最小處理單位 ，比一個字小、比一個詞有時又大。英文常是一個單字或字根算一個 Token；中文則因為字元密度高，一個字常會占 1～2 個 Token。你可以把它想成 AI 閱讀時的「一口」，AI 是一口一口把文字吃進去、再一口一口吐出來。

Q: 為什麼 AI 會有字數限制？

因為每個模型有固定的「情境視窗（context window）」，也就是它一次能同時看到的 Token 上限。 輸入和輸出都要塞進這個視窗 ，所以你貼的長文越長，能留給回答的空間就越少。超過上限時，系統會截斷較舊的內容，或直接報錯。

Q: AI 的費用是怎麼算的？

主流 API 都是 按 Token 計費 ，公式是：費用＝輸入 Token×輸入單價＋輸出 Token×輸出單價。重點是輸出 Token 通常比輸入貴好幾倍，因為生成比閱讀耗運算。所以「叫 AI 寫很長」比「貼很長給 AI 讀」更花錢。

第一次收到 AI 平台帳單、或看到 ChatGPT 把你貼的長文「吃掉一半」時，很多人心裡都冒出三個問號：Token 到底是什麼東西？為什麼 AI 會有字數限制、貼太長就出錯？我到底是怎麼被收費的、又該怎麼省？

這篇要解決的問題：用完全不需要工程背景的白話，把 Token、字數限制、計費邏輯與省錢方法一次講清楚。 適合誰讀：用 ChatGPT、Claude、Gemini 工作的行銷、客服、老闆、自由工作者，以及任何要替團隊控管 AI 成本的人。 讀完你會得到：看懂帳單的能力、估算單次費用的方法、一套可照做的省 Token Workflow，以及一個台灣中小企業導入前後的真實對照。

為什麼非工程師也該搞懂 Token？

因為 Token 同時決定了三件你天天在踩的事：能塞多少資料給 AI、AI 能回多長、以及你要付多少錢。不懂 Token，就會出現三種常見災難。

第一種是「莫名其妙被截斷」。你把一份三萬字的會議逐字稿貼給 AI，要它做摘要，結果它只看了後半段——因為前半超過情境視窗，被默默丟掉了，你卻以為它讀完了全文。第二種是「帳單暴衝」。一家台灣電商把客服信全都丟給 AI 草擬回覆，每封信都附上完整的商品型錄當背景，月底一看帳單嚇一跳，卻找不出錢花到哪去。第三種是「明明可以更便宜」。同一個任務，有人花一塊、有人花十塊，差別往往不在模型聰不聰明，而在懂不懂得控管 Token。

說白了，Token 就是 AI 世界的「水電度數」。你不需要會發電，但你得看得懂電表、知道哪些電器最吃電，才不會月底被帳單嚇到。對導入 AI Agent 的團隊來說，這件事更關鍵——Agent 會自己跑很多輪、自己讀很多資料，每一輪都在消耗 Token，不懂控管，成本很容易失控。

核心概念：Token、情境視窗與計費

我們先用一個生活比喻把三個關鍵詞串起來，再用表格對照。

把 AI 想成一位按字計薪、桌面有限的速讀員：

Token 是他閱讀和書寫的「一口」。他不是一個字一個字看，而是一口一口吞，一口大約是一個英文字根、或一個半中文字。
情境視窗 是他的「桌面大小」。你給的資料和他寫的回答，全部要攤在這張桌上；桌子滿了，舊的紙就會被推下桌（截斷）。
計費則是他的「鐘點費」：讀進去算一種價、寫出來算另一種價，而且寫（輸出）的工錢比讀（輸入）貴得多，因為動腦生成比照念耗力。

概念	白話比喻	你該注意什麼
Token	AI 閱讀／書寫的「一口」	中文約 1.5 字＝1 Token，英文約 4 字元＝1 Token
情境視窗	速讀員的桌面大小	輸入＋輸出共用上限，貼太長會被截斷
輸入 Token	你給 AI 看的資料	越長越花錢，但單價較低
輸出 Token	AI 寫出來的內容	單價較高，「叫它寫很長」最燒錢
計費公式	鐘點費結算	輸入×單價＋輸出×單價

記住一個關鍵直覺：對話越長，每一次發問都越貴。因為多數聊天介面會把先前的對話歷史一起送進去當背景，你聊到第二十句時，AI 其實每次都把前面十九句重讀一遍——這就是為什麼長對話到後面會越來越慢、越來越貴。

實際教學：五步驟掌握你的 Token 用量

Step 1：認識 Token 的本質

先建立手感。打開任何一家的 Token 計算器，貼一段你常寫的文字（例如一封客服信），看它顯示幾個 Token。你會發現：標點、空白、emoji 都算 Token；同樣意思，囉嗦的寫法 Token 更多。這一步的目的不是精算，而是讓「字數」和「Token」在你腦中建立對應感。

Step 2：看懂你用的模型字數限制

查一下你主力模型的情境視窗上限（常見從數萬到數十萬、甚至上百萬 Token 不等）。重點不是記數字，而是理解：這個上限是輸入和輸出共用的。如果上限是 12.8 萬 Token，你貼了 12 萬 Token 的資料，就只剩約 8 千 Token 能拿來回答，難怪它寫不完。想深入了解這個機制，可參考 AI 如何處理長文的原理。

Step 3：學會估算單次費用

用這個公式，在動手前先心算量級：

單次費用 ≈ (輸入 Token ÷ 1000 × 輸入單價) + (輸出 Token ÷ 1000 × 輸出單價)

舉例：你貼了約 3000 字中文（約 2000 Token）當背景，請 AI 寫約 600 字回覆（約 400 Token）。把這兩個數字乘上你方案的單價，就能算出這一次大概花多少。多算幾次，你會對「哪種任務貴、哪種便宜」產生直覺。

Step 4：動手量測真實用量

別只靠估算。如果你用網頁版，觀察長對話何時開始變慢或被提醒「對話過長」；如果你或同事用 API，請對方把回應裡的 usage 欄位（input_tokens、output_tokens）記錄下來，這是最準的數字。把一週的用量抓出來，你通常會發現：八成的花費集中在兩三種任務上，這就是你接下來要優化的目標。

Step 5：套用省 Token 技巧並複盤

針對最花錢的任務，套用下一段的省錢方法，跑一週後再量一次，比較前後差異。省 Token 是個持續微調的循環，不是一次設定就好。

範例：省 Token 的 Prompt 與 Workflow

可複製的省 Token Prompt 模板

下面這個系統指令，能在不犧牲品質的前提下，明顯壓低輸出 Token：

你是我的工作助理。請遵守以下輸出規範，以節省篇幅：

1. 直接給結論，不要重述我的問題、不要客套開場與結尾。
2. 預設用條列，每點不超過兩行；除非我說「展開」，否則不長篇敘述。
3. 一次只回答我問的，不主動延伸其他主題。
4. 若資訊不足，先用一句話問我缺什麼，不要自行假設後寫一大段。

任務：{在這裡填入你的需求}
背景：{只貼「跟這次任務直接相關」的最小資料，不要整份文件貼上}

關鍵在最後一行的紅利：只貼相關片段，不要整份文件丟進去。很多人習慣把整份型錄、整本手冊貼上當背景，這是帳單暴衝的頭號元兇。要讓 AI 能查整份資料又不每次重貼，正確做法是改用 RAG 或 MCP 讓它「需要時才去讀對應段落」。

Workflow 流程圖（文字版）

[收到一個 AI 任務]
        ↓
[判斷：背景資料是「每次都要全貼」嗎？]
        ↓ 否，只貼相關片段              ↓ 是，資料量很大
[精簡 Prompt：去客套、限輸出長度]   [改用 RAG／MCP 讓 AI 按需檢索]
        ↓                                   ↓
[選模型：簡單任務用便宜模型分流] ←─────────┘
        ↓
[執行並記錄 usage（input／output Token）]
        ↓
[每週複盤：找出最花錢的前三名任務再優化]
        ↓
[成本進入可預期區間 ✅]

這套流程的精神是：先分流、再精簡、後量測。先把「該不該全貼」這個最大開關處理好，再去摳 Prompt 的字數，最後用數據驗證。

常見錯誤

把整份文件當背景，每次都重貼：這是最貴的習慣。長背景應該用 RAG／MCP 按需檢索，而不是塞進每一次對話。
用最貴的旗艦模型做雜事：分類、翻譯、改錯字這類簡單任務，用便宜的小模型就夠了。把旗艦模型留給真正需要推理的任務。
無限延長同一個對話：對話越長，每次發問都把全部歷史重送一遍，成本隨輪數累積。任務換了就開新對話。
要 AI「寫越多越好」：輸出最貴。明確限制字數或要點數，能省下可觀費用。
只看模型聰不聰明，不看 Token 成本：選型要算「每個任務的總成本」，不是只比功能榜單。
以為截斷會有警告：很多情況超長內容是被靜默丟棄的，你以為 AI 讀完了，其實它只看了一部分。

最佳實務

先分流模型：建立「簡單任務→小模型、複雜任務→大模型」的路由習慣，光這一步常能省下一半以上費用。
替輸出設上限：在 Prompt 或 API 參數明確限制回覆長度，避免 AI 自由發揮把錢燒光。
背景資料用檢索取代全貼：大量、固定的知識交給 RAG；要操作系統與工具則用 MCP。
管理對話歷史：長流程定期做「摘要壓縮」，用一段摘要取代二十句原始對話，再繼續往下。
建立用量儀表板：把每週 input／output Token 與費用記錄下來，讓成本可被看見、可被討論。
把省 Token 寫進團隊規範：與其每個人各憑感覺，不如把上面的 Prompt 模板與分流原則變成共用標準。

實際案例：台灣電商客服的 Token 瘦身

情境：台中一家經營居家用品的電商「禾居選物」，客服每天要回覆上百封詢問退換貨、運送、商品規格的信。為了讓 AI 草擬回覆，他們一開始的做法是——每封信都附上完整商品型錄（約一萬兩千字）和退換貨政策全文，當作背景貼給 AI。

導入前的痛點：

每封信的輸入 Token 高達約 9000，光背景就占九成以上，真正的客戶問題只占一小角。
月處理約 3000 封信，背景重複貼了 3000 次，帳單一個月衝到讓老闆皺眉。
因為背景太長，常常擠壓到回覆空間，AI 偶爾把回覆寫到一半就停。

導入後的做法（套用本文 Workflow）：

改用檢索取代全貼：把商品型錄與政策放進 RAG 知識庫，AI 每次只取「跟這封信相關」的兩三段，輸入 Token 從約 9000 降到約 1200。
模型分流：先用便宜的小模型判斷信件類型（退貨／運送／規格），只有需要客製化口吻的回覆才交給大模型。
限制輸出：在 Prompt 規定「回覆控制在 200 字內、先給結論」，輸出 Token 砍掉約四成。
每週複盤 usage：客服主管每週看一次用量表，抓出異常案例調整。

成果數據：

單封信平均 Token 用量下降約 82%（從約 10000 降到約 1800）。
每月 AI 費用降低約七成，省下的預算改投在更多自動化場景。
因背景不再擠壓回覆空間，回覆被截斷的情況幾乎歸零，客服回信速度也變快。

關鍵體悟：他們省下的錢，九成來自「不再每次全貼型錄」這一個改變，而不是換更便宜的模型。這正呼應本文的核心——先處理最大的開關，再去摳細節。

結論

Token 不是工程師才需要懂的術語，而是每個用 AI 工作的人的「成本素養」。只要掌握三件事——Token 是 AI 閱讀書寫的最小單位、情境視窗是輸入輸出共用的上限、計費是輸入輸出分開算且輸出更貴——你就能看懂帳單、估出費用、並用「先分流、再精簡、後量測」的 Workflow 把成本壓到合理範圍。

下一步，建議你挑一個團隊裡最花錢的 AI 任務，套用本文的 Prompt 模板與流程跑一週，再用 usage 數據驗證成效。當固定的大量背景成為瓶頸時，別再硬塞，改用 RAG 或 MCP 讓 AI 按需取用。想讓整個團隊建立 Token 控管習慣、或評估更完整的 AI 導入規劃，歡迎到聯絡我們聊聊你的場景。

本文之費用估算與計費邏輯僅供觀念說明，各家模型的實際單價、情境視窗上限與計費規則會隨時間調整，請以官方最新公告為準；涉及預算與採購決策時，建議實測你自己的真實用量再下定論。

❓ 常見問題 FAQ

Token 到底是什麼？跟「字」一樣嗎？

不一樣。Token 是 AI 把文字切開後的最小處理單位，比一個字小、比一個詞有時又大。英文常是一個單字或字根算一個 Token；中文則因為字元密度高，一個字常會占 1～2 個 Token。你可以把它想成 AI 閱讀時的「一口」，AI 是一口一口把文字吃進去、再一口一口吐出來。

為什麼 AI 會有字數限制？

因為每個模型有固定的「情境視窗（context window）」，也就是它一次能同時看到的 Token 上限。輸入和輸出都要塞進這個視窗，所以你貼的長文越長，能留給回答的空間就越少。超過上限時，系統會截斷較舊的內容，或直接報錯。

AI 的費用是怎麼算的？

主流 API 都是按 Token 計費，公式是：費用＝輸入 Token×輸入單價＋輸出 Token×輸出單價。重點是輸出 Token 通常比輸入貴好幾倍，因為生成比閱讀耗運算。所以「叫 AI 寫很長」比「貼很長給 AI 讀」更花錢。

中文是不是比英文更燒 Token？

整體而言中文每個字平均占的 Token 比英文單字略多，相同「資訊量」下中文常吃掉更多 Token。但這差距在新一代模型已縮小，與其糾結語言，不如把心力放在精簡內容、控制輸出長度，效果更實際。

我不是工程師，要怎麼知道一段文字有多少 Token？

最簡單是用各家官方的 Token 計算器或計費頁試算；若用 API，回應裡通常有 usage 欄位直接告訴你 input、output 各用了多少。抓個粗略心法：中文約 1.5 字＝1 Token、英文約 4 個字元＝1 Token，先估個量級就夠你做決策。

🔗 延伸閱讀

這篇對你有幫助嗎？

AgentAI 智庫團隊 ✓ 台灣實作團隊

我們是一群專注於 AI Agent、Prompt 與自動化工作流的台灣實作者。每篇教學都附可複製配方、誠實標示實測程度與限制，只分享真正能落地、可直接套用的方法——與其介紹工具，不如教你把事情做完。

關於我們 →看更多教學 →訂閱情報週報 →

每週把這類實戰教學寄給你

訂閱 AgentAI 智庫情報週報，新的 Prompt、AI Skills、工作流與教學第一時間收到。

免費 · 隨時取消