RAG 是什麼：建知識庫客服、減少 AI 幻覺的實作步驟

Q: RAG 和直接把資料貼進 Prompt 有什麼不同？

貼進 Prompt 只適合少量資料，超過模型的上下文長度就塞不下，也很燒成本。RAG 會 動態檢索 ，每次只撈出和當前問題最相關的幾段，能支援上萬份文件且更省錢、更精準。

Q: 知識庫資料更新了，RAG 需要重新訓練嗎？

不用。這正是 RAG 的最大優點。你只要 更新或新增文件並重建索引 ，AI 下次檢索就會用到最新內容，完全不必重新訓練模型，維護成本極低。

你一定看過這種畫面：問 AI「我們公司的退貨期限是幾天」，它語氣超肯定地回你「14 天」，但你們明明寫的是 7 天。它不是故意騙你，而是它根本不知道你們的規定，只好憑訓練資料「合理猜測」。這種一本正經地胡說八道，就是 AI 幻覺，也是企業導入 AI 客服最大的地雷。RAG（檢索增強生成）就是專門解決這件事的技術。

這篇要解決的問題：怎麼讓 AI 只根據「你提供的資料」回答，而不是憑空亂編，並一步步建出一個能上線的知識庫客服。 適合誰讀：想導入 AI 客服或內部問答的中小企業、客服與行銷主管、產品與營運人員，零到中階都適合，不需先懂機器學習。 讀完你會得到：對 RAG 的清楚理解、一套可照做的建置步驟、可複製的 Prompt、Workflow 流程圖、一段進階的檢索調校心法，以及一個含成果數據的台灣案例。

為什麼一般 AI 客服會「亂講話」？

直接拿 ChatGPT 或 Claude 當客服，最常出三種狀況：

編造不存在的政策：問到它沒學過的公司規定，它會用「最像答案的話」填空，講得頭頭是道卻是錯的。
資訊過期：模型的訓練資料有時間截止點，去年改過的價格、今年新出的方案，它通通不知道。
無法引用來源：你問它「這是寫在哪份文件」，它答不出來，因為它本來就不是「查」出來的，是「想」出來的。

問題的根本在於：通用模型的知識是「死的」，而且是「它的」，不是「你的」。客服要的是準確回答你們家的規定，不是世界上的平均答案。

要修正這件事，有兩條路：一是把模型拿你的資料重新訓練（微調，fine-tuning），成本高、更新慢、資料一改就得再訓練一次；二是 RAG——不動模型，而是在它回答前把正確資料「餵」給它。對絕大多數企業客服場景，RAG 是 CP 值高出一截的選擇，這兩條路的取捨我們在微調 vs RAG 的完整比較裡有更細的拆解。這也是為什麼 RAG 成為現今 AI Agent 落地的標準配備。

核心概念：RAG 是「開書考試」，不是「背書考試」

理解 RAG 最好的比喻，是把 AI 想成一個考生：

沒有 RAG（閉卷考）：考生只能靠記憶答題。記得的就答對，不記得的就硬掰，這就是幻覺。
有 RAG（開書考）：考試前，助理先依題目幫他翻到課本相關那幾頁、攤在桌上，他只要「照書回答」。答不出來也能說「課本沒寫」。

那個「幫忙翻書、把相關頁面攤開」的動作，就是 RAG 的核心——檢索（Retrieval）。模型再根據翻到的內容**生成（Generation）**答案，合起來就是「檢索增強生成」。

而「怎麼判斷哪幾頁跟題目最相關」，靠的是把文字轉成向量、比對語意距離的技術。這套底層機制如果想徹底搞懂，建議讀 AI 嵌入向量（Embedding）一次搞懂，它是整個檢索能不能撈準的根。

下面用一張表，對照三種做法的差異：

做法	資料來源	更新方式	幻覺風險	適合場景
通用模型直接問	模型訓練知識	需重新訓練	高	通用聊天、發想
微調（Fine-tuning）	訓練進模型參數	重新微調，慢且貴	中	特定語氣/格式風格
RAG（檢索增強生成）	你的外部知識庫	更新文件即可	低	客服、內部問答、文件查詢

關鍵差異一句話：RAG 把「答案的依據」從模型腦袋裡，搬到你能隨時更新的知識庫裡。 資料是你的、可控的、可更新的，這就是它能壓低幻覺的根本原因。想把這套思路系統化成一座可長期維護的知識庫，可以延伸讀 AI 知識庫怎麼建。

實際教學：五步建出你的知識庫客服

下面以「中小企業電商客服」為例，帶你走完一輪。流程不綁特定工具，n8n、Dify、Coze 或自寫程式都套得上。

Step 1：整理你的資料來源

RAG 的品質上限，由你餵的資料決定。先把客服會用到的文件集中：

常見問題 FAQ、產品規格、退換貨政策、運費與物流說明、保固條款。
清掉過期與互相矛盾的內容。如果同一個問題在兩份文件答案不同，AI 也會混亂。
統一格式，盡量用「一個問題對一段清楚答案」的結構，檢索效果最好。

這一步沒有捷徑，垃圾進、垃圾出。整理資料佔了整個專案約六成的功夫，請務必認真對待。如果你連 FAQ 都還沒整理成型，建議先用 AI FAQ 產生器的方法把第一版常見問答快速生出來，再來切塊。

Step 2：切塊（Chunking）與建立向量索引

文件太長不能整份丟進去，要切成一段段「chunk」。切太大，撈進來雜訊多；切太小，語意被切斷。實務上常用的起點是每段約 300 到 500 字，段落間保留少量重疊，避免句子被硬切。

切好後，用「嵌入模型（Embedding Model）」把每段文字轉成一串數字（向量），存進向量資料庫（如 Pinecone、Qdrant、pgvector）。你可以把向量想成「每段文字在語意空間裡的座標」，語意越接近的段落，座標越靠近。這個「轉座標」的步驟非常關鍵，選錯嵌入模型或沒做正規化，後面檢索全盤皆輸，背後原理在 AI 嵌入向量解析講得最透。

Step 3：設計檢索流程

使用者一提問，系統就：

把問題也用同一個嵌入模型轉成向量。
拿這個向量去向量資料庫裡，找出座標最接近的前幾段（通常取 3 到 5 段）。
這幾段就是「課本攤開的那幾頁」，即將餵給模型。

這裡有個常被忽略的調校點：取幾段（Top-K）要測。取太少可能漏掉答案，取太多會塞進雜訊、稀釋重點。建議從 4 段開始，再依實測微調。

Step 4：組裝 Prompt，餵給模型生成答案

把撈到的資料當成「唯一可參考的來源」放進 Prompt，並明確下指令：只能依據這些資料回答。這一步的 Prompt 寫法是成敗關鍵，完整範例見下一節。寫不順手時，可以用我們的 Prompt 產生器先生一版骨架再調整。

Step 5：加上引用與兜底規則

最後兩道保險，決定了客戶信任度：

引用來源：要求模型在答案後標出依據哪段資料，方便人工抽查與客戶查證。
兜底（Fallback）：知識庫裡找不到時，強制回覆「這部分我不確定，幫你轉接專人」，而不是讓它硬擠一個答案。寧可承認不知道，也不要編一個。

到這裡，一個會「照你的資料回答、答不出來會誠實轉真人」的客服雛形就成形了。如果你想用更完整的對話框架把這個雛形包成正式產品，可參考 AI 聊天機器人建置指南；想再進一步讓它能查訂單、發退款，可結合 MCP 讓 AI 接上你的系統工具，並參考 AI 客服代理實作。

範例：可複製的 Prompt 與 Workflow 流程圖

RAG 客服 Prompt 範本

下面這段是給模型的系統指令（system prompt），{{檢索到的資料}} 與 {{使用者問題}} 由你的程式或 n8n 動態填入：

你是「○○電商」的客服助理。請嚴格遵守以下規則回答顧客：

【最高原則】
1. 你只能根據下方「參考資料」回答，不得使用參考資料以外的任何知識。
2. 若參考資料中找不到答案，必須回覆：「這部分我不太確定，幫您轉接專人協助 🙏」，
   嚴禁自行推測或編造。
3. 回答結尾以 [來源] 標註你依據的是第幾段參考資料。

【語氣】
親切、簡潔、用台灣口語的繁體中文，一次只回答顧客問到的問題。

【參考資料】
{{檢索到的資料}}

【顧客問題】
{{使用者問題}}

重點在第 1、2 條：先用「只能根據參考資料」鎖死範圍，再用「找不到就轉專人」堵住亂編的出口。這兩句話就是把幻覺壓到最低的核心。想更系統地把這套回答風格、語氣、規則沉澱成可重用的資產，可參考 AI 知識庫的建立方法。

Workflow 流程圖（文字版）

顧客在官網／LINE 提問
        ↓
問題轉成向量（嵌入模型）
        ↓
到向量資料庫檢索最相關的 4 段資料
        ↓
有撈到相關資料？
   ├─ 有 → 把資料填進 Prompt → 模型依資料生成答案 → 附上 [來源] → 回覆顧客
   └─ 沒有 → 回覆「不確定，幫您轉接專人」 → 通知客服人員接手
        ↓
記錄問答日誌 → 定期檢視常被轉真人的問題 → 補進知識庫

最後那條「補進知識庫」的迴圈很重要：每一次「答不出來」都是知識庫的待辦清單。持續回填，系統會越用越聰明。更多可直接套用的自動化藍圖，看工作流知識庫。

進階：更深入的一層

跑通基本流程後，多數人會卡在同一個地方——「答案明明在知識庫裡，AI 卻撈不出來」。這通常不是模型笨，而是檢索這一層沒調好。以下是把 RAG 從「能用」推到「好用」的四個進階手法。

第一，混合檢索（Hybrid Search）。 純向量檢索擅長抓「語意相近」，但對精確字詞（料號 SKU、型號、訂單編號）反而會漏。實務上最穩的做法，是把向量檢索（抓語意）和關鍵字檢索（抓精確詞，如 BM25）兩種結果合併再排序。顧客問「我的訂單 #A1729 到哪了」時，混合檢索才能準確撈到含該編號的那段。

第二，重排序（Reranking）。 第一輪先用向量寬鬆撈 20 段「候選」，再用一個更精準的重排序模型，從這 20 段裡挑出真正最相關的 4 段餵給模型。等於「先海選、再決選」，能明顯壓低雜訊。

第三，查詢改寫（Query Rewriting）。 顧客的問法常很口語、很省略，例如多輪對話裡只丟一句「那退款呢？」。在檢索前，先讓一個輕量模型把它補成完整問句「請問退款多久會退到我的帳戶？」，檢索命中率會大幅提升。這也是讓 RAG 客服能撐住多輪對話的關鍵。

第四，知道 RAG 的天花板在哪。 RAG 解決的是「拿到正確片段」，但它不會幫你做跨文件的複雜推理或多步驟任務。當問題需要「同時查三份文件再交叉計算」，單靠 RAG 會吃力，這時要往多代理協作（Multi-Agent）的架構走，讓不同 Agent 分工檢索與彙整。

下面把四種進階手法整理成對照表，方便你判斷該不該上：

進階手法	解決的痛點	上手難度	建議何時導入
混合檢索	料號/編號等精確詞撈不到	低	知識庫含大量代號時優先
重排序	撈進來的段落雜訊多、不夠準	中	基本檢索已通、要再拉高準確率
查詢改寫	多輪對話、口語省略導致漏答	中	客服要支援連續對話時
多代理協作	跨文件推理、多步驟任務	高	單純檢索已不夠用時

一個務實的順序是：先把混合檢索和兜底規則做好（投報率最高），準確率撞牆時再加重排序與查詢改寫，最後才考慮多代理。 不要一開始就把架構疊到最複雜，那只會拖慢上線又難維護。

常見錯誤

資料沒整理就上線：餵進過期、矛盾的文件，RAG 一樣會給錯答案，只是錯得「有根據」。
Chunk 切太大或太小：整份文件當一塊，檢索撈不準；切到剩半句話，語意又斷裂。
Prompt 沒鎖死範圍：少了「只能根據參考資料」，模型還是會偷用自己的知識亂補。
沒有兜底規則：讓模型「無論如何都要給答案」，等於默許它在沒資料時亂編。
檢索 Top-K 沒測就定：照預設值用，常常不是漏答案就是塞雜訊。
只用向量、不用混合檢索：料號、訂單編號這類精確詞一律撈不到，顧客一問就破功。
上線後不看日誌：不去分析哪些問題被轉真人、哪些答錯，知識庫永遠補不齊。

最佳實務

資料分層：把「政策類」（退貨、保固）和「商品類」（規格、庫存）分開索引，檢索更精準。
保留更新時間戳：每段資料標註最後更新日期，方便定期盤點過期內容。
關鍵答案保留人工確認：涉及金額、法律、退款等高風險回答，設成需專人覆核再送出。
小步快跑：先用最常見的 20 題 FAQ 跑通整套流程，驗證有效再擴充，別一開始就想塞完所有文件。
建立評測題庫：準備 50 到 100 題標準問答當「考卷」，每次改完設定都跑一遍，量化準確率有沒有進步，而不是靠感覺。

實際案例：台中電商「退貨詢問」客服改造

背景：台中一家經營居家用品的電商，每天 LINE 官方帳號湧入大量詢問，其中近半是重複的退換貨、運費、出貨時間問題。三人客服小組整天在複製貼上罐頭回覆，下班後的訊息累積到隔天，常被客訴「已讀不回」。

導入前：

平均首次回覆時間：約 4 小時（離峰）至隔日（夜間）。
客服每天約 35% 工時花在回答重複問題。
曾發生工讀生記錯退貨天數、回覆錯誤政策的客訴。

導入做法：他們用 n8n 串接向量資料庫，把 FAQ、退換貨政策、運費表共約 60 份文件切塊建索引，套上前面那組 Prompt，接到 LINE 官方帳號。設定找不到答案就自動轉真人並標記，並每週檢視被轉真人的問題回填知識庫。

第二個月的進階優化：上線後他們發現一類問題老是答不準——顧客丟訂單編號問進度，純向量檢索撈不到。於是他們加上混合檢索，把訂單編號用關鍵字精確比對；同時補上查詢改寫，處理「那退款呢？」這種多輪省略句。這兩個小調整，讓原本約 12% 該答而漏答的問題降到 3% 以下。

導入後（上線兩個月）：

約 七成五的常見詢問由 AI 直接答完，無需真人介入（第一個月為七成，加上進階檢索後再升一級）。
平均首次回覆時間從數小時縮短到數秒（常見題）。
客服重複問題工時下降約 35%，人力轉去處理客訴與選品等高價值工作。
因為答案全來自統一知識庫，回覆錯誤政策的客訴歸零。
每月省下的客服工時，換算約等於多出半個人力，相當於一名兼職客服的成本。

關鍵不是「上了 AI」，而是「上了一個只敢照公司資料回答、不懂就誠實轉真人的 AI」，並且持續用日誌回填、用進階檢索補強。這正是 RAG 的價值。需要協助評估自家場景，可以直接與我們聯絡。

免責聲明：本文數據為示意性的台灣中小企業情境，實際成效因資料品質、流量、工具與調校而異，導入前請以自身情況評估，並對涉及金額、法律與退款等高風險回答保留人工查核。

結論

RAG 的精神可以濃縮成一句話：與其逼 AI 背下你的公司，不如讓它開書考試。 它不改模型、不必重訓，只要把正確資料整理好、檢索進來、用 Prompt 鎖死範圍、再加上引用與兜底，就能把「一本正經胡說八道」的通用 AI，變成「只照你資料回答」的可靠客服。

落地的順序也很清楚：先整理資料（最花功夫但最重要）→ 切塊建索引 → 設計檢索 → 寫好鎖範圍的 Prompt → 加引用與兜底 → 看日誌持續回填，準確率撞牆時再上混合檢索與重排序。從 20 題 FAQ 的小範圍開始驗證，跑通了再擴大，是風險最低的路。

下一步該往哪走，就看你的目標：想讓客服長出「查訂單、發退款」的真本事，去了解 MCP 如何讓 AI 連上你的系統工具與 AI 客服代理的完整實作；還在猶豫要 RAG 還是微調，先讀微調 vs RAG 的取捨再決定。

❓ 常見問題 FAQ

RAG 是什麼的縮寫？

RAG 是 Retrieval-Augmented Generation（檢索增強生成）。它的做法是：在 AI 回答前，先從你的資料庫檢索出相關內容，再讓模型根據這些內容生成答案，而不是只靠它記得的訓練知識回答。

RAG 和直接把資料貼進 Prompt 有什麼不同？

貼進 Prompt 只適合少量資料，超過模型的上下文長度就塞不下，也很燒成本。RAG 會動態檢索，每次只撈出和當前問題最相關的幾段，能支援上萬份文件且更省錢、更精準。

RAG 真的能完全消除 AI 幻覺嗎？

不能完全消除，但能大幅降低。RAG 把答案來源限縮在你的資料內，再搭配「找不到就說不知道」的兜底規則與引用標註，可把幻覺壓到很低，但仍建議對關鍵答案保留人工查核。

建一個 RAG 知識庫客服需要會寫程式嗎？

看做法。用 n8n、Dify、Coze 這類低程式碼平台搭配向量資料庫，多數設定用拖拉就能完成；若要深度客製或高流量，仍建議有工程師協助處理切塊策略與檢索調校。

知識庫資料更新了，RAG 需要重新訓練嗎？

不用。這正是 RAG 的最大優點。你只要更新或新增文件並重建索引，AI 下次檢索就會用到最新內容，完全不必重新訓練模型，維護成本極低。

RAG 和微調（Fine-tuning）到底該選哪一個？

兩者解決的問題不同。RAG 管「知識正確性」，適合會變動的事實（價格、政策、庫存）；微調管「行為與語氣」，適合固定的回答風格或格式。多數客服場景先用 RAG 就夠，需要時兩者可並用，詳見微調 vs RAG的比較。

我的資料很多是表格和 PDF，RAG 處理得了嗎？

可以，但前處理是關鍵。PDF 要先轉成乾淨文字，表格建議改寫成「一列一句」的敘述句再切塊，否則向量會抓不到語意。掃描檔需先過 OCR。前處理品質直接決定檢索準不準。

怎麼知道我的 RAG 系統到底準不準？

靠評測，不靠感覺。準備 50 到 100 題標準問答當「考卷」，每次調整切塊或 Top-K 後都跑一遍，量化「答對率」與「該轉真人卻硬答」的比例。沒有評測題庫，所有調整都只是在猜。

🔗 延伸閱讀

這篇對你有幫助嗎？

AgentAI 智庫團隊 ✓ 台灣實作團隊

我們是一群專注於 AI Agent、Prompt 與自動化工作流的台灣實作者。每篇教學都附可複製配方、誠實標示實測程度與限制，只分享真正能落地、可直接套用的方法——與其介紹工具，不如教你把事情做完。

關於我們 →看更多教學 →訂閱情報週報 →

每週把這類實戰教學寄給你

訂閱 AgentAI 智庫情報週報，新的 Prompt、AI Skills、工作流與教學第一時間收到。

免費 · 隨時取消