本地 LLM 入門：在自己電腦跑開源 AI、敏感資料不外傳

Q: 為什麼要在本地跑而不是直接用 ChatGPT？

三個理由：一是 隱私 ，個資、合約、原始碼不外傳，符合個資法與內稽要求；二是 成本可控 ，大量使用不必按 token 計費；三是 離線可用且不受外部停機影響 。缺點是要自己準備硬體與維護，所以是否值得，取決於你的資料敏感度與用量。

你想用 AI 提升效率，但每次要把客戶名單、合約、原始碼貼進 ChatGPT 時，心裡總有個聲音：「這些資料傳出去，真的沒問題嗎？」這不是杞人憂天——很多公司的內稽、個資法規與客戶合約，根本不允許敏感資料離開內網。

你是不是也卡在這三個問題？ 第一：想用 AI，但公司規定機密資料不能上雲，等於整套被卡死？第二：聽說可以「在自己電腦跑 AI」，但不知道要什麼設備、會不會很難？第三：本地跑的 AI 真的夠聰明嗎？能不能接公司內部資料、做成會做事的 AI Agent？

這篇就把這三件事一次講清楚。我們用白話帶你搞懂本地 LLM 是什麼、怎麼評估自己的電腦、怎麼一步步裝起來，最後接成一個「資料完全不外傳」的私有 AI 助理。零基礎也能照做。

提醒：本文涉及的法規（個資法、營業秘密）說明僅為一般性整理，不構成法律意見。實際導入前，敏感資料的處理方式請諮詢公司法務或專業顧問。

為什麼要在自己電腦跑 AI？

把資料貼進雲端 AI，看似方便，但對很多台灣企業是一道過不去的牆。

第一，隱私與法規。 醫療院所的病歷、會計師事務所的客戶財報、律師的案件卷宗、軟體公司的原始碼，這些資料只要外傳就可能踩到個資法、營業秘密法，或違反與客戶簽的保密協議。本地 LLM 讓運算全程留在內網，從根本上避開這個風險。

第二，成本可預測。 雲端 AI 按使用量（token）計費，當全公司天天用、跑大量文件時，帳單會像跑馬表一樣往上跳。本地模型是「一次把硬體準備好，之後愛用多少用多少」，重度使用的單位反而更省。

第三，掌控權與穩定性。 用別人的雲端服務，對方改價格、改條款、暫停服務，你只能被動接受。模型在自己手上，斷網也能用，不受外部停機波及。

當然，本地 LLM 不是萬靈丹。它要你自己準備硬體、花一點時間設定維護，頂尖品質也還略遜最強的雲端模型。所以正確的心態不是「全部搬到本地」，而是敏感的留本地、追求極致品質又不敏感的用雲端，兩者分工。

核心概念：本地 LLM 到底是什麼？

很多人一聽到「在自己電腦跑大語言模型」就覺得是工程師才碰得到的硬核技術。其實用一個比喻就懂：

用雲端 AI（ChatGPT）像是叫外送——你把需求（和食材資訊）傳給遠方的餐廳，他們做好再送回來，方便但食材經過別人手上。用本地 LLM 像是在家自己煮——你買好廚具（硬體）、把食譜下載回來（模型檔案），所有料理都在自己廚房完成，食材一步都沒離開家門。

要在家自己煮，你需要搞懂三個東西：

概念	白話解釋	新手怎麼選
模型大小（參數量）	用 B（Billion，十億）標示，如 7B、14B、70B。數字越大越聰明，但越吃硬體。	先從 7B～8B 起步，確認流程後再考慮升級。
量化（Quantization）	把模型壓縮變小、跑更快，準確度只略降。	選標示 Q4_K_M 的版本，體積與品質最平衡。
執行環境（Runtime）	負責把模型「跑起來」的軟體，類似播放器。	新手用 Ollama（指令）或 LM Studio（圖形介面）。

記住一個關鍵公式概念：你的記憶體（RAM 或顯卡 VRAM）大小，決定你能跑多大的模型。 量化後的 7B 模型大約需要 5～6GB、14B 約 9～10GB、70B 則要 40GB 以上。一台 16GB 記憶體的筆電跑 7B 綽綽有餘，這也是為什麼我們建議從小模型起步。

實際教學：從零到能用的五個步驟

Step 1：確認你的隱私需求，決定要不要走本地

先別急著裝軟體。拿一張紙，把你想交給 AI 處理的資料分成兩類：

絕對不能外流：客戶個資、合約、財報、病歷、原始碼、未公開的營業資訊。
外流也沒差：公開資料、行銷文案草稿、一般知識問答。

如果你的核心需求落在第一類，本地 LLM 就值得投入。如果幾乎都是第二類，老實說直接用雲端 AI 更省事——別為了「本地」而本地。這一步是整個決策的地基。

Step 2：評估你的硬體，決定跑多大的模型

打開你的電腦規格，看兩個數字：

記憶體（RAM）：Windows 在「工作管理員」、Mac 在「關於這台 Mac」可查。
顯示卡（GPU）與其記憶體（VRAM）：有獨立顯卡（如 NVIDIA RTX 系列）會大幅加快速度。

對照建議：

你的設備	建議模型	適合任務
16GB RAM 筆電（無獨顯）	7B～8B（Q4）	摘要、分類、寫信、簡單問答
32GB RAM 或 12GB VRAM 獨顯	14B（Q4）	較複雜推理、長文整理
Mac M 系列 32GB 以上／24GB VRAM	32B～70B	接近商用品質的多數任務

Mac 的 M 系列因為「統一記憶體」架構，跑 LLM 的性價比意外地高，是很多台灣中小企業的首選。

Step 3：安裝執行環境，下載模型

以最簡單的兩個工具二選一：

路線 A：Ollama（推薦給願意打一行指令的人） 到官網下載安裝後，打開終端機輸入一行指令，例如下載並執行一個 8B 模型，它就會自動下載並進入對話模式。之後每次要用，同一行指令即可叫出。Ollama 還內建一個本機 API，方便後面接成 Agent。

路線 B：LM Studio（推薦給完全不想碰指令的人） 下載安裝後是全圖形介面：在搜尋框找模型、點下載、回到聊天頁面就能對話，全程用滑鼠點。它會自動偵測你的硬體，標示哪些模型「跑得動／會卡」，對新手非常友善。

兩者下載完模型後都能離線運作，這正是資料不外傳的關鍵。

Step 4：用真實任務測試與調校

裝好別急著高興，要用你真正的工作任務測。隨手丟個「翻譯」測不準，請改用實際情境，例如：「把這份會議記錄整理成三個待辦事項」「判斷這則客訴屬於哪個分類」。

測三件事：

準確度：答案對不對、有沒有亂編（幻覺）。
速度：每秒吐幾個字，慢到不能忍就換小一點或量化更高的模型。
穩定度：連續問十題，會不會記憶體爆掉。

如果準確度不夠，先試「換大一級的模型」；如果太慢，試「換量化更高（Q4→Q3）或更小的模型」。在這兩者間找到你的平衡點。

Step 5：接成資料不外傳的 AI Agent

到這裡你有一個會聊天的本地 AI，但要它「會做事」，得接上你的資料與工具。最常見的做法是用 RAG 把內部文件餵給它：

用 AnythingLLM 或 Open WebUI 這類無程式工具，把公司的請假規定、產品手冊、客戶 FAQ 上傳進去，它會自動建立索引。之後員工問「特休沒休完會怎樣」，本地模型就會根據你的文件回答，而文件從頭到尾沒離開公司。再進一步，可以透過 MCP 讓本地模型連上內部系統，組成完整的私有 AI Agent。

範例：Prompt 與 Workflow

下面是一個可直接複製、用在本地模型上的系統 Prompt，把它設定成「內部知識助理」。本地小模型不如雲端模型聰明，所以 Prompt 要寫得更明確、更約束，效果才穩。

你是「{公司名}」的內部知識助理，只服務內部員工。

【你的任務】
根據我提供的「參考資料」回答員工問題，協助查詢公司規定、流程與產品資訊。

【嚴格規則】
1. 只能根據「參考資料」內容回答，禁止自行推測或編造。
2. 若參考資料中找不到答案，直接回答：「目前文件查不到，建議聯絡 {負責窗口}」，不要硬掰。
3. 回答用繁體中文（台灣用語），條列重點，最多 5 點。
4. 涉及個資、薪資等敏感問題，提醒員工依正式管道申請，不在此回覆細節。

【參考資料】
{此處貼上 RAG 檢索到的內部文件片段}

【員工問題】
{員工提問}

對應的工作流程（文字版流程圖）：

員工在內網聊天介面提問
        ↓
本地檢索系統（RAG）從內部文件找相關段落
        ↓
把「相關段落 + 員工問題」組進上面的 Prompt
        ↓
本地 LLM（如 8B 模型，跑在公司電腦）產生回答
        ↓
查得到 → 條列回覆員工
查不到 → 回覆「文件查不到，請聯絡窗口」
        ↓
全程資料留在內網，一個位元都沒外傳

這條流程的精髓在最後一行：從提問、檢索到生成，沒有任何一步連到外部公司。 這就是本地 LLM 相較雲端 AI 最大的價值。

常見錯誤

一開始就追頂規模型。 新手常被「70B 最強」吸引，結果電腦跑到當機。請務必從 7B 起步，跑順了再升級。
忽略量化版本。 直接下載未量化的原始模型，動輒幾十 GB、慢到沒法用。認明 Q4_K_M 版本，這是新手的黃金預設。
用玩具題目測試。 用「講個笑話」測完就上線，真正丟工作任務才發現會亂編。一定要用真實情境驗證準確度。
以為裝了就資料不外傳。 若把本地模型接上會回傳資料的外部外掛，等於前功盡棄。要驗證隱私，最保險的做法是斷網實測。
期待它和 ChatGPT 一模一樣聰明。 本地小模型有它的天花板，與其抱怨，不如把 Prompt 寫得更明確、用 RAG 補足知識。
不寫約束就放生。 本地小模型更容易產生幻覺，Prompt 一定要加「查不到就說查不到」的規則。

最佳實務

小模型起步、漸進升級。 先用 7B 把整套流程跑通，確認需求後再決定要不要投資硬體，避免一次砸大錢。
敏感本地、極致用雲。 建立「分流原則」：機密任務走本地，追求最高品質又不敏感的任務用雲端，兩者並用最划算。
永遠用 RAG 補知識。 別期待模型「天生就懂你公司」，把內部文件接給它，正確率會立刻跳升。
寫嚴格的系統 Prompt。 本地模型越小，越需要明確指令與「禁止編造」的護欄。
斷網驗證隱私。 上線前拔網路線實測一輪，眼見為憑地確認資料真的不外傳。
保留人工關卡。 涉及對外、付款、刪除的動作，維持人工確認，別讓模型全自動執行。
記錄硬體與模型版本。 把「哪台機器、跑哪個模型、量化等級」寫成文件，方便日後維護與擴編。

實際案例：台中一間會計師事務所的私有 AI

台中一間約 25 人的中小型會計師事務所，每到報稅旺季就被同仁的重複問題淹沒：「這個行業的費用率怎麼抓」「某類發票能不能列報」「客戶問的這個減免適不適用」。資深會計師被問到沒時間做正事，新進同仁則卡在翻不完的法規與內部準則。

他們很想用 AI，但有個鐵律：客戶的財務資料與事務所的內部判例，絕對不能上雲。 這讓他們一度卡死。

導入前：

新人一個問題要等資深同仁有空才能解，平均等候超過半天。
內部累積的問答、判例散在各人腦中與零散文件，沒人整理得動。
資深會計師約三成時間花在回答重複問題。

導入做法： 他們買了一台 Mac mini（M 系列、32GB 統一記憶體）放在事務所內網，用 LM Studio 跑一個 14B 的量化模型，再用 AnythingLLM 把歷年內部問答、稅務準則、常見案例整理上傳，建成 RAG 知識庫。系統設定成全程離線，並用上面那套「查不到就說查不到」的系統 Prompt。整套由一位略懂電腦的同仁設定，沒有外聘工程師。

導入後成果（導入三個月內部統計）：

新進同仁常見問題的自助解決率約七成，不必每次都等資深同仁。
資深會計師花在回答重複問題的時間減少約四成，得以回到高價值的查核工作。
因為全程在內網離線運作，順利通過事務所內部的資料保密自評。

事務所主管的心得很實在：「我們不是要 AI 多神，是要它安全又夠用。資料一步都沒離開所裡，這點比什麼都重要。」

這個案例點出一個常被忽略的原創觀點：對許多台灣中小企業，本地 LLM 真正的賣點不是『更強』，而是『敢用』。 當資料能留在自己手裡，原本因合規而被卡死的 AI 需求，才終於有了落地的可能——這往往比追逐最強模型更有商業價值。

結論

在自己電腦跑 AI，過去聽起來像工程師的專利，現在用 Ollama、LM Studio 這類工具，一般人也能上手。它的核心價值很單純：讓你在不犧牲隱私的前提下用 AI。

記住三個重點：第一，從小模型起步，用 7B 把流程跑通再升級；第二，敏感本地、極致用雲，分流才是最划算的策略；第三，接上 RAG 與明確 Prompt，本地小模型也能變成可靠的內部助理。

當你的客戶名單、合約、原始碼都能交給一個「不外傳」的 AI 處理，那道因合規而過不去的牆，就被你拆掉了。下一步，建議延伸閱讀 RAG 教學把內部資料接上去，或用 MCP 讓本地模型連上更多工具；想直接套用現成做法，也可以逛逛我們的任務食譜。

❓ 常見問題 FAQ

本地 LLM 是什麼意思？

本地 LLM（Local LLM）就是「跑在你自己電腦或公司伺服器上的大語言模型」，模型檔案下載到本機，運算也在本機完成。和 ChatGPT 這類雲端服務最大的差別是：你的問題與資料不會傳到外部公司，全程留在你掌控的機器裡，特別適合處理敏感資料。

我的電腦跑得動嗎？需要很貴的設備嗎？

不一定要很貴。一般 16GB 記憶體的筆電就能跑 7B 等級的小模型做日常問答、整理文件；想跑接近 ChatGPT 水準的中大型模型，才需要有獨立顯卡（建議 12GB VRAM 以上）或 Mac 的統一記憶體機型。先從小模型起步，確認流程後再決定要不要升級硬體。

本地模型的能力比得上 ChatGPT 嗎？

視模型大小而定。頂尖的開源大模型在多數日常任務（摘要、分類、寫信、查內部資料）已接近商用閉源模型；但在最複雜的推理、長文寫作上，最強的雲端模型仍略勝一籌。實務建議：敏感任務用本地、追求極致品質的非敏感任務用雲端，兩者並用最划算。

為什麼要在本地跑而不是直接用 ChatGPT？

三個理由：一是隱私，個資、合約、原始碼不外傳，符合個資法與內稽要求；二是成本可控，大量使用不必按 token 計費；三是離線可用且不受外部停機影響。缺點是要自己準備硬體與維護，所以是否值得，取決於你的資料敏感度與用量。

資料真的完全不會外流嗎？

用對工具就能做到。Ollama、LM Studio 在下載完模型後可離線運作，推論過程不連外。但要注意兩點：一是別誤把本地模型接到會回傳資料的外部外掛；二是若用遠端伺服器部署，要確認那台機器在你可控的內網或私有雲。真正的機密環境建議全程斷網測試驗證。

完全不會寫程式可以用嗎？

可以。LM Studio 提供圖形介面，下載、聊天、調參數全部用點的；Ollama 雖然是指令列，但安裝後只要打一行指令就能對話。要做成查內部文件的 AI Agent，也有 AnythingLLM、Open WebUI 等無程式工具可搭配，多數中小企業不需工程師也能上手。

「量化」是什麼？為什麼大家都在講？

量化（Quantization）是把模型的數字精度壓縮，讓檔案變小、跑得更快、更省記憶體，代價是準確度略降。常見的 Q4（4-bit）量化能把模型體積砍到約四分之一，品質卻只掉一點點，是讓一般電腦跑得動大模型的關鍵技巧。新手直接選標示 Q4_K_M 的版本通常是最佳平衡點。

本地 LLM 可以接到我們公司的內部資料庫嗎？

可以，而且這正是它的價值所在。透過 RAG（檢索增強生成）把內部文件、資料庫接給本地模型，它就能回答「我們的請假規定是什麼」「這個客戶上次訂單」這類問題，而資料全程不出公司。可參考我們的 RAG 教學了解原理。

本地 LLM 和 MCP、AI Agent 有什麼關係？

本地 LLM 是「大腦」，可以裝在你內網；MCP 是讓這顆大腦連上工具的標準插座；AI Agent 則是用大腦加工具去完成任務的整體。你完全可以用本地模型當大腦，搭配 MCP 連上內部系統，組成一個資料不外傳的私有 AI Agent。

維護本地 LLM 麻煩嗎？要常常更新嗎？

比想像中輕鬆。模型下載後就是一個檔案，不更新也能一直用；想換更新更強的模型，通常一行指令就能下載。真正要花心力的是把它接上內部資料、設定權限與測試準確度，這部分一次設好後維護成本不高，遠低於自己訓練模型。

🔗 延伸閱讀

這篇對你有幫助嗎？

AgentAI 智庫團隊 ✓ 台灣實作團隊

我們是一群專注於 AI Agent、Prompt 與自動化工作流的台灣實作者。每篇教學都附可複製配方、誠實標示實測程度與限制，只分享真正能落地、可直接套用的方法——與其介紹工具，不如教你把事情做完。

關於我們 →看更多教學 →訂閱情報週報 →

每週把這類實戰教學寄給你

訂閱 AgentAI 智庫情報週報，新的 Prompt、AI Skills、工作流與教學第一時間收到。

免費 · 隨時取消