用 AI 做內容審核:留言過濾、不當內容偵測與社群守則執行實戰

經營社群的人都懂這種無力感:粉專一篇貼文底下湧進三百則留言,裡面夾雜著廣告私訊、人身攻擊、競品洗版、還有貼出別人電話號碼的,你一個人根本看不完,等發現時傷害早就造成了。

這篇要解決的問題:怎麼用 AI 把每天爆量的留言、評論、貼文做第一道過濾,把明顯違規的擋下、把可疑的交給人複審,讓有限人力用在刀口上? 適合誰讀:社群小編、論壇與電商平台營運、客服主管、線上社群管理者,零到中階都適合。 讀完你會得到:一套從拆解守則、設計分級、寫審核 Prompt 到串接自動化流程的完整方法,附可複製的 Prompt 與 Workflow 流程圖,以及一個台灣電商的實際案例。

為什麼要用 AI 做內容審核?

內容審核的核心矛盾,是「量」與「質」永遠拉扯。

留言量會隨社群成長線性增加,但人工審核的速度有上限,而且審到後面會疲乏、標準會飄移。一個小編早上看的「這還好」,下午同樣的話可能就被判違規——人不是穩定的判斷機器。更現實的是,違規內容往往在深夜、假日、檔期活動爆量時集中出現,正好是人力最薄弱的時候。

純靠關鍵字過濾也不夠。傳統的「髒話字典」攔得住「白癡」,卻攔不住「白★癡」「ㄅㄞˊㄔ」「百痴」這種變形,也分不出「這部電影爛透了」(正常評論)和「你這個人爛透了」(人身攻擊)的差別。關鍵字只看字面,看不懂語意與情境

AI 內容審核補的正是這一塊:它能理解語意、辨識變形與諧音、判斷情境,把人從重複又傷神的初篩中解放出來。但它不是要取代人,而是當「第一道濾網」——擋掉九成明確的案例,讓人專注在真正需要判斷的灰色地帶。這也是本文一以貫之的觀點:內容審核不是「全自動 vs 全人工」的選擇題,而是設計一條 AI 與人協作的分流動線。

核心概念:把審核當成「分級分流」而非「開關」

很多人第一次做 AI 審核會犯同一個錯:要 AI 回答「這則留言該不該封鎖?」然後直接照做。這是把審核當成開關(on/off),結果就是不是放太多違規漏網,就是誤殺一堆正常留言。

正確的心智模型是分級分流:AI 先判斷「違規類別」與「信心高低」,再依信心走不同動線。

信心程度內容範例處理動線
高信心違規明顯廣告連結、露骨仇恨言論、貼出他人個資自動隱藏 + 記錄
中信心可疑帶情緒的批評、疑似諷刺、在地俚語進人工複審佇列
高信心正常一般討論、正向回饋、客觀評論自動放行
重大風險自我傷害、暴力威脅、兒少相關立即標記 + 人工優先處理 + 必要時通報

你可以把這套流程想成機場安檢:大多數旅客(正常留言)直接通過;金屬探測器響的(可疑)被請到旁邊由人手檢;而帶刀帶槍的(重大風險)則立刻攔下交給專責人員。安檢不會因為要快就放棄人工複查,也不會因為要嚴就把每個人都搜身——它靠的是分級,把資源放在對的地方。

AI 在這裡扮演的是「金屬探測器」:快、便宜、覆蓋全部流量,但最終的判斷權,仍握在人手上。

實際教學:從零建立 AI 審核流程

Step 1:拆解你的社群守則成可判斷的類別

抽象的守則(「請保持友善」)AI 沒辦法執行,你得把它拆成具體、可判斷、有例子的類別。

以一個社群為例,可以拆成這幾類:

每一類都要寫正例與反例。例如「廣告」這類,正例是「想賺被動收入加我 LINE」,反例是「我也覺得這個產品不錯」——後者雖然提到產品,但是真實討論,不該被當廣告擋掉。反例往往比正例更重要,因為它界定了「不該管」的邊界。

Step 2:設計分級,加入「人工複審」這層

承上一節的概念,別讓 AI 只回答「通過/封鎖」。要它回三件事:違規類別、信心分數(0 到 1)、判斷理由

然後設定門檻,例如:

門檻不是定死的,初期建議把人工複審的範圍放寬(多讓人看一點),等累積足夠案例、確認 AI 穩定後再逐步收緊。

Step 3:寫出結構化的審核 Prompt

審核 Prompt 的關鍵是要求固定格式輸出,這樣後續系統才能自動解析分流。下一節會給完整可複製版本,核心原則是:給角色、給守則類別與例子、要求 JSON 輸出、明確說「不確定就標 needs_review」。

Step 4:用自動化工具串接動線

有了會輸出 JSON 的 AI,接著用 Make 或 n8n 這類工具把流程接起來:新留言觸發 → 呼叫 AI → 解析 JSON → 依結果分流(隱藏、放行、或寫進人工複審清單)。不會寫程式也能做,這些工具都是拖拉式設定。

Step 5:建立校準回饋迴圈

審核系統不是上線就結束,而是要越用越準。每週做兩件事:一是抽樣檢視被自動處理的案例,找出誤判;二是看人工複審的判斷結果,把典型案例補進 Prompt 的範例裡。這個回饋迴圈,是 AI 審核從「堪用」走向「好用」的關鍵。關於用知識庫累積這些案例,可以參考 RAG 的做法,把歷史判例變成 AI 的參考依據。

範例:Prompt 與 Workflow

可複製的審核 Prompt

你是社群內容審核員,依照下方守則判斷一則使用者留言。

【守則類別與範例】
1. 人身攻擊:針對特定個人的辱罵貶低。正例「你智商堪憂」;反例「我不認同這個看法」。
2. 仇恨言論:針對族群/性別/地域的歧視、地圖砲。
3. 廣告垃圾:推銷連結、加 LINE 拉客、複製洗版。正例「被動收入加我LINE」;反例「我覺得這產品不錯」。
4. 個資外洩:貼出他人姓名、電話、身分證、住址。
5. 重大風險:自我傷害、暴力威脅、兒少不當內容。
6. 正常:不屬於以上任何一類。

【判斷原則】
- 看語意與情境,不只看字面;注意諧音、注音文、變形字(如「白★癡」)。
- 區分「批評事物」(正常)與「攻擊個人」(違規)。
- 不確定時一律標 needs_review,不要硬猜。

【輸出格式】只回 JSON,不要其他文字:
{
  "category": "類別名稱",
  "confidence": 0.0到1.0的數字,
  "action": "auto_pass / auto_hide / needs_review / urgent",
  "reason": "一句話理由"
}

【待審留言】
{{在此貼上使用者留言}}

{{在此貼上使用者留言}} 換成實際留言即可。需要審不同平台(粉專、論壇、評論)時,只要微調守則類別,主結構不用動。

Workflow 流程圖(文字版)

新留言進來


呼叫 AI 審核(吐出 JSON:category / confidence / action)

   ├─ action = urgent ──────► 立即標記 + 人工優先處理 ──► 必要時通報/移除

   ├─ action = auto_hide ───► 自動隱藏 + 記錄 ──► 通知使用者可申訴

   ├─ action = needs_review ► 寫進人工複審佇列 ──► 小編判斷 ──► 結果回灌校準

   └─ action = auto_pass ───► 自動放行


                         每週抽樣檢視誤判 → 更新守則範例

這條動線的精神,是讓「量大又明確」的部分全自動,「少量但難判」的部分留給人,而且每一次人工判斷都回饋進系統。想把這套變成可重複套用的自動化藍圖,可以到 工作流知識庫 找現成範本,或用 Prompt 產生器 依你的守則生成客製化 Prompt。

常見錯誤

只用關鍵字黑名單。 前面說過,黑名單攔不住變形字與諧音,又會誤殺正常用法(「這代理商爛」被「爛」字攔下)。關鍵字可以當輔助訊號,但不該是主力。

把審核做成二分開關。 沒有人工複審這層,等於逼 AI 對每個灰色案例硬下判斷,誤判必然增加。一定要保留「needs_review」這個出口。

守則只寫正例、不寫反例。 AI 會學到「只要提到產品就是廣告」這種過度泛化的規則。反例界定邊界,和正例一樣重要。

上線後就不管了。 社群用語會變、新的洗版手法會出現,沒有校準迴圈的審核系統,準確度會隨時間下滑。

沒有申訴管道。 自動審核一定有誤判,沒給使用者申訴的機會,會累積民怨、傷害社群信任。

把留言內容隨意送到不受控的第三方服務。 留言可能含個資,外流會踩到《個人資料保護法》。要確認資料流向、做必要的遮蔽。

最佳實務

實際案例:台灣電商社群的留言審核

情境:一家以保養品為主的台灣電商,在粉專與官網商品評論區經營社群。檔期活動一上線,留言量單日衝破兩千則,裡面混雜競品的「這牌子過敏」洗版、代購拉客的「私訊我便宜賣」、以及偶爾貼出客服私訊截圖(含他人電話)的爭議貼文。

導入前:兩位小編輪班看留言,活動期間幾乎看不完。違規留言平均要 4 到 6 小時才被發現處理,期間競品洗版已經影響到新客觀感,曾有客戶電話被公開貼出半天才下架,引發抱怨。

導入做法

  1. 把社群守則拆成廣告、人身攻擊、個資外洩、競品惡意洗版四大類,各寫了五個正例與三個反例(特別標出「真實使用心得即使是負評也要放行」)。
  2. 用上面的審核 Prompt,要 AI 輸出 JSON 分級。
  3. 用 Make 串接:粉專/評論新留言 → 呼叫 AI → 高信心廣告與個資自動隱藏、競品洗版與帶情緒負評進人工複審、正常放行。
  4. 個資類偵測到電話一律自動打碼並標 urgent,由值班小編優先處理。
  5. 每週五抽樣 50 則檢視,把誤判補進 Prompt 範例。

導入後成果(試行第二個月數據)

這個案例印證了本文的核心觀點:成功的關鍵不是讓 AI 全自動,而是設計好分流動線——讓 AI 扛下量、讓人守住質、讓每次人工判斷回灌系統。

結論

內容審核的本質,是在「擋掉傷害」與「不誤傷正常」之間找平衡。AI 不是來取代這個判斷,而是來放大你的人力:它當第一道濾網,把九成明確的案例自動處理,讓人專注在真正需要判斷的灰色地帶。

實作上記得三件事:用分級分流取代二分開關、用正反例界定守則邊界、用校準迴圈讓系統越用越準。先從一個平台小規模試行,跑通了再擴大,你就能把每天爆量的留言,變成一條穩定、可控、會自我進化的審核動線。

想更進一步,可以把這套思路接上 AI Agent,讓審核不只是過濾,而能自動回覆、分派、結案;也可以善用 ChatGPT 提示詞技巧 把審核 Prompt 調得更精準。

免責聲明:本文為一般技術教學,內容審核涉及《個人資料保護法》、《兒童及少年福利與權益保障法》等法規與平台責任。實際導入前,請依貴單位情況諮詢專業法律意見,並建立合規的資料處理與通報機制。

❓ 常見問題 FAQ

AI 內容審核可以完全取代人工嗎?
不建議。AI 適合處理大量明確的案例(明顯廣告、髒話、仇恨言論),但對諷刺、在地俚語、情境脈絡的判斷仍會出錯。最務實的做法是AI 過濾八成、人工複審兩成灰色地帶,讓人力專注在真正需要判斷的案例上。
AI 會不會誤刪正常留言?
會,這叫誤判(false positive)。降低方法是採用分級而非二分:高信心才自動處理,中低信心一律進人工複審佇列。同時保留申訴管道,讓被誤判的使用者能要求複查。
用 AI 審核中文留言準確嗎?
主流大型語言模型對繁體中文與台灣用語的理解已相當好,但對台語諧音、注音文、火星文、在地梗仍可能漏判。解法是在 Prompt 裡放台灣在地的範例(few-shot),並把漏判案例持續補進去校準。
處理使用者留言會有個資與法律問題嗎?
會。台灣《個人資料保護法》要求蒐集、處理個資需有正當目的並善盡告知。審核流程應在隱私權政策中揭露、避免將留言內容外流到不受控的第三方,並對偵測到的個資(身分證、電話)做遮蔽。本文為一般教學,實際做法請諮詢專業法律意見。
小團隊沒有工程師也能做嗎?
可以。用 Make、n8n 這類無程式碼工具就能串接「新留言進來→呼叫 AI 判斷→分流處理」的流程,不必自己寫後端。先從單一平台(例如粉專留言)小規模試行,驗證準確度後再擴大。

🔗 延伸閱讀

幫這篇打個分:
A
AgentAI 智庫團隊 ✓ 台灣實作團隊

我們是一群專注於 AI Agent、Prompt 與自動化工作流的台灣實作者。每篇教學都附可複製配方、誠實標示實測程度與限制,只分享真正能落地、可直接套用的方法——與其介紹工具,不如教你把事情做完。

關於我們 →看更多教學 →訂閱情報週報 →

每週把這類實戰教學寄給你

訂閱 AgentAI 智庫情報週報,新的 Prompt、AI Skills、工作流與教學第一時間收到。

免費 · 隨時取消