經營社群的人都懂這種無力感:粉專一篇貼文底下湧進三百則留言,裡面夾雜著廣告私訊、人身攻擊、競品洗版、還有貼出別人電話號碼的,你一個人根本看不完,等發現時傷害早就造成了。
這篇要解決的問題:怎麼用 AI 把每天爆量的留言、評論、貼文做第一道過濾,把明顯違規的擋下、把可疑的交給人複審,讓有限人力用在刀口上? 適合誰讀:社群小編、論壇與電商平台營運、客服主管、線上社群管理者,零到中階都適合。 讀完你會得到:一套從拆解守則、設計分級、寫審核 Prompt 到串接自動化流程的完整方法,附可複製的 Prompt 與 Workflow 流程圖,以及一個台灣電商的實際案例。
為什麼要用 AI 做內容審核?
內容審核的核心矛盾,是「量」與「質」永遠拉扯。
留言量會隨社群成長線性增加,但人工審核的速度有上限,而且審到後面會疲乏、標準會飄移。一個小編早上看的「這還好」,下午同樣的話可能就被判違規——人不是穩定的判斷機器。更現實的是,違規內容往往在深夜、假日、檔期活動爆量時集中出現,正好是人力最薄弱的時候。
純靠關鍵字過濾也不夠。傳統的「髒話字典」攔得住「白癡」,卻攔不住「白★癡」「ㄅㄞˊㄔ」「百痴」這種變形,也分不出「這部電影爛透了」(正常評論)和「你這個人爛透了」(人身攻擊)的差別。關鍵字只看字面,看不懂語意與情境。
AI 內容審核補的正是這一塊:它能理解語意、辨識變形與諧音、判斷情境,把人從重複又傷神的初篩中解放出來。但它不是要取代人,而是當「第一道濾網」——擋掉九成明確的案例,讓人專注在真正需要判斷的灰色地帶。這也是本文一以貫之的觀點:內容審核不是「全自動 vs 全人工」的選擇題,而是設計一條 AI 與人協作的分流動線。
核心概念:把審核當成「分級分流」而非「開關」
很多人第一次做 AI 審核會犯同一個錯:要 AI 回答「這則留言該不該封鎖?」然後直接照做。這是把審核當成開關(on/off),結果就是不是放太多違規漏網,就是誤殺一堆正常留言。
正確的心智模型是分級分流:AI 先判斷「違規類別」與「信心高低」,再依信心走不同動線。
| 信心程度 | 內容範例 | 處理動線 |
|---|---|---|
| 高信心違規 | 明顯廣告連結、露骨仇恨言論、貼出他人個資 | 自動隱藏 + 記錄 |
| 中信心可疑 | 帶情緒的批評、疑似諷刺、在地俚語 | 進人工複審佇列 |
| 高信心正常 | 一般討論、正向回饋、客觀評論 | 自動放行 |
| 重大風險 | 自我傷害、暴力威脅、兒少相關 | 立即標記 + 人工優先處理 + 必要時通報 |
你可以把這套流程想成機場安檢:大多數旅客(正常留言)直接通過;金屬探測器響的(可疑)被請到旁邊由人手檢;而帶刀帶槍的(重大風險)則立刻攔下交給專責人員。安檢不會因為要快就放棄人工複查,也不會因為要嚴就把每個人都搜身——它靠的是分級,把資源放在對的地方。
AI 在這裡扮演的是「金屬探測器」:快、便宜、覆蓋全部流量,但最終的判斷權,仍握在人手上。
實際教學:從零建立 AI 審核流程
Step 1:拆解你的社群守則成可判斷的類別
抽象的守則(「請保持友善」)AI 沒辦法執行,你得把它拆成具體、可判斷、有例子的類別。
以一個社群為例,可以拆成這幾類:
- 人身攻擊:針對特定個人的辱罵、貶低(例:「你智商堪憂」)。
- 仇恨言論:針對族群、性別、地域的歧視(例:地圖砲、性別歧視)。
- 廣告與垃圾訊息:推銷連結、加 LINE 拉客、複製洗版。
- 個資外洩:貼出他人姓名、電話、身分證、住址。
- 重大風險:自我傷害、暴力威脅、兒少不當內容。
每一類都要寫正例與反例。例如「廣告」這類,正例是「想賺被動收入加我 LINE」,反例是「我也覺得這個產品不錯」——後者雖然提到產品,但是真實討論,不該被當廣告擋掉。反例往往比正例更重要,因為它界定了「不該管」的邊界。
Step 2:設計分級,加入「人工複審」這層
承上一節的概念,別讓 AI 只回答「通過/封鎖」。要它回三件事:違規類別、信心分數(0 到 1)、判斷理由。
然後設定門檻,例如:
- 信心 ≥ 0.85 且為違規 → 自動隱藏
- 信心 0.5 ~ 0.85 → 進人工複審
- 信心 < 0.5 → 自動放行
- 任何「重大風險」類別 → 不論信心一律人工優先處理
門檻不是定死的,初期建議把人工複審的範圍放寬(多讓人看一點),等累積足夠案例、確認 AI 穩定後再逐步收緊。
Step 3:寫出結構化的審核 Prompt
審核 Prompt 的關鍵是要求固定格式輸出,這樣後續系統才能自動解析分流。下一節會給完整可複製版本,核心原則是:給角色、給守則類別與例子、要求 JSON 輸出、明確說「不確定就標 needs_review」。
Step 4:用自動化工具串接動線
有了會輸出 JSON 的 AI,接著用 Make 或 n8n 這類工具把流程接起來:新留言觸發 → 呼叫 AI → 解析 JSON → 依結果分流(隱藏、放行、或寫進人工複審清單)。不會寫程式也能做,這些工具都是拖拉式設定。
Step 5:建立校準回饋迴圈
審核系統不是上線就結束,而是要越用越準。每週做兩件事:一是抽樣檢視被自動處理的案例,找出誤判;二是看人工複審的判斷結果,把典型案例補進 Prompt 的範例裡。這個回饋迴圈,是 AI 審核從「堪用」走向「好用」的關鍵。關於用知識庫累積這些案例,可以參考 RAG 的做法,把歷史判例變成 AI 的參考依據。
範例:Prompt 與 Workflow
可複製的審核 Prompt
你是社群內容審核員,依照下方守則判斷一則使用者留言。
【守則類別與範例】
1. 人身攻擊:針對特定個人的辱罵貶低。正例「你智商堪憂」;反例「我不認同這個看法」。
2. 仇恨言論:針對族群/性別/地域的歧視、地圖砲。
3. 廣告垃圾:推銷連結、加 LINE 拉客、複製洗版。正例「被動收入加我LINE」;反例「我覺得這產品不錯」。
4. 個資外洩:貼出他人姓名、電話、身分證、住址。
5. 重大風險:自我傷害、暴力威脅、兒少不當內容。
6. 正常:不屬於以上任何一類。
【判斷原則】
- 看語意與情境,不只看字面;注意諧音、注音文、變形字(如「白★癡」)。
- 區分「批評事物」(正常)與「攻擊個人」(違規)。
- 不確定時一律標 needs_review,不要硬猜。
【輸出格式】只回 JSON,不要其他文字:
{
"category": "類別名稱",
"confidence": 0.0到1.0的數字,
"action": "auto_pass / auto_hide / needs_review / urgent",
"reason": "一句話理由"
}
【待審留言】
{{在此貼上使用者留言}}
把 {{在此貼上使用者留言}} 換成實際留言即可。需要審不同平台(粉專、論壇、評論)時,只要微調守則類別,主結構不用動。
Workflow 流程圖(文字版)
新留言進來
│
▼
呼叫 AI 審核(吐出 JSON:category / confidence / action)
│
├─ action = urgent ──────► 立即標記 + 人工優先處理 ──► 必要時通報/移除
│
├─ action = auto_hide ───► 自動隱藏 + 記錄 ──► 通知使用者可申訴
│
├─ action = needs_review ► 寫進人工複審佇列 ──► 小編判斷 ──► 結果回灌校準
│
└─ action = auto_pass ───► 自動放行
│
▼
每週抽樣檢視誤判 → 更新守則範例
這條動線的精神,是讓「量大又明確」的部分全自動,「少量但難判」的部分留給人,而且每一次人工判斷都回饋進系統。想把這套變成可重複套用的自動化藍圖,可以到 工作流知識庫 找現成範本,或用 Prompt 產生器 依你的守則生成客製化 Prompt。
常見錯誤
只用關鍵字黑名單。 前面說過,黑名單攔不住變形字與諧音,又會誤殺正常用法(「這代理商爛」被「爛」字攔下)。關鍵字可以當輔助訊號,但不該是主力。
把審核做成二分開關。 沒有人工複審這層,等於逼 AI 對每個灰色案例硬下判斷,誤判必然增加。一定要保留「needs_review」這個出口。
守則只寫正例、不寫反例。 AI 會學到「只要提到產品就是廣告」這種過度泛化的規則。反例界定邊界,和正例一樣重要。
上線後就不管了。 社群用語會變、新的洗版手法會出現,沒有校準迴圈的審核系統,準確度會隨時間下滑。
沒有申訴管道。 自動審核一定有誤判,沒給使用者申訴的機會,會累積民怨、傷害社群信任。
把留言內容隨意送到不受控的第三方服務。 留言可能含個資,外流會踩到《個人資料保護法》。要確認資料流向、做必要的遮蔽。
最佳實務
- 先小範圍試行再擴大。 從單一平台(如粉專留言)開始,跑兩週、比對 AI 判斷與人工判斷的一致率,達標再推廣到其他管道。
- 人工複審門檻初期放寬、後期收緊。 寧可一開始多花點人力,也別讓誤判傷害使用者體驗。
- 重大風險走獨立快速通道。 自我傷害、暴力威脅這類不能排隊等複審,要設成最高優先級立即處理。
- 保留完整記錄。 每則被處理的留言、AI 的判斷與理由、人工複審結果都要留檔,既能校準也能應對爭議。
- 公開透明的社群守則。 讓使用者知道規則與申訴方式,審核才有正當性。
- 遮蔽偵測到的個資。 AI 抓到電話、身分證時,自動打碼再進複審佇列,減少二次外洩風險。
實際案例:台灣電商社群的留言審核
情境:一家以保養品為主的台灣電商,在粉專與官網商品評論區經營社群。檔期活動一上線,留言量單日衝破兩千則,裡面混雜競品的「這牌子過敏」洗版、代購拉客的「私訊我便宜賣」、以及偶爾貼出客服私訊截圖(含他人電話)的爭議貼文。
導入前:兩位小編輪班看留言,活動期間幾乎看不完。違規留言平均要 4 到 6 小時才被發現處理,期間競品洗版已經影響到新客觀感,曾有客戶電話被公開貼出半天才下架,引發抱怨。
導入做法:
- 把社群守則拆成廣告、人身攻擊、個資外洩、競品惡意洗版四大類,各寫了五個正例與三個反例(特別標出「真實使用心得即使是負評也要放行」)。
- 用上面的審核 Prompt,要 AI 輸出 JSON 分級。
- 用 Make 串接:粉專/評論新留言 → 呼叫 AI → 高信心廣告與個資自動隱藏、競品洗版與帶情緒負評進人工複審、正常放行。
- 個資類偵測到電話一律自動打碼並標 urgent,由值班小編優先處理。
- 每週五抽樣 50 則檢視,把誤判補進 Prompt 範例。
導入後成果(試行第二個月數據):
- 違規留言平均處理時間從 4~6 小時 縮短到 8 分鐘內(自動類)。
- 小編每日花在初篩的時間 減少約 70%,得以把精力放在回覆真實客戶問題。
- 含個資的爭議留言 100% 在 10 分鐘內被打碼處理,活動期間零客訴。
- 第二個月起,AI 自動處理的準確率(與人工抽查一致)穩定在 約 92%,誤判主要集中在台語諧音的負評,後續靠補範例改善。
這個案例印證了本文的核心觀點:成功的關鍵不是讓 AI 全自動,而是設計好分流動線——讓 AI 扛下量、讓人守住質、讓每次人工判斷回灌系統。
結論
內容審核的本質,是在「擋掉傷害」與「不誤傷正常」之間找平衡。AI 不是來取代這個判斷,而是來放大你的人力:它當第一道濾網,把九成明確的案例自動處理,讓人專注在真正需要判斷的灰色地帶。
實作上記得三件事:用分級分流取代二分開關、用正反例界定守則邊界、用校準迴圈讓系統越用越準。先從一個平台小規模試行,跑通了再擴大,你就能把每天爆量的留言,變成一條穩定、可控、會自我進化的審核動線。
想更進一步,可以把這套思路接上 AI Agent,讓審核不只是過濾,而能自動回覆、分派、結案;也可以善用 ChatGPT 提示詞技巧 把審核 Prompt 調得更精準。
免責聲明:本文為一般技術教學,內容審核涉及《個人資料保護法》、《兒童及少年福利與權益保障法》等法規與平台責任。實際導入前,請依貴單位情況諮詢專業法律意見,並建立合規的資料處理與通報機制。
❓ 常見問題 FAQ
AI 內容審核可以完全取代人工嗎?
AI 會不會誤刪正常留言?
用 AI 審核中文留言準確嗎?
處理使用者留言會有個資與法律問題嗎?
小團隊沒有工程師也能做嗎?
🔗 延伸閱讀
每週把這類實戰教學寄給你
訂閱 AgentAI 智庫情報週報,新的 Prompt、AI Skills、工作流與教學第一時間收到。
免費 · 隨時取消