行銷團隊最常見的對話是這樣的:「上週把按鈕改成橘色,轉換率好像有上升耶。」「真的假的?是因為按鈕,還是因為剛好那週有促銷?」然後沒人能回答,下次又憑感覺再改一次。
這篇要解決的問題:教你用 AI 把「憑感覺改版」變成「有依據的實驗」,從寫假設、控變因、算樣本到判讀結果,每一步都站得住腳。 適合誰讀:行銷、成長、電商營運、產品經理——任何要靠數據說服老闆或自己的人,沒有統計背景也能跟上。 讀完你會得到:一套 A/B 測試的完整心法、可複製的 AI Prompt、一張 Workflow 流程圖、一個台灣電商導入前後的真實對照,以及最常踩的判讀陷阱清單。
免責聲明:本文涉及的統計計算與樣本數公式為教學示範,實際數值會因業務情境而異;AI 計算可能出錯,重大商業決策前請由具統計或數據分析專業者覆核。
為什麼大多數 A/B 測試都白做了?
問題很少出在工具,而出在流程。多數團隊的「A/B 測試」其實是這樣:想到一個點子、改上去、過幾天看哪個數字高、宣布勝負。這個流程有四個致命破洞。
第一,沒有假設。改之前說不清「為什麼覺得會更好」,事後就無法解釋為什麼贏或輸,學不到東西,下次還是靠運氣。
第二,同時改太多。同一週又換按鈕、又改文案、又調價格,最後就算數字動了,你也不知道是哪個改動的功勞——這在統計上叫「混淆」,等於白測。
第三,樣本不夠就下結論。只跑了三天、各組兩百人就宣布 A 版勝出。但兩百人的差異很可能只是隨機波動,換一週結果可能反過來。
第四,判讀只看表面數字。看到 5.2% 對 4.8% 就說「A 比較好」,卻不知道這個差距在統計上根本沒有意義。
AI 的價值,正是把這四個破洞補起來:它能逼你寫清楚假設、幫你揪出混淆變因、計算需要的樣本數、並用白話解讀統計結果。它不是取代你的判斷,而是讓你的判斷有依據。
核心概念:A/B 測試的四根支柱
把 A/B 測試想成法庭審判。你不是「覺得」被告有罪就定罪,而是要先提出指控(假設)、確保證據沒被污染(控變因)、收集足夠多的證人(樣本)、再由**證據強度(顯著性)**決定判決。四根支柱缺一不可。
| 支柱 | 白話意思 | 常見錯誤 | AI 能幫什麼 |
|---|---|---|---|
| 假設 | 改什麼、預期哪個指標動、動多少、為什麼 | 只說「換個版本試試」 | 把模糊想法寫成可驗證假設並補上邏輯 |
| 變因 | 一次只改一個東西,其餘維持一致 | 同時改多項 | 列出所有混淆變因並設計控制方式 |
| 樣本 | 每組要多少人、跑多久才夠 | 跑幾天看到領先就停 | 依基準率與最小差異算出樣本數與天數 |
| 顯著性 | 這個差異是真的還是運氣 | 看到數字高就判勝 | 解讀 p 值與信賴區間並換算成業務增益 |
這裡有個關鍵直覺要先建立:A/B 測試是在「對抗運氣」。任何兩組數據本來就會有差異,就算兩版完全一樣,分流後的轉換率也不可能剛好相等。我們要做的,是判斷「眼前這個差異,大到不像是運氣造成的」。樣本越大、差異越大,越不像運氣;這就是統計顯著性在做的事。
實際教學:用 AI 跑一場站得住腳的 A/B 測試
Step 1:把直覺寫成可驗證的假設
不要寫「把結帳按鈕改大一點應該比較好」。要寫成有結構的假設:改動(結帳按鈕放大並改成高對比橘色)→ 預期影響的指標(結帳完成率)→ 預期幅度(從 4% 提升到至少 4.6%)→ 背後邏輯(按鈕更顯眼,減少使用者在結帳頁猶豫流失)。
把你的初步想法丟給 AI,請它幫你補完這個結構,並挑戰你的邏輯。一個寫得好的假設,本身就先過濾掉一半的爛點子。
Step 2:鎖定單一變因、揪出混淆因子
確認這次「只改一件事」。同時也要請 AI 幫你想:有沒有外部因素會同時影響兩組?例如測試期間正好遇到雙十一、某個流量來源突然暴增、或不同裝置的使用者沒被平均分到兩組。這些就是混淆變因,沒控制好,結論就不可信。
實務上最重要的兩個控制:隨機且平均分流(同一個使用者固定看同一版,且 A、B 兩組的流量來源、裝置、時段組成要接近),以及同時跑(不要 A 版跑這週、B 版跑下週,否則週與週之間的差異會混進來)。
Step 3:算出需要的樣本數與測試天數
這是最多人跳過、卻最關鍵的一步。樣本數取決於三個輸入:
- 基準轉換率:目前這個指標大概多少(例如結帳完成率 4%)。
- 最小可偵測差異(MDE):你「在意」的最小提升幅度。提升 0.1% 你根本不會改版,那就別為它設計測試;通常設相對提升 10%~20%。
- 顯著水準與檢定力:慣例是顯著水準 0.05、檢定力 80%。
把這三個數字給 AI,請它算出每組需要的樣本數,再用「每天有多少流量」回推要跑幾天。重點心法:測試開跑前就先決定要跑滿多少樣本/天數,跑滿之前不准看結果下結論。 這條紀律能擋掉九成的假勝負。
Step 4:執行並監控,但忍住不要偷看
測試上線後,每天可以看「有沒有技術故障、分流是否平均、有沒有突發事件污染數據」,但不要每天看轉換率高低就心癢想喊停。提早因為「A 版暫時領先」而結束(統計上叫 peeking 偷看問題),會大幅膨脹誤判機率。記錄期間若發生促銷、斷站、新聞事件等,要在判讀時納入考量。
Step 5:判讀結果並做出明確決策
跑滿之後,把兩組的樣本數與轉換數交給 AI,請它算出 p 值與信賴區間,並用白話解釋。然後做三選一的決策:採用(差異顯著且增益值得)、不採用(B 版沒比較好或更差)、再測(接近顯著但樣本還不夠、或結果可疑需重跑)。最後一定要把結論與學到的東西寫成一頁紀錄,累積成團隊的「實驗知識庫」——這才是 A/B 測試長期最大的價值。
範例:可複製的 Prompt 與 Workflow
規劃階段 Prompt(設計實驗)
把下面這段貼進 ChatGPT、Claude 或 Gemini,填入你的情境即可。
你是資深的成長與數據分析顧問,精通 A/B 測試設計與統計。
【我的情境】
- 產品:台灣的[電商/SaaS/內容網站]
- 我想改動:[具體描述,例如把商品頁的「加入購物車」按鈕從綠色改成橘色並放大]
- 我認為會影響的指標:[例如加入購物車率/結帳完成率]
- 目前該指標基準值:[例如 4%]
- 每天可用於測試的流量:[例如 5000 次造訪]
請依序輸出:
1. 把我的想法改寫成一條可驗證的假設(改動→預期指標→預期幅度→邏輯)。
2. 列出這次測試該控制的混淆變因,以及具體控制方式。
3. 在最小可偵測差異設為相對提升 15%、顯著水準 0.05、檢定力 80% 的前提下,
估算每組需要的樣本數與大約要跑幾天,並把計算邏輯寫出來讓我覆核。
4. 提醒我這個實驗最容易踩的三個陷阱。
用繁體中文、台灣用語,口語白話,不要空泛套話。
判讀階段 Prompt(解讀結果)
你是資深數據分析師。以下是我跑完的 A/B 測試結果,請用白話判讀。
A 版(原版):曝光 [12000] 次,轉換 [480] 次。
B 版(新版):曝光 [12000] 次,轉換 [552] 次。
測試期間:[14] 天,期間有無促銷或異常:[無]。
請輸出:
1. 兩版的轉換率與相對提升幅度。
2. 這個差異的統計顯著性(p 值)與 95% 信賴區間,並用白話解釋它代表什麼。
3. 換算成業務增益:若全面採用 B 版,以月流量 [50萬] 估算大約多帶來多少轉換。
4. 你的明確建議:採用/不採用/再測,並說明理由與風險。
不要只給數字,要像在跟不懂統計的主管解釋一樣。
Workflow 文字版流程圖
把整個流程串成一條自動化或半自動化的工作流,AI 負責規劃與判讀,人負責決策與執行:
[1] 蒐集點子與觀察
↓
[2] AI 協助寫成可驗證假設 ← 人覆核邏輯
↓
[3] AI 列混淆變因 + 算樣本數/天數
↓
[4] 設定分流、上線測試(不偷看)
↓
[5] 跑滿預定樣本 → 匯出兩組數據
↓
[6] AI 判讀 p 值/信賴區間 → 換算業務增益
↓
[7] 決策三選一:採用 / 不採用 / 再測
↓
[8] 寫一頁實驗紀錄 → 進團隊知識庫
↓(回到 [1] 形成循環)
想把第 2、3、6 步固定成團隊都能用的標準流程,可以參考 AI Workflow 設計,把 Prompt 變成可重複呼叫的步驟;數據整理與匯出的部分則可搭配 AI 資料分析教學。
常見錯誤
- 沒寫假設就開測:事後無法解釋輸贏,學不到東西。先寫假設,等於先想清楚。
- 一次改太多東西:贏了也不知道贏在哪,等於沒測。一次一個變因。
- 樣本不夠就喊停:看到暫時領先就下結論,是 A/B 測試最大的殺手。先算好樣本數,跑滿才看。
- 反覆偷看數據提早結束:每多看一次,誤判機率就墊高一點。決定好停損點就忍住。
- 把 p<0.05 當成「一定有效」:它是統計訊號不是商業保證,還要看增益金額與信賴區間寬窄。
- 忽略外部污染:測試期間的促銷、斷站、節慶會扭曲結果,判讀時必須誠實納入。
- 贏了就忘了記錄:沒寫成知識,下次又重來。一頁紀錄是團隊最值錢的資產。
- 盲信 AI 的計算:AI 會把樣本數算錯或唬爛 p 值。永遠請它把計算邏輯攤開讓你覆核。
最佳實務
- 先測「差異大」的改動:流量有限時,測整頁改版比測按鈕換色更快看到有意義的結果。
- 三個輸入餵清楚:基準率、最小可偵測差異、顯著水準——這三個決定一切,餵錯全錯。
- 跑滿一個完整週期:至少涵蓋一個完整的週(含週末),避免被星期幾的行為差異誤導。
- 顯著也要看增益值不值:統計顯著但只多賺幾百元,可能不值得增加維護複雜度。
- 建立假設待測清單(backlog):把點子排優先序,依「影響大小 × 可信度 × 容易度」決定先測哪個。
- 讓 AI 當你的魔鬼代言人:每次都請它挑戰你的假設與判讀,避免確認偏誤。
- 沉澱成團隊知識庫:把每次的假設、結果、學到的事歸檔,慢慢你會有一套自己產業的「轉換率直覺」。
實際案例:台灣保健食品電商的結帳頁實驗
背景:一家在台灣經營保健食品的中型電商,月造訪約 50 萬次,結帳完成率長期卡在 4% 左右。團隊過去常「憑感覺改版」——這個月改按鈕、下個月改文案,每次都說「好像有變好」,但年底回頭看整體轉換率其實沒動。
導入前的問題:
- 沒有假設,改完無法解釋輸贏。
- 常同時改三、四個地方,分不清功勞。
- 看一兩天數據就決定,反覆橫跳。
導入後的做法:團隊用上面的兩段 Prompt 建立標準流程。第一個實驗的假設是:「結帳頁的運費與到貨資訊太靠下,使用者疑慮未解就離開;把運費與到貨天數提到金額旁邊,預期結帳完成率從 4% 提升至少 15%(到 4.6% 以上)。」AI 算出在 MDE 15%、顯著水準 0.05、檢定力 80% 下,每組約需 1.2 萬次曝光,以日流量回推約需跑 14 天。團隊嚴守「跑滿 14 天才看結果」的紀律。
結果(單一實驗,14 天):
| 指標 | A 版(原版) | B 版(資訊上移) |
|---|---|---|
| 曝光次數 | 12,000 | 12,000 |
| 結帳完成數 | 480 | 552 |
| 結帳完成率 | 4.0% | 4.6% |
| 相對提升 | — | +15% |
| p 值(AI 判讀) | — | 約 0.018(顯著) |
AI 判讀為「差異具統計顯著性,建議採用」,並換算:以月流量 50 萬估算,全面採用後每月約多帶來數百筆完成結帳。團隊據此正式上線 B 版,並把整個過程寫成一頁紀錄歸檔。
這個案例的原創觀點:最大的收穫其實不是那 0.6 個百分點,而是團隊第一次「能說清楚自己為什麼這樣改、憑什麼相信它有效」。當行銷決策從「我覺得」變成「數據顯示,且我看得懂這個數據的限制」,整個團隊跟老闆要資源、要預算的底氣完全不一樣。A/B 測試真正改變的不是某個按鈕,而是組織做決策的文化。
結論
A/B 測試不是工程師或數據科學家的專利,它是一種思考紀律:先寫清楚假設、一次只改一個變因、收集足夠樣本、再用統計而非感覺判讀。AI 在這條鏈上每一環都能幫得上忙——把模糊想法寫成假設、揪出混淆因子、計算樣本數、用白話解讀結果——但它永遠是副駕駛,最終決策與覆核要靠你。
從今天起,下次有人說「這樣改好像比較好」,你可以反問一句:「我們的假設是什麼?樣本夠了嗎?這個差異顯著嗎?」光是養成這個提問習慣,你的行銷決策品質就會跟過去拉開差距。先用本文的兩段 Prompt 跑一場小實驗,把流程走過一遍,再參考 AI Workflow 設計 把它變成團隊的標準動作。
❓ 常見問題 FAQ
做 A/B 測試一定要懂統計嗎?
為什麼不能看到 A 版領先就馬上換掉 B 版?
AI 算出來的樣本數可以直接相信嗎?
流量很小的網站還能做 A/B 測試嗎?
p 值小於 0.05 就代表這個改動一定有效嗎?
🔗 延伸閱讀
每週把這類實戰教學寄給你
訂閱 AgentAI 智庫情報週報,新的 Prompt、AI Skills、工作流與教學第一時間收到。
免費 · 隨時取消