用 AI 規劃 A/B 測試：假設、樣本與判讀的決策方法

Q: 做 A/B 測試一定要懂統計嗎？

不必精通，但要懂三個觀念：假設、樣本數、顯著性。AI 可以代你計算與解讀，但你要看得懂它在說什麼、判斷它有沒有亂講，否則容易被漂亮的數字誤導。本文會用白話帶你建立這三個直覺。

Q: 為什麼不能看到 A 版領先就馬上換掉 B 版？

因為樣本不足時的領先多半是隨機波動。今天 A 贏、明天可能 B 贏。必須先算好需要的樣本數與天數，跑滿才看結果，否則等於丟銅板看一兩次就斷定哪一面比較常出現。

Q: AI 算出來的樣本數可以直接相信嗎？

可以當起點，但要檢查它用的三個輸入：目前的基準轉換率、你願意在意的最小差異、顯著水準。輸入錯，結果就錯。把這三個數字餵清楚，並請 AI 把計算邏輯寫出來讓你覆核。

Q: 流量很小的網站還能做 A/B 測試嗎？

能，但要務實。流量小代表要跑很久才有足夠樣本，這時與其追求統計顯著，不如測『差異夠大』的改動（例如整頁改版而非按鈕換色），或改用質化訪談、可用性測試輔助判斷。

Q: p 值小於 0.05 就代表這個改動一定有效嗎？

不是。它只代表『若兩版其實沒差，看到這種差異的機率很低』，是統計訊號不是商業保證。還要看信賴區間範圍與實際增益金額，並考慮樣本是否被促銷、季節等因素污染。

行銷團隊最常見的對話是這樣的：「上週把按鈕改成橘色，轉換率好像有上升耶。」「真的假的？是因為按鈕，還是因為剛好那週有促銷？」然後沒人能回答，下次又憑感覺再改一次。

這篇要解決的問題：教你用 AI 把「憑感覺改版」變成「有依據的實驗」，從寫假設、控變因、算樣本到判讀結果，每一步都站得住腳。 適合誰讀：行銷、成長、電商營運、產品經理——任何要靠數據說服老闆或自己的人，沒有統計背景也能跟上。 讀完你會得到：一套 A/B 測試的完整心法、可複製的 AI Prompt、一張 Workflow 流程圖、一個台灣電商導入前後的真實對照，以及最常踩的判讀陷阱清單。

免責聲明：本文涉及的統計計算與樣本數公式為教學示範，實際數值會因業務情境而異；AI 計算可能出錯，重大商業決策前請由具統計或數據分析專業者覆核。

為什麼大多數 A/B 測試都白做了？

問題很少出在工具，而出在流程。多數團隊的「A/B 測試」其實是這樣：想到一個點子、改上去、過幾天看哪個數字高、宣布勝負。這個流程有四個致命破洞。

第一，沒有假設。改之前說不清「為什麼覺得會更好」，事後就無法解釋為什麼贏或輸，學不到東西，下次還是靠運氣。

第二，同時改太多。同一週又換按鈕、又改文案、又調價格，最後就算數字動了，你也不知道是哪個改動的功勞——這在統計上叫「混淆」，等於白測。

第三，樣本不夠就下結論。只跑了三天、各組兩百人就宣布 A 版勝出。但兩百人的差異很可能只是隨機波動，換一週結果可能反過來。

第四，判讀只看表面數字。看到 5.2% 對 4.8% 就說「A 比較好」，卻不知道這個差距在統計上根本沒有意義。

AI 的價值，正是把這四個破洞補起來：它能逼你寫清楚假設、幫你揪出混淆變因、計算需要的樣本數、並用白話解讀統計結果。它不是取代你的判斷，而是讓你的判斷有依據。

核心概念：A/B 測試的四根支柱

把 A/B 測試想成法庭審判。你不是「覺得」被告有罪就定罪，而是要先提出指控（假設）、確保證據沒被污染（控變因）、收集足夠多的證人（樣本）、再由**證據強度（顯著性）**決定判決。四根支柱缺一不可。

支柱	白話意思	常見錯誤	AI 能幫什麼
假設	改什麼、預期哪個指標動、動多少、為什麼	只說「換個版本試試」	把模糊想法寫成可驗證假設並補上邏輯
變因	一次只改一個東西，其餘維持一致	同時改多項	列出所有混淆變因並設計控制方式
樣本	每組要多少人、跑多久才夠	跑幾天看到領先就停	依基準率與最小差異算出樣本數與天數
顯著性	這個差異是真的還是運氣	看到數字高就判勝	解讀 p 值與信賴區間並換算成業務增益

這裡有個關鍵直覺要先建立：A/B 測試是在「對抗運氣」。任何兩組數據本來就會有差異，就算兩版完全一樣，分流後的轉換率也不可能剛好相等。我們要做的，是判斷「眼前這個差異，大到不像是運氣造成的」。樣本越大、差異越大，越不像運氣；這就是統計顯著性在做的事。

實際教學：用 AI 跑一場站得住腳的 A/B 測試

Step 1：把直覺寫成可驗證的假設

不要寫「把結帳按鈕改大一點應該比較好」。要寫成有結構的假設：改動（結帳按鈕放大並改成高對比橘色）→ 預期影響的指標（結帳完成率）→ 預期幅度（從 4% 提升到至少 4.6%）→ 背後邏輯（按鈕更顯眼，減少使用者在結帳頁猶豫流失）。

把你的初步想法丟給 AI，請它幫你補完這個結構，並挑戰你的邏輯。一個寫得好的假設，本身就先過濾掉一半的爛點子。

Step 2：鎖定單一變因、揪出混淆因子

確認這次「只改一件事」。同時也要請 AI 幫你想：有沒有外部因素會同時影響兩組？例如測試期間正好遇到雙十一、某個流量來源突然暴增、或不同裝置的使用者沒被平均分到兩組。這些就是混淆變因，沒控制好，結論就不可信。

實務上最重要的兩個控制：隨機且平均分流（同一個使用者固定看同一版，且 A、B 兩組的流量來源、裝置、時段組成要接近），以及同時跑（不要 A 版跑這週、B 版跑下週，否則週與週之間的差異會混進來）。

Step 3：算出需要的樣本數與測試天數

這是最多人跳過、卻最關鍵的一步。樣本數取決於三個輸入：

基準轉換率：目前這個指標大概多少（例如結帳完成率 4%）。
最小可偵測差異（MDE）：你「在意」的最小提升幅度。提升 0.1% 你根本不會改版，那就別為它設計測試；通常設相對提升 10%～20%。
顯著水準與檢定力：慣例是顯著水準 0.05、檢定力 80%。

把這三個數字給 AI，請它算出每組需要的樣本數，再用「每天有多少流量」回推要跑幾天。重點心法：測試開跑前就先決定要跑滿多少樣本／天數，跑滿之前不准看結果下結論。 這條紀律能擋掉九成的假勝負。

Step 4：執行並監控，但忍住不要偷看

測試上線後，每天可以看「有沒有技術故障、分流是否平均、有沒有突發事件污染數據」，但不要每天看轉換率高低就心癢想喊停。提早因為「A 版暫時領先」而結束（統計上叫 peeking 偷看問題），會大幅膨脹誤判機率。記錄期間若發生促銷、斷站、新聞事件等，要在判讀時納入考量。

Step 5：判讀結果並做出明確決策

跑滿之後，把兩組的樣本數與轉換數交給 AI，請它算出 p 值與信賴區間，並用白話解釋。然後做三選一的決策：採用（差異顯著且增益值得）、不採用（B 版沒比較好或更差）、再測（接近顯著但樣本還不夠、或結果可疑需重跑）。最後一定要把結論與學到的東西寫成一頁紀錄，累積成團隊的「實驗知識庫」——這才是 A/B 測試長期最大的價值。

範例：可複製的 Prompt 與 Workflow

規劃階段 Prompt（設計實驗）

把下面這段貼進 ChatGPT、Claude 或 Gemini，填入你的情境即可。

你是資深的成長與數據分析顧問，精通 A/B 測試設計與統計。

【我的情境】
- 產品：台灣的[電商／SaaS／內容網站]
- 我想改動：[具體描述，例如把商品頁的「加入購物車」按鈕從綠色改成橘色並放大]
- 我認為會影響的指標：[例如加入購物車率／結帳完成率]
- 目前該指標基準值：[例如 4%]
- 每天可用於測試的流量：[例如 5000 次造訪]

請依序輸出：
1. 把我的想法改寫成一條可驗證的假設（改動→預期指標→預期幅度→邏輯）。
2. 列出這次測試該控制的混淆變因，以及具體控制方式。
3. 在最小可偵測差異設為相對提升 15%、顯著水準 0.05、檢定力 80% 的前提下，
   估算每組需要的樣本數與大約要跑幾天，並把計算邏輯寫出來讓我覆核。
4. 提醒我這個實驗最容易踩的三個陷阱。
用繁體中文、台灣用語，口語白話，不要空泛套話。

判讀階段 Prompt（解讀結果）

你是資深數據分析師。以下是我跑完的 A/B 測試結果，請用白話判讀。

A 版（原版）：曝光 [12000] 次，轉換 [480] 次。
B 版（新版）：曝光 [12000] 次，轉換 [552] 次。
測試期間：[14] 天，期間有無促銷或異常：[無]。

請輸出：
1. 兩版的轉換率與相對提升幅度。
2. 這個差異的統計顯著性（p 值）與 95% 信賴區間，並用白話解釋它代表什麼。
3. 換算成業務增益：若全面採用 B 版，以月流量 [50萬] 估算大約多帶來多少轉換。
4. 你的明確建議：採用／不採用／再測，並說明理由與風險。
不要只給數字，要像在跟不懂統計的主管解釋一樣。

Workflow 文字版流程圖

把整個流程串成一條自動化或半自動化的工作流，AI 負責規劃與判讀，人負責決策與執行：

[1] 蒐集點子與觀察
        ↓
[2] AI 協助寫成可驗證假設  ← 人覆核邏輯
        ↓
[3] AI 列混淆變因 + 算樣本數/天數
        ↓
[4] 設定分流、上線測試（不偷看）
        ↓
[5] 跑滿預定樣本 → 匯出兩組數據
        ↓
[6] AI 判讀 p 值/信賴區間 → 換算業務增益
        ↓
[7] 決策三選一：採用 / 不採用 / 再測
        ↓
[8] 寫一頁實驗紀錄 → 進團隊知識庫
        ↓（回到 [1] 形成循環）

想把第 2、3、6 步固定成團隊都能用的標準流程，可以參考 AI Workflow 設計，把 Prompt 變成可重複呼叫的步驟；數據整理與匯出的部分則可搭配 AI 資料分析教學。

常見錯誤

沒寫假設就開測：事後無法解釋輸贏，學不到東西。先寫假設，等於先想清楚。
一次改太多東西：贏了也不知道贏在哪，等於沒測。一次一個變因。
樣本不夠就喊停：看到暫時領先就下結論，是 A/B 測試最大的殺手。先算好樣本數，跑滿才看。
反覆偷看數據提早結束：每多看一次，誤判機率就墊高一點。決定好停損點就忍住。
把 p<0.05 當成「一定有效」：它是統計訊號不是商業保證，還要看增益金額與信賴區間寬窄。
忽略外部污染：測試期間的促銷、斷站、節慶會扭曲結果，判讀時必須誠實納入。
贏了就忘了記錄：沒寫成知識，下次又重來。一頁紀錄是團隊最值錢的資產。
盲信 AI 的計算：AI 會把樣本數算錯或唬爛 p 值。永遠請它把計算邏輯攤開讓你覆核。

最佳實務

先測「差異大」的改動：流量有限時，測整頁改版比測按鈕換色更快看到有意義的結果。
三個輸入餵清楚：基準率、最小可偵測差異、顯著水準——這三個決定一切，餵錯全錯。
跑滿一個完整週期：至少涵蓋一個完整的週（含週末），避免被星期幾的行為差異誤導。
顯著也要看增益值不值：統計顯著但只多賺幾百元，可能不值得增加維護複雜度。
建立假設待測清單（backlog）：把點子排優先序，依「影響大小 × 可信度 × 容易度」決定先測哪個。
讓 AI 當你的魔鬼代言人：每次都請它挑戰你的假設與判讀，避免確認偏誤。
沉澱成團隊知識庫：把每次的假設、結果、學到的事歸檔，慢慢你會有一套自己產業的「轉換率直覺」。

實際案例：台灣保健食品電商的結帳頁實驗

背景：一家在台灣經營保健食品的中型電商，月造訪約 50 萬次，結帳完成率長期卡在 4% 左右。團隊過去常「憑感覺改版」——這個月改按鈕、下個月改文案，每次都說「好像有變好」，但年底回頭看整體轉換率其實沒動。

導入前的問題：

沒有假設，改完無法解釋輸贏。
常同時改三、四個地方，分不清功勞。
看一兩天數據就決定，反覆橫跳。

導入後的做法：團隊用上面的兩段 Prompt 建立標準流程。第一個實驗的假設是：「結帳頁的運費與到貨資訊太靠下，使用者疑慮未解就離開；把運費與到貨天數提到金額旁邊，預期結帳完成率從 4% 提升至少 15%（到 4.6% 以上）。」AI 算出在 MDE 15%、顯著水準 0.05、檢定力 80% 下，每組約需 1.2 萬次曝光，以日流量回推約需跑 14 天。團隊嚴守「跑滿 14 天才看結果」的紀律。

結果（單一實驗，14 天）：

指標	A 版（原版）	B 版（資訊上移）
曝光次數	12,000	12,000
結帳完成數	480	552
結帳完成率	4.0%	4.6%
相對提升	—	+15%
p 值（AI 判讀）	—	約 0.018（顯著）

AI 判讀為「差異具統計顯著性，建議採用」，並換算：以月流量 50 萬估算，全面採用後每月約多帶來數百筆完成結帳。團隊據此正式上線 B 版，並把整個過程寫成一頁紀錄歸檔。

這個案例的原創觀點：最大的收穫其實不是那 0.6 個百分點，而是團隊第一次「能說清楚自己為什麼這樣改、憑什麼相信它有效」。當行銷決策從「我覺得」變成「數據顯示，且我看得懂這個數據的限制」，整個團隊跟老闆要資源、要預算的底氣完全不一樣。A/B 測試真正改變的不是某個按鈕，而是組織做決策的文化。

結論

A/B 測試不是工程師或數據科學家的專利，它是一種思考紀律：先寫清楚假設、一次只改一個變因、收集足夠樣本、再用統計而非感覺判讀。AI 在這條鏈上每一環都能幫得上忙——把模糊想法寫成假設、揪出混淆因子、計算樣本數、用白話解讀結果——但它永遠是副駕駛，最終決策與覆核要靠你。

從今天起，下次有人說「這樣改好像比較好」，你可以反問一句：「我們的假設是什麼？樣本夠了嗎？這個差異顯著嗎？」光是養成這個提問習慣，你的行銷決策品質就會跟過去拉開差距。先用本文的兩段 Prompt 跑一場小實驗，把流程走過一遍，再參考 AI Workflow 設計把它變成團隊的標準動作。

❓ 常見問題 FAQ

做 A/B 測試一定要懂統計嗎？

不必精通，但要懂三個觀念：假設、樣本數、顯著性。AI 可以代你計算與解讀，但你要看得懂它在說什麼、判斷它有沒有亂講，否則容易被漂亮的數字誤導。本文會用白話帶你建立這三個直覺。

為什麼不能看到 A 版領先就馬上換掉 B 版？

因為樣本不足時的領先多半是隨機波動。今天 A 贏、明天可能 B 贏。必須先算好需要的樣本數與天數，跑滿才看結果，否則等於丟銅板看一兩次就斷定哪一面比較常出現。

AI 算出來的樣本數可以直接相信嗎？

可以當起點，但要檢查它用的三個輸入：目前的基準轉換率、你願意在意的最小差異、顯著水準。輸入錯，結果就錯。把這三個數字餵清楚，並請 AI 把計算邏輯寫出來讓你覆核。

流量很小的網站還能做 A/B 測試嗎？

能，但要務實。流量小代表要跑很久才有足夠樣本，這時與其追求統計顯著，不如測『差異夠大』的改動（例如整頁改版而非按鈕換色），或改用質化訪談、可用性測試輔助判斷。

p 值小於 0.05 就代表這個改動一定有效嗎？

不是。它只代表『若兩版其實沒差，看到這種差異的機率很低』，是統計訊號不是商業保證。還要看信賴區間範圍與實際增益金額，並考慮樣本是否被促銷、季節等因素污染。

🔗 延伸閱讀

這篇對你有幫助嗎？

AgentAI 智庫團隊 ✓ 台灣實作團隊

我們是一群專注於 AI Agent、Prompt 與自動化工作流的台灣實作者。每篇教學都附可複製配方、誠實標示實測程度與限制，只分享真正能落地、可直接套用的方法——與其介紹工具，不如教你把事情做完。

關於我們 →看更多教學 →訂閱情報週報 →

每週把這類實戰教學寄給你

訂閱 AgentAI 智庫情報週報，新的 Prompt、AI Skills、工作流與教學第一時間收到。

免費 · 隨時取消