Computer Use 是什麼?讓 AI Agent 自己操作電腦與瀏覽器

這篇要解決的問題很具體:你有一堆「只能用滑鼠點、沒有 API 可串」的重複操作(登入舊後台、填政府表單、跨系統搬資料),想知道能不能交給 AI 自己做。 適合讀的人是:IT 主管、營運與行政流程負責人、想評估自動化又怕出包的決策者。讀完你會得到:Computer Use 的原理、5 步驟安全部署法、一份可複製的 Prompt、一張 Workflow 流程圖、一份風險清單,以及一個台灣企業的導入前後對照數據。

為什麼需要 Computer Use?

過去十年企業自動化幾乎都靠兩條路:第一條是串 API,第二條是 RPA(流程自動化機器人)。但這兩條路都有死角。

API 的死角是——很多系統根本沒有 API。台灣大量在用的舊版 ERP、銀行企業網銀、政府申報網站、醫院 HIS、地方政府標案平台,這些系統你連不上去,只能「人坐在電腦前用滑鼠點」。

RPA 的死角是——它太脆弱。RPA 通常靠錄製固定座標或抓特定元素,網頁改版、按鈕換位置、跳出一個公告視窗,整條流程就掛掉,得叫工程師重錄。維護成本高到很多公司最後乾脆放棄。

Computer Use 補的就是這塊。它讓 AI Agent 像人一樣**「看螢幕截圖 → 理解畫面 → 決定要點哪裡 → 移動滑鼠並輸入」**,不依賴寫死的座標,介面小改也能自己適應。換句話說,凡是「人能用眼睛和滑鼠完成的事」,理論上都能交給它試試看。

如果你還不清楚 AI Agent 的基本概念,建議先看 AI Agent 是什麼?入門完整指南 再回來。

核心概念:它到底怎麼「操作電腦」

Computer Use 的運作是一個不斷重複的迴圈。可以用「請一位看得懂螢幕的工讀生幫你操作電腦」來理解:你給他目標,他看一眼螢幕,動一下手,再看一眼,再動一下,直到完成。

整個迴圈是這樣:

階段Agent 做什麼像人類的哪個動作
截圖(Screenshot)取得當前螢幕畫面抬頭看螢幕
理解(Reasoning)判斷畫面上有什麼、下一步該做什麼在腦中想「我要點那個藍色按鈕」
行動(Action)輸出滑鼠座標、點擊、鍵盤輸入移動滑鼠、打字
再截圖驗證看畫面有沒有如預期變化確認真的點到了

關鍵差別在於:RPA 是「照腳本執行」,Computer Use 是「看情況決定」。 這也是它最大的優點與最大的風險來源——能臨機應變,但也可能「自己做了你沒料到的事」。

想深入比較兩者,AI Agent vs RPA:差在哪、怎麼選 有更完整的決策表。

實際教學

下面用 5 個步驟,示範如何把一個「每天登入供應商後台、下載報表、整理成 Excel」的任務,安全地交給 Computer Use Agent。

Step 1:釐清任務邊界,標出不可逆動作

先把流程當成 SOP 寫下來,每一步標記是「可逆」還是「不可逆」。

原則很簡單:可逆動作可以放手讓 Agent 做,不可逆動作一律先停下等人確認。 這條原則貫穿整篇文章,務必記住。

Step 2:建立沙箱環境,不要直接碰正式系統

絕對不要在你日常用的電腦、用你的正式帳號跑 Computer Use。正確做法是開一台隔離的虛擬機(VM)或容器,裡面:

這樣就算 Agent 失控,最壞情況也只發生在這個拋棄式環境裡。

Step 3:設計結構化操作指令

不要只丟一句「幫我下載報表」。要把目標、限制、停止條件都講清楚(完整 Prompt 見下一節)。重點是明確告訴它「遇到不確定就停下來問,不要亂猜」。

Step 4:加上人類審核點(Human-in-the-loop)

在所有不可逆動作前插入確認關卡。實務做法是讓 Agent 在按下「送出」前,先輸出一段「我即將執行 X,請確認」,由人按下同意才繼續。需要把人的確認串成正式流程,可以參考 Workflow 知識庫 的設計範例。

Step 5:全程監控與記錄

開啟操作錄影、每一步截圖、留存完整日誌。這不只是除錯用,更是企業稽核與責任歸屬的依據。把這套監控標準化進你的導入流程,企業導入 AI Agent 指南 有治理與權限管理的進階建議。

範例:Prompt 與 Workflow

下面是一個可直接複製改用的 Computer Use 操作 Prompt。重點不在華麗,而在「邊界清楚、會喊停」。

你是一個操作電腦的 AI 助理。你的任務是:登入供應商後台,下載本月銷售報表,存到桌面的 reports 資料夾。

【環境】
- 這是一台隔離測試機,已用測試帳號登入瀏覽器。
- 只允許操作網域:supplier-portal.example.com,其他網站一律不要打開。

【任務步驟】
1. 開啟供應商後台首頁。
2. 進入「報表中心」。
3. 將日期範圍設為「本月」。
4. 下載 Excel 格式報表到 reports 資料夾。

【硬性規則】
- 你只能做「瀏覽、點擊、下載」這類可逆動作。
- 遇到任何「付款」「刪除」「送出申請」「修改帳號設定」的按鈕,立刻停下並輸出:
  「偵測到不可逆動作:<按鈕名稱>,等待人類確認。」然後停止,不要點下去。
- 如果畫面出現你沒預期的彈窗、廣告或要求輸入額外資訊,停下並回報,不要自行猜測填寫。
- 如果連續 3 次嘗試都無法前進,停止並回報目前畫面狀況。

【輸出】
每一步先說明「我看到什麼、我要做什麼」,再執行動作。

對應的 Workflow 流程圖(文字版):

接到任務 ↓ 啟動沙箱虛擬機 + 測試帳號 ↓ Agent 截圖看畫面 ↓ 理解畫面 → 決定下一步動作 ↓ 是不可逆動作?──是──→ 停下,輸出確認請求 → 等人類核准 → 核准後才繼續 ↓(否,可逆動作) 執行點擊/輸入 → 再截圖驗證結果 ↓ 任務完成?──否──→ 回到「截圖看畫面」 ↓(是) 輸出結果 + 完整操作日誌 → 結束

這個「可逆放行、不可逆攔截」的閘門,是整個安全設計的核心。它跟 MCP 連接工具 的權限控管邏輯一脈相承:能力越大,越要在關鍵節點設限。

常見錯誤

Google 與實務上最常見的踩雷,幾乎都集中在「太信任 Agent」:

最佳實務

實際案例:台中某貿易公司的供應商報表整合

情境: 一家台中的中型貿易公司,有 12 家供應商,每家都有自己的後台網站,沒有任何一家提供 API。每天早上採購助理要逐一登入、下載報表、整理成一份總表給主管。

導入前:

導入做法:

導入後:

關鍵成功因素不是「技術多強」,而是任務選得對(純下載、可逆、沒 API)+護欄做得足(唯讀帳號、沙箱、抓不可逆動作)。類似的跨系統整合思路,也可延伸到電商營運,詳見 AI Agent 在電商的應用

免責聲明:本文涉及登入企業帳號、政府或銀行網站等操作之說明,僅為技術教學,非法律或資安合規建議。實際導入前請依貴公司資安政策與相關法規評估,並諮詢專業人員。

結論

Computer Use 讓 AI Agent 跨過了「沒有 API 就沒辦法自動化」的高牆,特別適合台灣大量在用的老舊系統與只能靠介面操作的後台。但它的「能臨機應變」同時也是最大風險:用對地方(可逆、無 API、重複性高)+ 設足護欄(沙箱、最小權限、人類守門、完整日誌),它才是好幫手;反過來就是定時炸彈。

建議的下一步:先挑一個「下載/查詢類」的可逆任務做試點,跑順了再逐步擴大,並把人類審核點與監控標準化進你的流程。

延伸閱讀:AI Agent 是什麼?入門完整指南AI Agent vs RPA 怎麼選MCP 是什麼企業導入 AI Agent 指南多 Agent 協作,以及 Workflow 知識庫Recipes 範例庫

❓ 常見問題 FAQ

Computer Use 和 RPA 有什麼不同?
RPA 靠寫死的座標與規則,介面一改就壞;Computer Use 靠 AI 看畫面理解後再操作,能容忍版面變動,但穩定度與可預測性目前仍不如成熟 RPA。
Computer Use 安全嗎?可以接真實帳號嗎?
預設不建議直接接正式帳號與付款工具。應在沙箱執行、用測試帳號、對不可逆動作加人類確認,並限制可存取的網站與檔案範圍。
它會不會被網頁上的惡意指令騙?
會。這叫提示注入(Prompt Injection),網頁文字可能誘導 Agent 做壞事。要用網域白名單、敏感動作攔截與輸出檢查來防範。
需要很強的程式能力才能用嗎?
基本試用不用寫太多程式,但要安全地用於企業,需要會設定虛擬機、權限與監控,建議由 IT 或工程團隊主導。
速度會不會很慢、成本會不會很高?
因為要一張張看螢幕截圖再決策,速度比 API 串接慢、Token 成本也較高。適合沒有 API、只能靠介面操作的場景,不要拿來做能用 API 解決的事。
哪些任務最適合用 Computer Use?
老舊內部系統、沒有開放 API 的後台、政府或銀行網站填單、跨系統搬資料這類只能用人機介面的重複工作最適合。
出錯了責任算誰的?
企業導入時應在流程上明訂 Agent 只在授權範圍內動作,保留完整日誌,並對外部行為(如送出申請)保留人類最終核准,以利責任歸屬。

🔗 延伸閱讀

幫這篇打個分:
A
AgentAI 智庫團隊 ✓ 台灣實作團隊

我們是一群專注於 AI Agent、Prompt 與自動化工作流的台灣實作者。每篇教學都附可複製配方、誠實標示實測程度與限制,只分享真正能落地、可直接套用的方法——與其介紹工具,不如教你把事情做完。

關於我們 →看更多教學 →訂閱情報週報 →

每週把這類實戰教學寄給你

訂閱 AgentAI 智庫情報週報,新的 Prompt、AI Skills、工作流與教學第一時間收到。

免費 · 隨時取消