很多人以為 AI 只能「打字問、它打字答」,於是手邊一堆截圖、PDF、會議錄音還是只能自己慢慢看、慢慢聽、慢慢打。其實現在的主流 AI 早就升級了——你可以直接把圖片和檔案丟給它。
這篇要解決的問題:用最白話的方式講清楚多模態 AI 是什麼、它怎麼「看」和「聽」,並手把手帶你把它用在報表截圖、會議錄音、合約文件這些真實工作上。 適合誰讀:每天要處理大量截圖、表格、PDF、錄音的上班族、行政、業務、自由工作者與中小企業主,完全不需要程式基礎。 讀完你會得到:一套可立刻照做的多模態工作流程,外加可複製的 Prompt 與 Workflow 範例,以及避免讀錯關鍵數字的護欄做法。
為什麼你需要懂多模態 AI?
回想一下你的一天:主管傳來一張銷售報表的截圖要你彙整、客戶寄來掃描的合約 PDF 要你抓重點、開完會留下一段一小時的錄音要你整理待辦。這些事都不難,卻全部卡在「材料不是純文字」這件事上——你得自己把眼睛看到、耳朵聽到的東西,再用手打成字。
純文字 AI 幫不上這些忙,因為它看不到你的截圖、也聽不到你的錄音。多模態 AI 補上了這塊:它能直接「讀懂」圖片、文件與聲音裡的內容,把你從「人工轉錄」的苦工裡解放出來。
這也是為什麼 2026 年幾乎所有主流模型都標配多模態能力:當 AI 同時擁有「眼睛」和「耳朵」,它能處理的工作範圍一下子放大好幾倍。對個人來說,這是把雜事外包的最好機會;對企業來說,這是把散落在截圖、掃描檔、錄音裡的資訊一次數位化的關鍵工具。
核心概念:什麼是「模態」?
「模態(Modality)」指的是資訊的形式。文字是一種模態、圖片是一種模態、聲音又是另一種模態。傳統 AI 是「單模態」——只吃文字、只吐文字。多模態 AI 則能同時接收多種形式的輸入,再轉成你要的輸出。
用一個比喻來說:純文字 AI 像一位只能透過「紙條」跟你溝通的助理,你寫什麼它才知道什麼;多模態 AI 則是一位「有眼睛、有耳朵」的助理,你直接把照片給它看、把錄音放給它聽,它就懂了。
下面這張表幫你快速分辨常見模態,以及它最適合的工作場景:
| 模態 | 你給它什麼 | 最適合的工作 | 要注意的限制 |
|---|---|---|---|
| 圖片/截圖 | 報表截圖、商品照、白板拍照 | 抽出表格數字、描述畫面、辨識手寫 | 模糊或低解析度容易看錯數字 |
| 文件(PDF) | 合約、發票、簡報、論文 | 抓重點、整理欄位、跨頁比對 | 複雜排版、跨頁表格易對錯行 |
| 音訊 | 會議錄音、客服通話、語音備忘 | 轉逐字稿、整理待辦、抓情緒 | 口音重、雜訊多會降低準確率 |
| 文字 | 你打的指令與背景說明 | 補上素材看不到的脈絡 | 仍是引導 AI 的關鍵,不能省 |
關鍵觀念:多模態不是「丟進去就好」,而是「素材+脈絡+明確指令」三者缺一不可。AI 能看到圖,但它不知道這是哪一季、哪一家的報表,這些背景要靠你用文字補上。這是多數人用多模態 AI 失敗的第一個原因。
實際教學:五步把多模態 AI 用在工作上
Step 1:釐清你的輸入是什麼模態
動手前先分類手上的材料。是螢幕截圖、手機拍的紙本、原生 PDF,還是一段錄音?這會決定你的餵法:
- 截圖/拍照:直接上傳圖片即可,但盡量拍清楚、光線足、不要歪斜。
- 原生 PDF:文字可選取的 PDF 辨識最準;掃描成圖片的 PDF 則當成圖片處理。
- 錄音:先確認檔案格式(mp3、m4a 等),太長的建議切段。
分清楚模態,才不會把該當文件處理的東西硬塞成截圖,結果讀得零零落落。
Step 2:選一個支援多模態的 AI
不是每個 AI 都看得到圖、聽得到聲音。挑模型時確認三件事:能不能上傳圖片、能不能上傳檔案、能不能處理音訊。Claude 與 ChatGPT 的主流版本都支援圖片與文件上傳,是上手最快的選擇。若你要做的是大量、自動化的處理,再進一步看它有沒有提供 API 讓你串接工作流。
Step 3:上傳素材並描述脈絡
把圖檔、PDF 或錄音拖進對話框後,一定要用文字補上 AI 看不到的背景。例如:「這是我們公司 2026 第一季各門市的銷售報表截圖,幣別是新台幣,請以門市為單位整理。」
少了這句脈絡,AI 只能用猜的,準確率立刻下降。記住:素材給它「看什麼」,文字告訴它「怎麼理解」。
Step 4:用結構化 Prompt 指定輸出
不要只說「幫我整理一下」。明確指定你要抽出哪些欄位、用什麼格式回覆。例如要求它輸出 Markdown 表格、固定欄位、找不到的值標「未提供」而不是亂編。輸出愈結構化,你後續貼回試算表或系統就愈省事,AI 亂編的空間也愈小。
Step 5:人工複查關鍵數字再自動化
這是最重要、也最常被跳過的一步。 多模態 AI 看數字偶爾會出錯——把 8 看成 3、把欄位對錯行。在它讀出的結果中,先親手核對金額、日期、合約條款這類「錯了會出事」的欄位。確認流程穩定後,再考慮接上排程做批次處理。先讓人把關,再談自動化,順序不能反。
範例:Prompt 與 Workflow
下面這個 Prompt 適用於「把報表截圖或發票 PDF 抽成結構化表格」的場景,可直接複製使用:
你是一位嚴謹的財務資料整理助理。我會上傳一張報表截圖(或發票 PDF)。
背景脈絡:
- 這份資料的單位是【新台幣】,期間是【請我補上,例如 2026 第一季】。
- 文件來源:【請我補上,例如某門市銷售月報】。
請依照以下規則處理:
1. 逐欄逐列讀取圖中的數字,不要四捨五入、不要自行加總。
2. 用 Markdown 表格輸出,欄位固定為:項目、數量、金額、備註。
3. 任何你看不清楚或圖中沒有的值,一律填「未提供」,嚴禁猜測或編造。
4. 表格下方另列「需人工複查」清單,把所有你不確定的儲存格列出來。
5. 最後用一句話說明這份資料的整體重點。
請只根據圖中實際出現的內容回答。
文字版流程圖(把上面的步驟串成一條可重複的工作流):
上傳報表截圖/發票 PDF
↓
補上脈絡(幣別、期間、來源)
↓
AI 抽取 → 輸出結構化表格 +「需人工複查」清單
↓
人工核對金額/日期(重點看複查清單)
↓
┌─ 正確 → 貼回試算表/系統
└─ 有誤 → 標出問題欄位 → 請 AI 只重讀該欄位
↓
流程穩定後 → 接排程批次處理多份檔案
這條流程的精神是:讓 AI 做粗活(逐格讀取),讓人做把關(核對關鍵欄位),並用「需人工複查清單」把 AI 的不確定性攤在陽光下,而不是埋在表格裡讓你漏看。
常見錯誤
- 只丟素材、不給脈絡:AI 不知道幣別、期間、來源,只能用猜的,整理結果失準。
- 一次塞太多頁、太長的錄音:模型容易在後半段失準或漏讀,建議分段處理再合併。
- 拿低品質截圖硬要它讀:模糊、歪斜、反光的圖片是讀錯數字的主因,先拍清楚再上傳。
- 要求開放式輸出:說「幫我看一下」會得到一段沒結構的文字,難以複用,務必指定欄位與格式。
- 跳過人工複查就自動化:把沒核對過的金額直接接進系統,一旦讀錯會整串放大成大錯。
- 把敏感文件丟上免費版:個資、合約可能被拿去訓練,敏感資料應去識別化或改用企業版。
最佳實務
- 脈絡寫在 Prompt 裡,不要靠 AI 通靈:幣別、期間、文件性質一次講清楚。
- 永遠要求一份「需人工複查」清單:讓 AI 主動承認哪裡沒把握,比你逐格找問題快得多。
- 找不到就標「未提供」:用明確指令堵住 AI 編造的空間,這比事後抓錯有效。
- 先小批驗證、再放大規模:用三到五份檔案測穩流程,再接排程批次跑。
- 混合模態時分步處理:先把錄音轉逐字稿、再把逐字稿與簡報截圖一起交給 AI 分析,比一次全塞更穩。
- 建立內部資料使用規範:哪些文件可上傳、要不要去識別化、用哪個方案,先講好再用。
實際案例:台中一家貿易公司的發票整理
台中一家中小型貿易公司,每月會收到上百張供應商的發票,多半是掃描檔或拍照的 PDF。過去由一位行政同仁逐張開檔、手動把品項、數量、金額打進試算表,再交會計核帳。
導入前:每月約 120 張發票,行政同仁平均花 2 個工作天(約 16 小時)人工輸入,且常因眼花把金額打錯,會計每月要退回重打 5 至 8 張,來回耗時又傷感情。
導入後:他們改用前面那套流程。行政同仁把發票 PDF 批次上傳給支援多模態的 AI,用結構化 Prompt 要它抽出固定欄位並附上「需人工複查」清單。同仁不再從零打字,而是改成「核對」——只重點檢查 AI 標記為不確定的儲存格。
成果數據:每月發票整理時間從約 16 小時降到約 5 小時,省下近 7 成工時;因為人力集中在複查不確定欄位,輸入錯誤從每月 5 至 8 張降到 1 張以內。省下的時間,行政同仁拿去處理更需要判斷的對帳與廠商溝通。值得強調的是,他們並沒有讓 AI 全自動入帳——金額仍由人複查、會計仍做最終把關,AI 只是把最累的「逐字輸入」這段接走。
免責聲明:本文涉及發票、報表等財務文件的處理流程僅供作業效率參考,不構成財稅或會計建議。多模態 AI 讀取的數字可能有誤,任何用於帳務、報稅或對外申報的數據,務必由具備資格的會計或財務人員複核確認。
結論
多模態 AI 真正的價值,不是「很酷地讀懂一張圖」,而是把你每天卡在截圖、PDF、錄音上的「人工轉錄」苦工接走,讓你把時間留給需要判斷的事。
只要記住三個關鍵:素材+脈絡+明確指令缺一不可、永遠要一份人工複查清單、先讓人把關再談自動化,你就能穩穩地把它用在報表整理、文件審閱、會議記錄這些真實工作上,而不是淪為一次性的炫技。
下一步,建議你先挑一件「每月固定、材料不是純文字」的重複任務,照著本文的五步流程跑一次。當你把多模態 AI 接進更大的自動化裡,它就不只是會看圖、會聽聲,而是成為你 AI Agent 工作流中的一雙眼睛和耳朵。
❓ 常見問題 FAQ
多模態 AI 和一般 ChatGPT 有什麼不同?
多模態 AI 讀我上傳的圖片或文件,會準嗎?
不會寫程式可以用多模態 AI 嗎?
多模態 AI 能處理影片嗎?
上傳公司文件給多模態 AI 安全嗎?
🔗 延伸閱讀
每週把這類實戰教學寄給你
訂閱 AgentAI 智庫情報週報,新的 Prompt、AI Skills、工作流與教學第一時間收到。
免費 · 隨時取消