OpenAI 公司最為人所知的就是 ChatGPT 人工智慧聊天機器人(現在還有人不知道嗎?),其實它還有其他也是很強大的專案研究,例如「DALL·E 以描述讓 AI 創造圖片,也能編輯現有圖片呈現逼真效果」或是另一個對語音即時辨識、轉為文字檔的 Whisper 技術,都是當今 AI 領域的偉大發明,對於使用者來說或許不用很清楚這些技術背後的實際運作方式,只要善用對的工具就能提高工作效率。
本文要介紹「MacWhisper」是一個將錄音或影片自動轉為逐字稿的 Mac 應用程式,使用的正是 OpenAI 旗下的 Whisper 技術,無論是會議錄音、講座或是任何音訊檔都能透過 MacWhisper 快速準確地轉換為文字,同時標記時間軸,也能在辨識後直接修正錯誤的本文段落,支援超過 100 種語言。
更棒的是 MacWhisper 所有辨識、轉錄工作都在使用者的電腦上進行,不需要讓任何資料離開電腦,即使遇到隱私、敏感的資料也很適合透過 MacWhisper 進行轉換,應用程式本身有免費和付費 PRO 方案,差異在於可下載的訓練模型(Models)大小不一樣,即使如此,免費版模型就能獲得相當不錯的正確性,同時也能在很短時間完成音訊的識別工作。
MacWhisper 適用於 MP3、WAV、M4A、MP4 和 MOV 格式,付費後還能直接貼上 YouTube 影片網址、直接將影音內容轉為文字逐字稿,轉換後可保存為 SRT、VTT、TXT、CSV、DOCX(付費後還有 HTML、PDF 和 DOTE 格式),速度上很快速、準確性很高,有需要的朋友可以試試看。
MacWhisper
https://goodsnooze.gumroad.com/l/macwhisper
下載應用程式,選擇要使用的方案
STEP 1
開啟 MacWhisper 頁面後從右側選擇最上方免費選項(價格是 €0),點選下方「我要這個」按鈕,未來需要 Pro 授權序號一樣可以回到這裡從下方找到對應的購買選項,有依照授權數提供不同的價格,買越多單價就越便宜啦!
STEP 2
選擇免費方案後前往付款頁面,輸入電子郵件地址後按下「獲取」完成結帳。
STEP 3
完成前還是不忘推銷一下,問問使用者要不要升級 MacWhisper Pro 授權解鎖完整功能,在這裡點選不升級進入下個畫面,如果你需要的話也是可以在這裡選擇付費升級。
最後點選「Download MacWhisper」下載應用程式,雖然下面有個許可密鑰,但對於免費版來說似乎是沒有作用。
下載 Whisper 語音模型,開始語音辨識
STEP 1
開啟 MacWhisper 第一件事是要下載 Whisper 模型,如果你要辨識的音訊或影片不是英文,那麼就要從多種語言(Multiple Languages)下方的模型選擇、下載,免費方案可下載到「Small」模型(約 500 MB),擁有不錯的辨識度、處理速度普通,如果下載較小的模型處理速度會更快,不過準確度就會稍差一些。
升級為 PRO 方案可取得更大型的音訊模型,最多有 3 GB 大小,應該會有相當高的準確性,不過處理速度會是最慢的,以我的實際操作經驗,我選擇免費方案的 Small 模型處理一個六分半的錄音,差不多只要耗費約 34 秒,其實速度還算快。
STEP 2
完成模型下載後就能開始使用,未來也能隨時將已下載的模型刪除或進行切換。
STEP 3
進入 MacWhisper 主畫面就能開始使用,操作方式很簡單,只要將檔案直接拖曳進去即可開始辨識、把內容產生為文字格式或是逐字稿,支援 MP3、WAV、M4A、MP4 和 MOV 格式。
STEP 4
雖然也可以輸入 YouTube 影片直接產生字幕檔,但這個功能需要付費升級為 Pro 方案才能使用,即使轉換出來後也沒辦法順利取得文字檔(會出現要求購買 Pro 方案才能取得字幕的錯誤訊息)。
STEP 5
如果你想要轉換的影片或音訊在 YouTube,可以先透過 YouTube 影片下載工具保存為 MP3 就能免除這個限制,反正也只是多繞個圈而已,並不會影響太多,將影片先下載為 MP4 或 MP3 格式。
接著從 MacWhisper 主畫面點選「Open Files」或直接將檔案拖曳進去就能開始使用 Whisper 技術將影音轉換為逐字稿或是純文字格式。
經過實際測試六分半鐘的影片大約 34 秒即可完成辨識、轉出字幕檔和時間軸,速度相當快,不過依然有些地方不太正確,需要手動檢查、勘誤,時間軸上會有每個段落的字幕。
STEP 6
產生的逐字稿可以調整文字大小(透過上方選單)。
也能隨時編輯字幕內容或是標記、刪除,操作上還蠻簡單的,透過下方操控欄位隨時跳轉特定段落播放。
STEP 7
轉換後點選右上角「Export」匯出按鈕即可選擇保存格式,支援 SRT、VTT、純文字 TXT、CSV、DOCS,其他還有 HTML、PDF 和 DOTE 格式是需要付費升級 Pro 方案才能選擇的格式。
選擇純文字格式沒有時間軸,點選右下角「Export」即可匯出、保存為特定文字格式,將影片或是音訊檔案的逐字稿匯出。
值得一試的三個理由:
- 辨識與轉錄工作皆在使用者的電腦上進行,不需讓任何資料離開電腦
- 快速準確將各種音訊檔案轉換為文字,同時支援超過 100 種語言
- 可轉換多種音訊影片格式,付費後還可直接轉換 YouTube 影片