隨著 AI 人工智慧技術的發展與日俱進,現今已能透過自動化程式完成許多工作,其中一項可能很多使用者有興趣、會用到的就是「語音辨識」功能,以往繕打逐字稿工作需要一邊聽錄音、一邊手動輸入聽到的內容,若要對影片製作字幕也是相同方式,不但要聚精會神,在流程上也非常耗費時間,網路上有許多 AI 技術「語音轉文字」工具,將錄音檔或影片檔上傳後經由 AI 分析即可自動轉換為文字,有些還會自動標示時間代碼,非常好用。
通常錄音轉文字或是影片轉文字工具都不會是免費服務,畢竟需要經過 AI 程式進行處理和運算,需要耗費一定程度的系統資源,不過在決定付費前都會有「免費額度」可供使用者測試和試用,雖然在有限的免費額度中可能無法完成手邊工作,但至少可以確保使用這項服務可以獲得使用者想要的效果。
本文整理了免費資源網路社群曾經介紹、推薦過的各種好用逐字稿軟體,大部分都已經整合 AI 自動進行語音辨識、轉文字檔技術,對於繁體中文也有很高的辨識正確率,無論是要把 MP3 錄音檔、MP4 影片聲音部分轉文字都可以全自動處理。
當然在轉換結果方面可能會有錯別字、分段或標點符號錯誤等問題,依然需要真人校對,但至少不用從頭到尾都手動聽打逐字稿,在時間效率上有顯著的差異。
希望大家都能從這份列表中找到適合自己的逐字稿軟體、服務,未來有發現其他新的服務時也會補充到文章。
目錄
免費逐字稿軟體服務列表
Cleanvoice AI
Cleanvoice AI 是一項非常強大、使用 AI 技術的音訊服務,除了在線上進行快速錄音,還提供上傳音檔後移除無聲靜默的段落、猶豫、消除贅字、口吃或咂嘴聲、唾液等嘴部無意識發出的噪音功能,也有移除背景噪音的消除器、自動混音功能修復揚聲器之間的音量、標準化音量等等,讓錄音更具有專業感。Cleanvoice AI 也具備自動辨識錄音並且轉換為逐字稿、文字檔格式的功能(支援中文在內等多國語言)。
至於 Cleanvoice AI 服務的計費方式是使用者註冊後可先獲得免費 30 分鐘編輯額度,無需預先輸入信用卡資訊,試用期間就不用擔心被刷卡收費,方案分為訂閱制(Subscription)和「用多少付多少」(Pay as you Go),使用者可以依照自己的用量和需求選擇更適合自己的方案計畫。
cSubtitle
cSubtitle 是協助使用者將影音轉檔文字、影片自動上字幕的中文服務,無論是語音轉文字、影片或錄音檔轉文字或是逐字稿都能做到。
這項服務使用 AI、雲端運算技術,不用額外下載或安裝軟體,使用者需要做的就是將檔案上傳,支援檔案大小不能超過 4 GB、時間長度五小時內,影片格式包括 MP4、MOV、錄音檔 MP3、WAV、M4A、OGG、WMA 等等,自動化程式會產生標準的文字檔和 Word 逐字稿,也會對內文加入標點符號、分段和時間碼。
cSubtitle 以購買專業版的處理時數做為計價策略,依照影音檔時間長度計算,分為 100 分鐘、500 分鐘、1500 分鐘和 100 個小時方案,價格從 $9.95 美元開始,免費版只會辨識和製作三分鐘的文字檔或字幕檔,有需要的朋友可以直接用免費版來測試處理效果,喜歡的話再付費購買時數,不過要注意付費購買的額度具有效期,需在時限內用完。
Good Tape
Good Tape 使用 OpenAI 旗下 Whisper 技術,可自動幫使用者的錄音檔轉為文字檔或逐字稿,支援英文、中文、日文、韓文、德文、法文、丹麥文等超過 40 種語言,使用者只需要上傳錄音即可產生、轉為帶有標記時間的文字檔或是字幕檔(.SRT 格式)。
這項服務背後的團隊是丹麥知名的數位報紙 Zetland,建立這個服務的初衷也是因為自己會需要用到,而且外面的數位轉錄服務價格昂貴,透過 OpenAI Whisper 不但有非常好的轉換、辨識效果,而且也節省可觀的費用及時間,當前有免費和專業版(Professional)可選,後者以每月 €9 歐元試用(之後每月 €15 歐元),具有精確轉換所有內容和沒有等待、排隊時間等特性。
Kapwing Subtitles
Kapwing Subtitles 是 Kapwing 旗下的 AI 工具之一,主要功能是為影片自動加入動態字幕,只要點擊幾下就能為影片建立字幕,不過這個服務並非完全免費,免費方案在匯出影片時長度不能超過 4 分鐘、畫質解析度較低、右下角會被加入浮水印等限制。
為了完成手邊的任務,使用者需要付費升級 Pro 方案,單月價格為 $24 美元,基本上沒有使用限制,還能完整使用 Kapwing 網站上的各項服務,年繳還享有折扣價 $16 美元,價格並不算太高。
付費升級後 Kapwing Subtitles 將可支援檔案最大 6 GB、下載字幕檔、專案長度最多 2 小時、最高 4K 畫質輸出,也完全不會有任何浮水印!如果想為影片加入字幕的朋友可直接選擇 Kapwing,這項服務將能獲得最好的效果。
MacWhisper
MacWhisper 和前面提到的 Good Tape 一樣,都是使用 OpenAI 旗下的 Whisper 技術,它能將錄音檔或是影片檔案快速轉換為逐字稿(不過它是 Mac 應用程式,需要下載執行才能使用),無論是會議錄音、講座或是任何音訊檔都能透過 MacWhisper 快速準確地轉換為文字,支援超過 100 種語言。
MacWhisper Pro 依照授權數量計費,買越多越便宜,詳細差異可參考網站說明。
MacWhisper 適用於 MP3、WAV、M4A、MP4 和 MOV 格式,付費後還能直接貼上 YouTube 影片網址,亦可將轉換結果輸出為 SRT、VTT、TXT、CSV、DOCX 等各種格式,處理速度很快。
oTranscribe
oTranscribe 是早期推薦過一個輕鬆聽打逐字稿的免費網路服務,比較有趣的是它能直接在網頁中播放使用者選取的錄音檔(支援 MP3、WAV),不需要在播放器、編輯器間切換,而且也有暫停、倒帶、快轉等各種操作方式快速鍵,更重要的是使用 oTranscribe 不會讓任何檔案及逐字稿離開電腦,它就是一個純網頁、可離線使用的免費服務。
順帶一提,oTranscribe 還是一個開放原始碼專案,以 MIT 授權方式釋出。
Speechnotes
Speechnotes 是專業的語音識別文字編輯器,使用者只需要對著麥克風說話,就能即時辨識、轉換為純文字,對於在會議、課程或是採訪紀錄都派得上用場,Speechnotes 支援多種語言,包括最常用的英文,還有台灣使用的中文,以及中國大陸和香港的普通話或粵語,整合簡單、好用且安全的線上編輯器功能,完成後快速把檔案寄回自己的 Email 信箱、上傳到 Google Drive 或是儲存為 Word 和純文字格式。
Vocol.ai
Vocol.ai 是一家致力於自然語言模型、AI 技術的新創公司,主要提供的服務為自動語音轉文字工具,可在短時間內將使用者上傳的影片或錄音轉換為逐字稿,還可利用 AI 技術分析內容並產生摘要和主題,大幅度提高工作效率。
操作方式很簡單,直接把要轉換為逐字稿的影片或錄音檔上傳 Vocol.ai 就會開始分析、處理,支援多國語言,遇到外語時還能直接進行翻譯。
Whisper JAX
Whisper JAX 是 OpenAI 的 Whisper 模型最佳化實踐範例,它可將使用者的即時錄音、音訊檔或是 YouTube 線上快速辨識並轉換為純文字格式。Whisper JAX 在 JAX 上運作,相較於 A100 GPU 的 PyTorch 速度快了 70 倍以上!是目前最快的 Whisper API 技術。
Whisper JAX 是 Hugging Face 開發的工具,託管在 Hugging Face 平台做為範例,使用者可以免費使用,不過尖峰時間可能會需要排隊,整體來說速度快、準確性高,而且支援繁體中文在內等多國語言。
雅婷逐字稿
雅婷逐字稿是台灣人工智慧實驗室,協助使用者將錄音轉為文字格式,只需要將影片或音訊傳到雲端辨識、就不用手動打逐字稿,快速轉換為帶有時間碼的文字檔,支援台灣國語、台語、英語、日語、粵語甚至是國英語、國台語夾雜的情境,在處理錄音或是影片上更有效率,可節省超過 80% 聽打時間。
除此之外,雅婷逐字稿也有提供行動裝置適用的 iOS、Android 應用程式免費下載。
雅婷逐字稿還能夠幫 YouTube 直播影片加上字幕,或是透過上傳影片檔進行分析、轉換為文字,這項服務的計費方案也很清楚易懂,每小時價格 100 元、三小時 270 元,單次購買 10 小時只要 800 元,依照實際會使用到的轉換時數進行付費。
常見問題
這些自動轉換工具可以處理哪些語言?
當前的語音轉文字、影片轉文字或錄音檔轉文字工具大多使用 AI 技術,可精確處理包含英文、中文在內等多國語言,有些還能自行選擇或語言混搭以提高辨識率。
這些工具是否支援不同的音檔格式?
可以,除了支援常見的 MP3 音訊格式,服務還支援影片檔例如 MP4、WAV 。
自動轉文字的準確率如何?
不一定,依照原始音訊或影片的清晰度、背景雜訊而定。
是否有限制每個使用者的轉換次數或文件大小?
上述介紹的服務都有提供免費額度,可以在一定程度下進行試用,在這個情形下會存在限制,當付費後升級、獲取更多額度時就幾乎沒有使用上的限制。
可以將文字保存為哪種文件格式?
大部分都有支援 Word 或是純文字格式,部分還能輸出為字幕檔 SRT、VTT 等等。
總結
既然使用人工智慧 AI 技術就能完成許多工作,先將錄音或是影片經由自動化程式辨識、產生初步逐字稿,後續再透過人工校對就會節省很多時間,上述是我推薦很好用的免費逐字稿軟體,雖然有些可能需要付費來購買更多額度,大多數都能免費試用,有需要的朋友可以自行研究看看。