Buzz 免費開源語音辨識工具,將錄音或影片快速轉為純文字、字幕檔

Buzz 免費開源語音辨識工具,將錄音或影片快速轉為純文字、字幕檔
Copyright: lenetsnikolai / 123rf stock photos

如果要將錄音、影片內容轉為文字檔案,以往要透過人工方式手動繕打逐字稿,不但很耗費時間,也可能會出現不少錯誤,現在透過人工智慧 AI 技術可以使用機器進行聲音辨識,幾秒鐘時間就能完成轉換,對於製作影片字幕來說也會很有幫助,之前整理過「免費逐字稿軟體:10 個將錄音檔、語音轉文字工具推薦」收錄很多辨識工具,大部分可在有限制的情況下免費使用,其中 Vocol.ai雅婷逐字稿都是台灣公司,對中文內容甚至台語都有相當好的辨識效果。

本文要介紹「Buzz」是一個開放原始碼工具,可以在使用者的電腦上進行離線的語音辨識、轉錄和翻譯工作,背後的技術為 OpenAI 旗下 Whisper 技術,和之前介紹過的 MacWhisperWhisper JAX 相同,利用麥克風輸入聲音並快速轉換成純文字(也能加上時間戳記),或是匯入音訊檔、影片檔再使用預先選擇的模型進行辨識轉換,此外,還內建翻譯功能,遇到外文時可以即時轉錄、翻譯為中文或特定語言輸出。

Buzz 支援 Mac、Windows 和 Linux 三大作業系統,可匯入音訊或影片檔案、並將文字記錄匯出為 TXT、SRT 和 VTT 三種格式,支援的模型包括 Whisper、Whisper.cpp、Faster Whisper、相容 Whisper 的 Hugging Face 模型和 OpenAI Whisper API 。

Buzz
https://chidiwilliams.github.io/buzz/docsGitHub

使用教學

開啟 Buzz 的 GitHub 頁面後點選「Releases」,從最新版本下方找到要下載的版本,提供 Windows、Mac 和 Linux 適用的安裝程式。

Buzz

Windows 就照著一般安裝方式執行安裝,Mac 則是將 Buzz 拖曳到應用程式資料夾。

Buzz

如果要使用麥克風錄音、收音,即時辨識並轉換為文字稿,點選左上角「Record」錄音按鈕。

Buzz

預設使用的模型為 Whisper、資料庫 Tiny ,進行的方式是轉錄(transcribe)也就是將聲音轉為純文字,若有需要將內容翻譯成其他語言可在這裡切換為「translate」,語言部分預設為自動偵測、選擇要輸入聲音的裝置後點選右上角錄音就會開始轉錄、識別並轉換為文字檔。

Buzz

第一次使用時 Buzz 會先下載語言模型相關檔案,有些容量較大,會需要一段時間取得資料,這些資料就適用於稍後讓軟體可以辨識語音內容,同時將它們轉換為文字格式,Whisper 技術能夠辨識超過 100 種語言,準確度高而且幾乎沒有使用限制。

Buzz

另一個轉錄方式是匯入媒體檔案,點選上方選單後就會有「Import Media File」匯入媒體檔案,在這裡可選擇音訊或影片,丟進去 Buzz 進行聲音的辨識,將內容轉換為文字或是字幕檔。

Buzz

在匯入後一樣能選擇使用的語言模型、任務內容、語言,下方選擇要匯出的檔案格式:TXT、SRT 或 VTT。

Buzz

點選執行後 Buzz 就會開始進行轉錄,完成後就能順利取得文字檔,雖然結果不一定 100% 正確,但可以節省使用者相當多的時間。

Buzz

值得一試的三個理由:

  1. 不僅提供離線語音辨識、轉錄,還整合翻譯功能,能即時轉錄並翻譯成多種語言
  2. 開放原始碼軟體,支援包括 Mac、Windows 和 Linux 在內的主要操作系統
  3. 以麥克風輸入或選取音訊、影片檔,支援多種輸出格式(TXT、SRT、VTT)
分享本文