Whisper JAX 是 OpenAI 的 Whisper 模型最佳化實踐範例,它可將使用者的即時錄音、音訊檔或是 YouTube 線上快速辨識並轉換為純文字格式,也就是使用 AI 技術的影片聲音轉文字工具,支援繁體中文。這項服務使用 Whisper API 大家或許不陌生,我之前在「Good Tape 錄音轉逐字稿自動化工具,支援中文在內等多國語言」介紹的服務就是使用這項技術,如果你是 Mac 用戶還能嘗試另一個「MacWhisper」免費應用程式,這些工具都能將錄音或影片轉為文字逐字稿,另外也有加入時間戳記功能,在處理類似工作時可以大幅節省時間。
依照說明,Whisper JAX 在 JAX 上運作,後端為 TPU v4-8,相較於 A100 GPU 的 PyTorch 速度快了 70 倍以上!可說是目前最快的 Whisper API,我測試一段大約三分半的 YouTube 影片,轉換為文字逐字稿的過程只花費不到五秒,即使更長的錄音檔或影片依然能在相當短的時間內完成,而且準確度很高。
必要時還能搭配 ChatGPT 進行修改,例如將轉換的全文加入標點符號,這部分以 AI 進行操作又能省下可觀的時間,剩下的就只要校稿即可,若有需要也能選擇加入時間標記、翻譯其他語言。
Whisper JAX 是 Hugging Face 開發的工具,託管在 Hugging Face 平台做為範例,使用者可以免費使用,不過尖峰時間可能會需要排隊,排隊序列會顯示於示範頁面右上角,等待順位到了以後才會開始進行處理,如果不想要花時間等待也可以建立自己的 Inference Endpoints。
順帶一提,我之前也寫過另外一篇「免費逐字稿軟體:9 個自動將錄音檔、語音轉文字工具推薦」整理,有需要把錄音或是影片快速轉換為逐字稿、文字檔的話也可參考文章提及的服務或工具。
Whisper JAX
https://huggingface.co/spaces/sanchit-gandhi/whisper-jax
使用教學
STEP 1
開啟 Whisper JAX 範例頁面後從左上角可以看到三個選項:
- Microphone:使用麥克風即時錄音、轉換為逐字稿。
- Audio File:上傳錄音或音訊檔案轉換為文字檔。
- YouTube:直接貼上 YouTube 影片轉文字或帶有時間標籤的文字檔。
STEP 2
在這裡我使用 YouTube 做為範例,直接將 YouTube 影片網址貼上、任務選擇「transcribe」也就是錄製、直接把音訊轉逐字稿輸出。
建議可選擇「Return timestamps」回傳帶有時間戳記的文字檔,按下「Submit」就會開始處理,右邊會顯示進度。
STEP 3
完成後右側就會顯示從 YouTube 影片轉換的逐字稿文字(Transcription),點選右上角「複製」取得所有內容,若有勾選回傳時間戳記就會在每一段前面標示時間,對於要製作影片字幕也會很方便,最底下也會看到完成的時間,大概都在幾秒鐘就能辨識結束,非常有效率。
如果沒有勾選時間戳記,辨識出來的文字內容不會有標點符號,這時候我們可以把內文丟到 ChatGPT 並要求 AI 為以下文章加入適當的標點符號。
STEP 4
透過 ChatGPT 協助將轉換後的文字加入適當標點符號,雖然有些段落還是怪怪的,至少在校稿時會輕鬆一些,但仔細看在轉換時有部分的文字確實有同音、不同字的情形,依然要再次確認一下,不過整體來說準確度還是很高。
值得一試的三個理由:
- Whisper JAX 擁有絕佳的速度和辨識效率,三分半的影片轉為文字只需不到五秒
- 轉換文字準確度極高,可搭配 ChatGPT 進行自動標點符號的加入或翻譯
- 由 Hugging Face 開發,支援即時錄音、上傳音訊或匯入 YouTube