Whisper JAX：影片聲音轉文字工具，支援繁體中文且速度超快

Whisper JAX 是 OpenAI 的 Whisper 模型最佳化實踐範例，它可將使用者的即時錄音、音訊檔或是 YouTube 線上快速辨識並轉換為純文字格式，也就是使用 AI 技術的影片聲音轉文字工具，支援繁體中文。這項服務使用 Whisper API 大家或許不陌生，我之前在「Good Tape 錄音轉逐字稿自動化工具，支援中文在內等多國語言」介紹的服務就是使用這項技術，如果你是 Mac 用戶還能嘗試另一個「MacWhisper」免費應用程式，這些工具都能將錄音或影片轉為文字逐字稿，另外也有加入時間戳記功能，在處理類似工作時可以大幅節省時間。

依照說明，Whisper JAX 在 JAX 上運作，後端為 TPU v4-8，相較於 A100 GPU 的 PyTorch 速度快了 70 倍以上！可說是目前最快的 Whisper API，我測試一段大約三分半的 YouTube 影片，轉換為文字逐字稿的過程只花費不到五秒，即使更長的錄音檔或影片依然能在相當短的時間內完成，而且準確度很高。

必要時還能搭配 ChatGPT 進行修改，例如將轉換的全文加入標點符號，這部分以 AI 進行操作又能省下可觀的時間，剩下的就只要校稿即可，若有需要也能選擇加入時間標記、翻譯其他語言。

Whisper JAX 是 Hugging Face 開發的工具，託管在 Hugging Face 平台做為範例，使用者可以免費使用，不過尖峰時間可能會需要排隊，排隊序列會顯示於示範頁面右上角，等待順位到了以後才會開始進行處理，如果不想要花時間等待也可以建立自己的 Inference Endpoints。

順帶一提，我之前也寫過另外一篇「免費逐字稿軟體：9 個自動將錄音檔、語音轉文字工具推薦」整理，有需要把錄音或是影片快速轉換為逐字稿、文字檔的話也可參考文章提及的服務或工具。

Whisper JAX
https://huggingface.co/spaces/sanchit-gandhi/whisper-jax