
TransPocket 是將影片、音訊檔案快速轉換為文字的免費線上工具,主要使用 OpenAI 的 Whisper 模型作為核心 AI 技術,不用付費訂閱就能使用,沒有任何隱藏費用,除此之外,也能將 YouTube 影片網址貼上,直接轉換為逐字稿,整體速度很快、準確度極高,支援十多種語言。
在開始使用 TransPocket 前必須先註冊一個帳號(免費)或是使用 Google 帳戶登入,本身有內建中文在內等多國語言介面,要注意的是這項服務每天僅提供 120 分鐘轉換用量,超過就要隔天才能繼續轉換,目前還沒有付費升級的選項。
這項服務特別適合需要打逐字稿的工作者使用,無論是將課堂內容錄音、轉換為文字稿,或是在開會時錄音後以文字輸出都很好用。如果你需要逐字稿相關的輔助工具,也能參考「免費逐字稿軟體:10 個將錄音檔、語音轉文字工具推薦」一文介紹的服務。
TransPocket 可辨識的檔案格式包括 MP3、M4A、WAV、AAC、FLAC、OGG、WMA、MP4、AMR、WebM、AIFF、CAF 等,也有即時錄製音訊、導入 YouTube 影片和翻譯功能。這項服務辨識準確性很高(依照說明平均錯誤字數為 5.8%),轉換後可匯出為 DOCX、CSV、SRT、VTT 等格式,有興趣可以試試看。
網站資訊
網站名稱:TransPocket
網站鏈結:https://transpocket.com/
使用教學
進入 TransPocket 後可以從網站首頁看到特色、功能介紹,這項服務背後使用的 AI 技術是 OpenAI Whisper 模型,點選「Start Free」開始使用。

使用前必須先註冊一個帳號(免費),也能使用 Google 帳戶登入。

登入後就會看到 TransPocket 控制台,右上角會有錄製音頻、上傳和導入三種主要匯入方式,左下角顯示今日使用量,每人每天可使用 120 分鐘辨識時數,超過後就要等待隔天重置才能繼續。

先從「上傳」功能開始吧!點選後會有拖曳、上傳檔案的欄位,支援 MP3、MP4、WAV、M4A 等格式,無論影片或音訊皆可辨識,預設會使用 Turbo 轉錄模型,特色是速度快、適合大多數情境,需要更準確的辨識模型可選擇 Large-v3 ,相較之下處理速度會慢一點,不過好處是準確度更高。
轉錄前先選擇目標語言、說話人數,如果上傳的內容不是中文,也能使用 TransPocket 將辨識的文字內容翻譯為中文,這部分非常方便好用,省去手動翻譯的時間。

如果知道要轉錄的音訊有幾個說話人數,在辨識前可先選擇,TransPocket 會自動辨識不同人的聲音,當然也可選擇「自動檢測」,不過就不會那麼精準,有時候也會誤將同一個人的聲音標記為不同人。

完成檔案上傳後點選右下角「開始轉錄」就會進行處理。

TransPocket 轉錄速度非常快,當狀態顯示為「已完成」後點選文件名稱就會看到結果。

辨識後若顯示為簡體中文,可以透過 Google 翻譯或是其他翻譯器將它轉為繁體中文。
逐字稿會有每個說話者的編號、時間軸、文字內容,點選還能快速跳轉到特定段落。

接著測試一下 TransPocket 從 YouTube 匯入影片的功能,在控制台首頁點選「導入」會看到畫面,將影片的鏈結複製、貼上,要注意的是影片必須要是公開權限,一樣可以選擇轉錄模型、語言和說話人數。

導入過程在 TransPocket 控制台首頁會看到進度,完成後點擊文件名稱就能看到內容。

其實 TransPocket 快速辨識後的內容並不一定 100% 準確,仔細看還是有一些問題,而且有些段落沒加入標點符號,還是必須要手動校稿,但也比從頭到尾自己聽打逐字稿要省時很多。

最後從右上角「匯出」即可將文字內容保存為 DOCX、TXT、CSV、SRT 或 VTT 格式。
