Cleanvoice AI 專業自動編輯錄音工具，音訊最佳化並輕鬆轉逐字稿

如果在錄音後發現音訊有些瑕疵，利用人工智慧 AI 技術能夠對其自動最佳化，Cleanvoice 在首頁就很明確標示「別再浪費時間去剪輯你的播客（Podcast）」，透過這項服務可以快速編輯錄音，包括移除無聲靜默的段落、猶豫、消除贅字、口吃或咂嘴聲、唾液等嘴部無意識發出的噪音，除此之外，也有清除背景噪音的消除器，讓錄音聽起來更具有專業感，使用自動混音功能修復揚聲器之間的音量、標準化和最佳化檔案大小，更棒的是還具有將錄音轉逐字稿功能，支援中文在內等多國語言（和之前介紹過的 Good Tape 功能相似）。

Cleanvoice AI 技術上非常強大，使用者只需要勾選要套用的自動編輯項目，將錄音上傳後就會自動處理，在開始前可試聽首頁提供的音訊編輯範例。Cleanvoice 借助於 AI 人工智慧、進行自動化編輯有助於節省時間，而且在剪輯、編輯錄音時更有效率，當然，這個工具可能無法達到 100% 完美，有些時候還是需要一些手動編輯（例如我遇到可能將某一段話誤認為是雜訊而被移除）。

Cleanvoice AI 提供的編輯功能在「Features」頁面可以找到，其他還有一些測試選項可能目前還不夠完善，但隨時間逐漸改善，有需要的朋友還是可以進去試試看。

在開始前先了解一下 Cleanvoice 服務計費方式，使用者在註冊後可先獲得免費 30 分鐘編輯額度，這個額度有助於我們先測試看看服務能不能滿足自己的需求，好處是不用輸入信用卡資訊，不用擔心可能會被預先刷卡收費。

額度用完就能選擇自己需要的方案，主要分為兩種計費方式：訂閱制、實支實付（Pay as you Go），前者對於有持續性使用需要的用戶來說價格上會相對划算，最低是每月 10 歐元可處理 10 小時的錄音長度，沒用完的額度可累積到下個月（最多三倍）；若偶爾才需要進行編輯像是一次性播客、錄音編輯，也可考慮另一種「用多少算多少」的方案，最低是每次 10 歐元可購買 5 小時額度，單價就會貴一些，餘額可保留最多兩年。

Cleanvoice AI
https://cleanvoice.ai/

使用教學

STEP 1

開啟 Cleanvoice AI 網站後點選「Try it out」先註冊一個帳號，註冊時需填入 Email、密碼即可登入控制台。

STEP 2

Cleanvoice 操作介面很簡單，首先，選擇使用者要編輯的錄音類型，主要分為「單音軌、多音軌」兩種選項，單音軌是當播客的人聲和音樂在單一檔案時就選這個；如果人聲和音樂是分為不同音軌的話就選擇後者，Cleanvoice 可同步編輯所有音軌音訊。

STEP 3

接著選擇編輯模式，預設為「Clean Everything!」讓 Cleanvoice 藉由所有功能來提升錄音效果，不過這項功能不會有混音和其他 BETA 選項，好處是最穩定、簡單，而且也不會進行任何設定，如果想搶先試用 Cleanvoice 還沒放出來的實驗功能記得選擇「Custom」自訂選項。

在自訂功能裡可以看到 Cleanvoice 自動化選項，包括：

Filler Words & Stuttering：移除「嗯」、「啊」和口吃等聲音。
Reduce Hesitation：移除打斷節奏的短暫停頓。
Mouth Sounds：移除咂嘴聲、唾液等嘴部發出的聲音。
Long Deadair：縮短長於 5 秒的靜默片段。
Remove Background Noise：移除背景噪音像是房間噪音、雜訊或外部噪音。
Ignore Music：不要移除音樂、也不要在有音樂的段落進行編輯。
Audio Mixing：調整揚聲器間的音量、標準化、最佳化檔案大小等等。
Transcribe Audio：轉錄音訊，將錄音檔轉為逐字稿（非常好用！）。
Mute Only：將編輯的段落以靜音取代刪除，更有助於和影片同步。
Breath Silencer：消除字詞間的呼吸或換氣聲。
Customize File Format：自訂要匯出的音訊格式，預設和原檔案相同。

標示為 BETA 項目表示是實驗功能，可能無法提供很完美的效果，使用者可視情況需要選用。

STEP 4

選取編輯模式後就會來到最後一個步驟，將錄音檔案拖曳、上傳到 Cleanvoice，這項服務支援 .wav、.mp3、.m4c 或 .flac 格式，單檔最大 1.5GB，也能透過超連結、Dropbox 匯入檔案，要注意的是如果你想要上傳不同的播客、錄音檔案，記得要分開分次進行。

左上角會顯示目前剩餘的額度，註冊後就能免費獲取 30 分鐘，不足也能點選右上角「Buy Credits」購買額度。

依照說明，每一小時的錄音可能需要 10-15 分鐘處理，如果看到如下畫面可以放心將網頁關閉離開，等待完成時會透過 Email 通知使用者，依照我的經驗通常不會需要太多時間，有勾選「Transcribe Audio」將錄音轉為逐字稿的功能可能會需要長一點的處理和等待過程。

STEP 5

完成後 Cleanvoice 會顯示下載鏈結，點選「Download Audio」就能下載最佳化後的錄音檔，下方還會顯示檢測到已移除的字詞、口吃、靜默或是咂嘴聲、唾液等嘴部發出噪音的數量。

STEP 6

想知道 Cleanvoice 對錄音的那些段落進行處理，網站也提供相關記錄匯出，點選「Export Options」將相關選項記錄匯出成多種不同格式。

資料看起來就像下面的格式，會列出在哪個開始、結束時間偵測到的問題，當然這會依照使用者選擇的最佳化選項而有不同的結果，例如可能還加入其他實驗項目，也會在記錄中顯示，這對於要判斷經由 AI 處理前後的錄音檔來說也很有幫助，至少使用者能知道那個時間點有被 AI 介入編輯過。

STEP 7

前面提到 Cleanvoice 有個實驗功能「Transcribe Audio」是將錄音檔轉為逐字稿，若你想使用這個功能，記得在選擇自動化選項時選取「Custom」然後勾選將音訊轉換為逐字稿，如此一來在處理完成後就會有逐字稿，雖然在中文方面可能會出現不少錯別字（例如將「台風」轉譯為「颱風」），需要自行逐字校稿，但至少已完成基本的繕打工作。

點選「Export」可將字幕檔輸出為各種格式，包括純文字、.srt、.vtt、.itt、.ttml 等等。