經常會被問到的兩個辦公室常見問題:要如何把錄音(語音)轉為文字輸出?怎麼複製圖片裡的文字內容呢?其實這些問題都牽涉到辨識技術,只是一個是語音辨識,另一個就是很常聽到的「光學字元識別」(Optical Character Recognition,簡稱 OCR)。剛好近期有介紹過幾個很厲害的服務,如果你想把錄音轉成文字輸出,可試試看 SwiftScribe,支援中文,相當準確;若是針對圖片或影片裡的文字內容,Project Naptha 和 Copyfish 兩款 Google Chrome 外掛完全免費而且很好用。
本文要推薦的「Free Online OCR」是一款免費的線上光學字元辨識服務,如果你要把掃描的 PDF 文件或圖片(JPG、PNG、BMP、TIFF 或 GIF)內文字輸出成 Word、Excel 或可編輯的純文字格式這項服務可以幫你解決。因為是線上工具,使用者不用額外下載或安裝任何軟體,Windows、MacOS 甚至是手機都能使用,你需要做的就是把圖片或檔案上傳上去,即可快速轉為文字。
Free Online OCR 支援 46 種語言,除了英文外,也支援中文、日文及韓文(完整語言列表),適用的格式有 PDF、TIF/TIFF、JPEG/JPG、BMP、PCX、PNG、GIF,根據網站說明,圖片品質是影響到辨識準確度的最重要因素之一,圖片解析度 200-400 DPI 可獲得最佳效果。
根據我的測試,Free Online OCR 對於英文的辨識效果最好,中文的話可能是我的圖片品質不高,辨識效果不是非常精確,但確實可以判斷中文內容(其他語言我就沒測試了),如果你正好需要免費 OCR 工具的話,或許可以試試看這款免費服務。
網站名稱:Free Online OCR
網站鏈結:https://www.onlineocr.net/
使用教學
STEP 1
開啟 Free Online OCR 服務,點擊步驟一的「Select File」按鈕選取要上傳辨識的 PDF 或圖片,未註冊情況下只能上傳單檔 5 MB 以下(註冊後可提高至 200 MB,稍後說明)。
STEP 2
接著從步驟二來選取該文件或圖片的語系,如果是繁體中文請選擇「CHINESETRADITIONAL」,這裡全部都是以英文標示,不清楚的話就先 Google 或翻譯一下,記得要挑選正確否則無法辨識。
預設匯出格式有 Word(.docx)、Excel(.xlsx)和純文字(.txt),註冊後可選擇 .doc、.xls、.pdf 和 .rtf 額外三種,不過通常只要能把文字成功辨識轉換出來就不簡單了,其實什麼格式應該都沒關係,反正最後自己編輯一下即可。
在開始轉換前,請記得輸入底下的驗證碼,確認你不是機器人,再按下「Convert」轉換!
STEP 3
下圖就是我隨意丟一張網頁擷圖給 Free Online OCR 辨識的結果,可以看到英文部分其實辨識度相當高且準確,如果你選擇的是匯出為純文字,會直接顯示於網頁下方,也可點擊「Download Output File」來下載匯出檔案。
下圖是另一張中文的畫面,轉換後有很多字的辨識都出現錯誤,不過也不能因此就說 Online OCR 不夠好用,畢竟圖片上文字的字型、顏色、大小都會對辨識結果有所影響,可以的話盡量轉成白底黑字在辨識上可能會更為準確。
STEP 4
如果你以一般模式進行辨識、轉檔,Online OCR 會詢問你是否要免費註冊會員,以享受更多功能,依照說明,註冊後可以使用的包括:一次轉換多頁 PDF、更大的圖片檔案及 ZIP 壓縮檔,並且可以轉換為更多格式。此外,還有轉換為黑白頁面及合併檔案至多個頁面的功能。
註冊後登入帳戶,轉換工具跟沒註冊的樣式不太一樣,看起來會像下面這樣。一樣是選擇 OCR 辨識語系(原始文件語系)、輸出格式,選擇要辨識轉換的檔案,最後按下「Convert」就完成了。
不過要注意的是 Online OCR 只有提供免費用戶 25 頁的額度,如要一次轉換更多頁面必須付費購買額度,不同頁數價格也不一樣,最少 50 頁 $4.95 至最多 10000 頁都可加購,頁數越多單價也越低。這也是 Online OCR 繼續維持營運的方式,如果你要辨識的頁數很多,而且多半都是英文的話,我建議可以付費購買一下,相信可以快速解決你當前的問題。
值得一試的三個理由:
- 支援 46 種語言,除了英文外也支援中文、日文及韓文
- 跨平台 Windows、macOS 皆可使用,無需額外安裝任何 OCR 軟體
- 可轉為 Word、Excel 或純文字等可編輯格式