轉檔轉換文件格式並不困難,例如將 PDF 轉 Word 或其他可編輯的格式,不過如果遇到已經是圖片的文字,無論怎麼轉都沒辦法編輯內容,這是很多朋友都曾經碰過的問題。那麼除了看著圖片自己重新手動打一篇,有沒有其他更快的方法呢?其實只要透過 OCR(光學字元識別)技術就能利用機器辨識圖片中的內文,再將內容轉為純文字格式輸出,而這類軟體或工具也很多,例如 Google Keep 內建 OCR 文字辨識功能可將圖片內容轉文字,或是更早之前介紹過的 Free Online OCR 免費線上字元識別服務。
本文要繼續推薦的是「NewOCR」,一款免費的線上文字辨識工具,特色是無須註冊或安裝軟體,沒有上傳限制,支援 122 種語言和字型,亦有同時辨識多種語言功能。這項服務使用 Tesseract OCR 引擎作為基礎,可自動分析頁面排版、選取 OCR 辨識的範圍等等,功能相當強大!
不僅如此,NewOCR 還支援掃描不良和拍照畫面,即使圖片解析度不夠高依然有機會正常辨識轉換,轉換後的文字可直接複製使用,或下載為 .txt
、.doc
或 .pdf
,實際使用 NewOCR 也確實能正常辨識英文、中文語系內容,英文部分辨識轉換正確率相當優異,中文的話可能得碰碰運氣了。
網站名稱:NewOCR
網站鏈結:https://www.newocr.com/
使用教學
STEP 1
開啟 NewOCR – Free Online OCR 網站,可以看到這項服務的主要功能,將 JPEG、PNG、GIF、BMP、TIFF、PDF、DjVu 等格式轉為文字內容,NewOCR 可以分析任何圖片中的文字部分,識別後轉為純文字,讓使用者可以快速複製、編輯或使用。
點選「Select Your File」瀏覽按鈕,選擇要上傳轉換的圖片或任何支援的格式。
STEP 2
分析的語言部分預設只有英文,如果你要分析的是中文內容,可以輸入 Chinese 找到繁體中文或簡體中文選項,若圖片的文字排版是採垂直排列,記得選擇語言後加上垂直的選項,識別方式不太一樣。
一般來說,中文內容裡可能會夾雜英文,也要將 English 加入分析語言中。NewOCR 可支援圖片中存在多種不同語系的語言。
STEP 3
上傳後需要一些時間處理分析,接著 NewOCR 會標示出掃描到的圖片範圍,以虛線框標示出來,如果位置不正確,可利用虛線框旁邊的點點調整位置。
將頁面往下拖曳就會看到 NewOCR 透過光學字元識別技術擷取、轉換出來的純文字,還能直接選取、複製,其實到這邊就已經完成大部分使用者的工作。
前面有提到 NewOCR 支援 122 種語言和字型(字型也會影響到機器能否正確辨識圖片中的文字),試著上傳一段中文英文夾雜的圖片,還是有不錯的辨識率,可惜和英文相較之下中文的出錯率明顯高很多。
STEP 4
點選下方「Download」可以選擇將辨識出來的文字轉為 .txt
、.doc
或 .pdf
格式,當然直接複製底下的文字內容、貼到你使用的軟體會更快更簡單。
值得一試的三個理由:
- 線上 OCR 工具免註冊、下載軟體就能使用,無上傳限制
- 支援 122 種語言和字型,可自動分析排版及選擇辨識範圍
- 可同時辨識多種不同的語言內容