怎樣提取PDF文件中無法被複制的文字？

首頁>Club>2021-02-08 19:39

怎樣提取PDF文件中無法被複制的文字？

回覆列表

1 # 何以笙丶丶

　　我是帶著激動的心情寫這篇經驗的，因為困擾我很長時間的問題今天終於被解決：我成功提取了PDF文件中無法被複制的文字。首先，請大家仔細看下面兩張來自不同的PDF文件的截圖。

　　在第一張圖所示的PDF文件中，文字文字都能夠被自由複製，我們遇到的部分PDF文件就是這種型別。

　　然而，對第二張圖所示的PDF文件，我們只能閱讀它，無法複製其上的文字，這種文件有很多，今天，我們一起來看看提取這種文件的文字的方法。
　　工具/原料

　　計算機（帶網路連線）

　　PDF-Xchange Viewer

　　Microsoft Word 2007(Word 2003也可以)

　　方法/步驟

　　1

　　2

　　找到該項對應的“OCR AdditionalLanguagesCHI.ZIP”選項，左鍵單擊它，進入下載頁面。（如圖2）

　　3

　　END

　　安裝OCR中文識別模組。

　　1

　　2

　　3

　　然後，我們耐心等待安裝完成。（如圖7）

　　END

　　應用OCR中文識別模組提取文字。
　　開啟我們要識別並提取其文字的文件（用PDF-Xchange Viewer開啟），當前這些文字只能看，不能被複制（如圖8）。我們單擊選單欄的“文件”選項，選擇“識別頁面”選項。

　　我們看到，OCR識別頁面正在進行。（如圖10）

　　處理完成以後的頁面如圖11所示，我們驚喜地發現：這些原來不可被複制的文字已經可以被複制了！我們選取好想要複製的文字，單擊右鍵，複製即可。

　　現在我們開啟Microsoft Word 2007,貼上剛才複製的文字。（如圖12）

　　如圖13，我們看到，這些文字已經被成功提取，值得注意的是：原文件中的非中文字元可能出現複製錯誤的情況（當然，這是極個別現象），如圖中的某處錯誤，這裡本該英文字元“Signals”。

劇多

怎樣提取PDF文件中無法被複制的文字？

相關內容