回覆列表
  • 1 # 何以笙丶丶

      我是帶著激動的心情寫這篇經驗的,因為困擾我很長時間的問題今天終於被解決:我成功提取了PDF文件中無法被複制的文字。首先,請大家仔細看下面兩張來自不同的PDF文件的截圖。

      在第一張圖所示的PDF文件中,文字文字都能夠被自由複製,我們遇到的部分PDF文件就是這種型別。

      然而,對第二張圖所示的PDF文件,我們只能閱讀它,無法複製其上的文字,這種文件有很多,今天,我們一起來看看提取這種文件的文字的方法。

      工具/原料

      計算機(帶網路連線)

      PDF-Xchange Viewer

      Microsoft Word 2007(Word 2003也可以)

      方法/步驟

      1

      2

      找到該項對應的“OCR AdditionalLanguagesCHI.ZIP”選項,左鍵單擊它,進入下載頁面。(如圖2)

      3

      END

      安裝OCR中文識別模組。

      1

      2

      3

      然後,我們耐心等待安裝完成。(如圖7)

      END

      應用OCR中文識別模組提取文字。

      開啟我們要識別並提取其文字的文件(用PDF-Xchange Viewer開啟),當前這些文字只能看,不能被複制(如圖8)。我們單擊選單欄的“文件”選項,選擇“識別頁面”選項。

      我們看到,OCR識別頁面正在進行。(如圖10)

      處理完成以後的頁面如圖11所示,我們驚喜地發現:這些原來不可被複制的文字已經可以被複制了!我們選取好想要複製的文字,單擊右鍵,複製即可。

      現在我們開啟Microsoft Word 2007,貼上剛才複製的文字。(如圖12)

      如圖13,我們看到,這些文字已經被成功提取,值得注意的是:原文件中的非中文字元可能出現複製錯誤的情況(當然,這是極個別現象),如圖中的某處錯誤,這裡本該英文字元“Signals”。

  • 中秋節和大豐收的關聯?
  • 取名字,姓董好聽的?