所需工具:掃描器;word2007 、 Excel2007 ;尚書七號OCR 軟體。
1. 掃描表格。首先依次把表格掃描成TIF 影象檔案備用。掃描時300dpi 就可以,太高的話識別率反而下降,而且處理時間加長。檔名最好與頁數相關,這樣在查對起來時也更加方便。在預掃時確定掃描的邊界,沒有用的部分不用掃描,只選擇表格體就可以了。
2. 進行表格識別。現在輪到本次任務的主角尚書七號OCR 識別軟體登場了!我個人認為它的表格識別能力還是很強的。一般在買掃描器時附送,沒有的話可以到網上下載一個。在尚書七號軟體中,點“ 檔案→ 開啟影象” ,找到剛才掃描的表格影象。這時在右側影象區中單擊左鍵,選“ 編輯→ 旋轉影象→ 右轉90 度” 或按“ Ctrl+R ” 組合鍵,將影象擺正(這一步根據實際情況進行左旋還是右旋)。現在影象已擺正了,不過還有一些傾斜。這時點“ 編輯→ 自動傾斜校正” 或“ Ctrl+D ” 組合鍵對原稿進行傾斜校正。這一步驟非常重要,直接影響到表格識別率。下面進行表格的識別。點“ 識別→ 開始識別” (圖1 ),或按快捷鍵“ F8 ” ,幾秒種後識別結果已躍然螢幕上。圖1 尚書七號軟體下面對識別後的表格文字進行初步校正。一般懷疑有誤的地方,軟體用紅色表示出來。當滑鼠放上去時會有影象提示,方便進行校正。在刪改後表格線可能有所變動,不用管它。對於0 ~9 的識別錯誤,有的必須先行加以糾正,例如“ 3 ” 識別成“ :{ ” ,“ 7 ” 識別成“ / ” ;有的可以在Word 中用查詢替換的方法加以改正,比如,“ 0 ” 識別成字母“ O ” ,“ 1 ” 識別成字母“ l ” ,“ 5 ” 識別成字母“ s ” 。這樣,80% 的錯誤可以在這裡消滅。數字間有空格也不用管它,可以進行後期處理(圖2 )。 圖2 尚書七號軟體3. 在 Word 中進行糾錯並生成Excel 資料來源。將在尚書七號中識別出來的表格和文字複製、貼上到Word2007中(2000 及以上版本即可)。頁面不妨設定為橫向A3 紙,因為我們只是利用Word 進行糾錯並生成TXT 檔案,這樣貼上過來的表格才不致於折行。表頭部分不需要貼上。這時候再把非常明顯的錯誤手動糾正(別忘了時時存檔)。每張表格識別後都做以上處理,待所有表格都貼上過來以後,利用Word 的查詢、替換功能進行糾錯。具體操作如下:選擇製表符“ ┣ ” ,按“ Ctrl+C ” 組合鍵;點“ 編輯→ 替換” ,在“ 查詢內容” 文字框內按“ Ctrl+V ” 組合鍵,“ 替換為” 文字框內不填任何字元,點“ 全部替換” ,就消掉了所有的“ ┣ ” 符號。類似地,我們將“ ━ ” 、“ ╋ ” 、“ ┫ ” 都消掉。這樣做的目的就是將每行之間產生的表格線去掉。下面再用此功能,將“ .” 及“ 。” 替換成小數點“ . ” ,將字母“ O ” 、“ l ” 、“ s ” 分別替換成數字“ 0 ” 、“ 1 ” 、“ 5 ” ,再有把所有的空格也用這種方法去掉。“ ┃ ” 可以保留,也可以替換成英文的“ , ” 作為間隔符。這樣,表格就變成了下面的樣子:接著把這個檔案另存為純文字檔案。4. 資料匯入Excel 。開啟Excel 軟體,點“ 資料→ 匯入外部資料→ 匯入資料” ,“ 檔案型別” 選“ 文字檔案” ,找到剛才儲存的那個純文字檔案,點“ 開啟” 進入文字匯入嚮導(圖3 )。 圖3 文字匯入嚮導步驟1 中預設的“ 原始資料型別” 就是“ 分隔符號” ,直接點“ 下一步(N )” 。在步驟2 中,“ 分隔符號” 文字框中單擊左鍵,輸入英文符號“ , ” ,點“ 下一步(N )” 。步驟3 中,在“ 不匯入此列” 前收音機鈕上點左鍵,忽略
所需工具:掃描器;word2007 、 Excel2007 ;尚書七號OCR 軟體。
1. 掃描表格。首先依次把表格掃描成TIF 影象檔案備用。掃描時300dpi 就可以,太高的話識別率反而下降,而且處理時間加長。檔名最好與頁數相關,這樣在查對起來時也更加方便。在預掃時確定掃描的邊界,沒有用的部分不用掃描,只選擇表格體就可以了。
2. 進行表格識別。現在輪到本次任務的主角尚書七號OCR 識別軟體登場了!我個人認為它的表格識別能力還是很強的。一般在買掃描器時附送,沒有的話可以到網上下載一個。在尚書七號軟體中,點“ 檔案→ 開啟影象” ,找到剛才掃描的表格影象。這時在右側影象區中單擊左鍵,選“ 編輯→ 旋轉影象→ 右轉90 度” 或按“ Ctrl+R ” 組合鍵,將影象擺正(這一步根據實際情況進行左旋還是右旋)。現在影象已擺正了,不過還有一些傾斜。這時點“ 編輯→ 自動傾斜校正” 或“ Ctrl+D ” 組合鍵對原稿進行傾斜校正。這一步驟非常重要,直接影響到表格識別率。下面進行表格的識別。點“ 識別→ 開始識別” (圖1 ),或按快捷鍵“ F8 ” ,幾秒種後識別結果已躍然螢幕上。圖1 尚書七號軟體下面對識別後的表格文字進行初步校正。一般懷疑有誤的地方,軟體用紅色表示出來。當滑鼠放上去時會有影象提示,方便進行校正。在刪改後表格線可能有所變動,不用管它。對於0 ~9 的識別錯誤,有的必須先行加以糾正,例如“ 3 ” 識別成“ :{ ” ,“ 7 ” 識別成“ / ” ;有的可以在Word 中用查詢替換的方法加以改正,比如,“ 0 ” 識別成字母“ O ” ,“ 1 ” 識別成字母“ l ” ,“ 5 ” 識別成字母“ s ” 。這樣,80% 的錯誤可以在這裡消滅。數字間有空格也不用管它,可以進行後期處理(圖2 )。 圖2 尚書七號軟體3. 在 Word 中進行糾錯並生成Excel 資料來源。將在尚書七號中識別出來的表格和文字複製、貼上到Word2007中(2000 及以上版本即可)。頁面不妨設定為橫向A3 紙,因為我們只是利用Word 進行糾錯並生成TXT 檔案,這樣貼上過來的表格才不致於折行。表頭部分不需要貼上。這時候再把非常明顯的錯誤手動糾正(別忘了時時存檔)。每張表格識別後都做以上處理,待所有表格都貼上過來以後,利用Word 的查詢、替換功能進行糾錯。具體操作如下:選擇製表符“ ┣ ” ,按“ Ctrl+C ” 組合鍵;點“ 編輯→ 替換” ,在“ 查詢內容” 文字框內按“ Ctrl+V ” 組合鍵,“ 替換為” 文字框內不填任何字元,點“ 全部替換” ,就消掉了所有的“ ┣ ” 符號。類似地,我們將“ ━ ” 、“ ╋ ” 、“ ┫ ” 都消掉。這樣做的目的就是將每行之間產生的表格線去掉。下面再用此功能,將“ .” 及“ 。” 替換成小數點“ . ” ,將字母“ O ” 、“ l ” 、“ s ” 分別替換成數字“ 0 ” 、“ 1 ” 、“ 5 ” ,再有把所有的空格也用這種方法去掉。“ ┃ ” 可以保留,也可以替換成英文的“ , ” 作為間隔符。這樣,表格就變成了下面的樣子:接著把這個檔案另存為純文字檔案。4. 資料匯入Excel 。開啟Excel 軟體,點“ 資料→ 匯入外部資料→ 匯入資料” ,“ 檔案型別” 選“ 文字檔案” ,找到剛才儲存的那個純文字檔案,點“ 開啟” 進入文字匯入嚮導(圖3 )。 圖3 文字匯入嚮導步驟1 中預設的“ 原始資料型別” 就是“ 分隔符號” ,直接點“ 下一步(N )” 。在步驟2 中,“ 分隔符號” 文字框中單擊左鍵,輸入英文符號“ , ” ,點“ 下一步(N )” 。步驟3 中,在“ 不匯入此列” 前收音機鈕上點左鍵,忽略