尚書7號
在工作中常需要識別文字,感覺尚書七號效果不錯的.雖然使用方法很簡單,但是工作量較大的時候,注意一點技巧,工作效率還是會提高的,我自己走了不少彎路,寫出來和大家分享.個人表達能力有限,偏差之處,還望海涵。
基本使用方法:
1、開啟尚書七號,選擇開啟圖象。(我用的版本可以識別的格式有bmp、tif、jpg)
2、選擇開始識別或按F8。識別結果將顯示在視窗上部,下部顯示版面分析結果。其中紅線為可識別部分,綠線為不可識別。
3、選擇輸出--到指定格式檔案,將識別結果儲存為需要的格式。
識別前應注意的問題:
1、圖片質量。批次識別時,首先應確保要識別的圖片質量。如不能識別還需要重新處理,甚至會導致軟體死掉,浪費時間。我本人就曾深受其苦。圖片解析度應稍高,肉眼看感覺偏大,因為識別工具是有點近視的,文字和底色對比要求不高,通常來說,肉眼能看清楚即可,底色發灰或發黑基本不會影響識別結果。
2、避免有不規則形狀(圖片)出現。識別工具在進行版面分析時,只能採用方形切割,當圖片中存在文字環繞不規則形狀時,則無法將文字和該形狀劃分開,則將出現錯誤或無法識別。此時,較快的辦法是在PS中,吸取該圖片附近的頁面底色,用粗畫筆將該區域塗上,不必講求效果,顏色沒有太大差別即可,重新儲存圖片。
3、避免圖象傾斜。尚書七號中也有自動傾斜校正和手動傾斜校正工具,但即使經過校正,識別率還是低很多。如果是拍攝的書本,可能會產生一定弧度,此時保證行的兩端對齊即可。另外在拍攝時應避免高光等會使圖象各部分亮度反差大的情況。
書本轉換(掃描、拍攝)技巧
1、可以將書攤平,一次將兩邊都掃描或拍攝下來,節省時間。處理圖片時不必剪開,這時要用到尚書七號的分欄工具了。直接用滑鼠在開啟的圖象上拖拽,可出現選框,分成左右兩個分欄,分欄左上角的編號就是識別結果的排列順序。它會將自動按照編號順序將所有分欄的內容連線在一起。
2、手動分欄可解決部分圖象無法識別的問題。在進行識別後,可以看到版面分析結果,有時候由於圖象質量原因,自動分析出的有效版面只是很小的一部分。此時可以按ctrl+del取消版面分析結果,用滑鼠拖拽,劃定需要識別的範圍,重新進行識別。當圖片質量問題不大時,這個辦法有效。
有時候(尤其是拍攝所得圖片),文字扭曲嚴重,即使用PS也無法調整好。可嘗試手動分欄,多劃分幾欄,每一欄包含一行或少數幾行文字,這樣對於每個分欄來說,它所包含的範圍內誤差度相對減小,可提高識別率。
3、使用批次識別功能。尚書七號可以一次性識別大量圖片。但在實際應用中,依次識別不宜過多,便於隨時檢查識別結果,發現錯誤及時修正。
4、批次識別圖象時,儲存檔案也要花費大量時間。事實上,尚書七號在識別檔案的同時,會在圖片所在資料夾生成文字文件,名稱與圖片名稱相同。因此,如果不是特別需要,可以不必再儲存輸出結果。
如所識別內容屬於一部分,可以將左側的圖象列表全選(ctrl+A),再選擇“輸出--到指定格式檔案”,則當前所有識別內容按照圖片排列順序儲存在一個檔案中。
我使用的尚書七號不能記憶儲存路徑,每次選擇儲存時,都會預設開啟程式安裝目錄下的“outout”資料夾,不必每次都選擇路徑,可以先儲存在這裡,然後一起轉移檔案。
5、如果想保留檔案中的圖片,在輸出結果時選用RTF格式,再用word開啟,可以看到格式完全正確的文字和圖片了。
6、用書本的頁碼給檔案命名是明智的選擇。我曾經用內容摘要命名,自以為清晰明瞭,結果在最後修正錯誤字元時悔恨交加。
7、當一個圖象完全無法識別時,可稍稍增加亮度或對比度,有時候只差那麼一點點,它也不給你工作。
8、分欄的幾個型別。當單擊一個分欄時,工具欄中會相應分欄型別的按紐會按下。分欄有橫欄(橫排文字)、豎欄(豎排文字)、圖片、表格等幾個型別,一般情況下可以自動識別型別,但手動分欄時一定要選擇相應的型別,以提高識別率。
以上問題針對拍攝情況而言,掃描的話相信會減少問題,如果能拆書的話,最好還是拆吧。
尚書7號
在工作中常需要識別文字,感覺尚書七號效果不錯的.雖然使用方法很簡單,但是工作量較大的時候,注意一點技巧,工作效率還是會提高的,我自己走了不少彎路,寫出來和大家分享.個人表達能力有限,偏差之處,還望海涵。
基本使用方法:
1、開啟尚書七號,選擇開啟圖象。(我用的版本可以識別的格式有bmp、tif、jpg)
2、選擇開始識別或按F8。識別結果將顯示在視窗上部,下部顯示版面分析結果。其中紅線為可識別部分,綠線為不可識別。
3、選擇輸出--到指定格式檔案,將識別結果儲存為需要的格式。
識別前應注意的問題:
1、圖片質量。批次識別時,首先應確保要識別的圖片質量。如不能識別還需要重新處理,甚至會導致軟體死掉,浪費時間。我本人就曾深受其苦。圖片解析度應稍高,肉眼看感覺偏大,因為識別工具是有點近視的,文字和底色對比要求不高,通常來說,肉眼能看清楚即可,底色發灰或發黑基本不會影響識別結果。
2、避免有不規則形狀(圖片)出現。識別工具在進行版面分析時,只能採用方形切割,當圖片中存在文字環繞不規則形狀時,則無法將文字和該形狀劃分開,則將出現錯誤或無法識別。此時,較快的辦法是在PS中,吸取該圖片附近的頁面底色,用粗畫筆將該區域塗上,不必講求效果,顏色沒有太大差別即可,重新儲存圖片。
3、避免圖象傾斜。尚書七號中也有自動傾斜校正和手動傾斜校正工具,但即使經過校正,識別率還是低很多。如果是拍攝的書本,可能會產生一定弧度,此時保證行的兩端對齊即可。另外在拍攝時應避免高光等會使圖象各部分亮度反差大的情況。
書本轉換(掃描、拍攝)技巧
1、可以將書攤平,一次將兩邊都掃描或拍攝下來,節省時間。處理圖片時不必剪開,這時要用到尚書七號的分欄工具了。直接用滑鼠在開啟的圖象上拖拽,可出現選框,分成左右兩個分欄,分欄左上角的編號就是識別結果的排列順序。它會將自動按照編號順序將所有分欄的內容連線在一起。
2、手動分欄可解決部分圖象無法識別的問題。在進行識別後,可以看到版面分析結果,有時候由於圖象質量原因,自動分析出的有效版面只是很小的一部分。此時可以按ctrl+del取消版面分析結果,用滑鼠拖拽,劃定需要識別的範圍,重新進行識別。當圖片質量問題不大時,這個辦法有效。
有時候(尤其是拍攝所得圖片),文字扭曲嚴重,即使用PS也無法調整好。可嘗試手動分欄,多劃分幾欄,每一欄包含一行或少數幾行文字,這樣對於每個分欄來說,它所包含的範圍內誤差度相對減小,可提高識別率。
3、使用批次識別功能。尚書七號可以一次性識別大量圖片。但在實際應用中,依次識別不宜過多,便於隨時檢查識別結果,發現錯誤及時修正。
4、批次識別圖象時,儲存檔案也要花費大量時間。事實上,尚書七號在識別檔案的同時,會在圖片所在資料夾生成文字文件,名稱與圖片名稱相同。因此,如果不是特別需要,可以不必再儲存輸出結果。
如所識別內容屬於一部分,可以將左側的圖象列表全選(ctrl+A),再選擇“輸出--到指定格式檔案”,則當前所有識別內容按照圖片排列順序儲存在一個檔案中。
我使用的尚書七號不能記憶儲存路徑,每次選擇儲存時,都會預設開啟程式安裝目錄下的“outout”資料夾,不必每次都選擇路徑,可以先儲存在這裡,然後一起轉移檔案。
5、如果想保留檔案中的圖片,在輸出結果時選用RTF格式,再用word開啟,可以看到格式完全正確的文字和圖片了。
6、用書本的頁碼給檔案命名是明智的選擇。我曾經用內容摘要命名,自以為清晰明瞭,結果在最後修正錯誤字元時悔恨交加。
7、當一個圖象完全無法識別時,可稍稍增加亮度或對比度,有時候只差那麼一點點,它也不給你工作。
8、分欄的幾個型別。當單擊一個分欄時,工具欄中會相應分欄型別的按紐會按下。分欄有橫欄(橫排文字)、豎欄(豎排文字)、圖片、表格等幾個型別,一般情況下可以自動識別型別,但手動分欄時一定要選擇相應的型別,以提高識別率。
以上問題針對拍攝情況而言,掃描的話相信會減少問題,如果能拆書的話,最好還是拆吧。