-
1 # 原來一分鐘
-
2 # 迅捷影片轉換器
文字的OCR識別是使用者使用掃描器產品最常見的應用之一,目前幾乎所有的掃描器產品都附帶了OCR識別軟體。但我們在使用中發現,即使同一個OCR軟體識別正確率的差距也較大。實際上,OCR識別正確率不僅與OCR軟體本身有關,與使用方法的正確與否也有很大關係。根據筆者平時積累的經驗,做OCR識別應從以下幾個方面入手。這裡以MICROTEK掃描器配備的《尚書六號》OCR為例。
一、掃描操作及注意點
掃描器聯機
在確定 MICROTEK掃描器能夠在被“Scanner Test”找到的條件下執行《尚書六號》OCR軟體。然後點選“掃描”按扭。片刻之後,掃描器的控制窗口出現,在保證 “黑白兩值”300 dpi的條件下,進行影象預覽。以上步驟也可以透過MICROTEK掃描器上的“OCR快捷鍵”實現。目前,市場上的絕大部分MICOTEK掃描器都配備了方便使用者的快捷鍵。
放大預覽及調節影象的清晰度
為了達到最佳的識別效果,對輸入稿件在掃描時的最低要求是清晰。為此,我們可以透過“放大預覽”對文稿中的幾個文字進行取樣掃描,從而對影象的亮度進行更為細緻的調節。調節的工具是掃描器工具內的“閥值”。
以下是不同閥值下的掃描結果。調節到適當的閥值後,就可以選擇“掃描”按扭了。掃描的結果會傳遞到OCR軟體內,同時掃描器的控制視窗會自動消失。
二、辨識前所需的注意事項
當以上事項完成以後,我們所要做的就是在OCR軟體中的實際操作了。
注意文字的傾斜校正
由於OCR的辨識原理是採用字模的方式進行的,所以一定要注意稿件是否水平。具體實施過程中,可以採用影象傾斜校正按扭來解決。
對稿件進行識別的預先處理
由於原稿的情況差異萬千,所以我們在識別前,需做一些預先的處理。首先應該去除原稿中的雜點和影象。文稿中如含有影象,OCR是不能識別的,影象的存在,會影響OCR的文字切分。操作中,可使用“影象的塊擦拭”工具將文件中的影象去除,同時文稿中的一些雜點,也應儘量地去除。
針對文件中出現分欄的情況,建議您手動設定辨識範圍,最好不要採用“自動切分”,只有這樣才能保證辨識結果的連貫性。
採用適當的辨識方式
在具體的辨識中,還應注意您的稿件是橫排還是豎排,由此選擇正確的編排格式按扭,以保持對應。
目前的《尚書六號》OCR軟體為使用者提供了簡體、繁體、英文等不同的識別方式,其選擇是在視窗上的下拉選單,而非按扭選單。按扭中的簡體、繁體、ENGLISH是《尚書六號》在不同的作業系統上獲得正確顯示的顯示模式,千萬不要搞混。
確認以上的步驟後,此時就可按下“識別”按扭,識別完畢後,系統進入“文稿校對介面”。
三、文稿校對
通常而言,OCR對不能完全確定的文字,會顯示出蘭色,請使用者確認。但值得注意的是,在沒有提示出錯的地方,也有可能出錯,尤其是中文文字的英文單詞,OCR一般會將其做中文識別,錯誤率幾乎是百分之百。所以我們在校對時,可以先通讀一遍,以此提高文字校對的效果。
我們可以在此介面內,透過作業系統提供的文字輸入方法,新增您所需要的文字。
OCR提供選擇使用外部編輯器的功能,我們可以選擇WORD編輯器。
-
3 # 閃電小江江
圖片文字識別的話,我們通常需要藉助一樣工具,那就是閃電OCR圖片文字識別軟體,利用OCR識別技術,我們可以將圖片智慧識別,從而獲得文字資訊,完全不需要自己手動輸入文字,給我們工作生活帶來了很大的便利哦。下面我們來看看具體應該怎麼操作吧!
工具下載閃電OCR圖片文字識別軟體:https://www.callmysoft.com/ocr
具體的操作步驟如下:第一步,首先,我們開啟閃電OCR圖片文字識別軟體,在左側可以看到,軟體一共有四個功能識別,包括:PDF識別、圖片識別、票證識別、手寫識別。
第二步、我們選擇“圖片識別”,圖片格式的支援型別有:BMP、JPG、PNG等常見格式都是可以支援的哦。
第四步、新增圖片檔案之後,我們可以看到右下角,我們可以選擇識別的格式,在這裡我們選擇DOCX格式,也就是word文件格式。
我們來看看最後識別出來的效果吧,圖片文字已經轉成word文件格式了。如圖所示:
回覆列表
給你推薦幾個小工具,可以將網頁圖片中的文字識別出來。
然後上傳到圖片文字識別網站進行識別轉換
1.
ocr.wdku.net
可以直接上傳圖片,就能識別出圖中的文字了。
介面清晰友好,還支援轉換成pdf,word,txt等格式
另外還支援繁中,英語,日韓俄西等文字
2.
pdfdo.com/image-to-txt.aspx
跟上面那個網站一樣,使用方便,支援的圖片型別也很多
3.軟體
如果不想用線上的話,可以下載軟體進行識別
www.shipinzhuanhuan.cn/ocr3
使用簡單快速,支援多種格式和語言