回覆列表
-
1 # AI瘋狂進階
-
2 # 使用者3754237304733
OCR是光學字元識別的英文簡稱。OCR透過光學手段把影象上的文字輪廓描畫出來,然後與標準字型檔的文字進行對比,然後輸出辨別後認為正確和不正確的文字供你編輯。
OCR引擎大概有兩種:一是標準字型檔有各種各樣的字型檔案,對比時要辨別不同的字型,這種OCR速度比較慢,正確率較高。二是標準字型檔是取各種字型的“平均值”,比如漢字,只要是“橫平”就識別為一橫,而不管粗細和細微的字型不同。這種OCR速度快,但誤位元速率較高。
我這樣說會比較抽象一點,你可以去下載雲脈身份證識別或者雲脈文件識別軟體試試就瞭解了
ocr演算法目前主要分為文字檢測和識別演算法,基本已經被深度學習所統治,文字檢測主要目標是把文字的外包框檢測出來,目前演算法主要有EAST,PIXELLINK,maskrcnn等等,文字識別目前主流是文字行識別,比如crnn等演算法。ocr目前算是比較成熟的AI演算法,應用場景很多,但是通常場景類的文字識別仍然是難點。如果你對AI感興趣,可以關注我。