什麼是Hough變換？

首頁>Club>2021-01-29 05:48

什麼是Hough變換？

5

回覆列表

1 # 還在手機

一般OCR套路是這樣的

1.先檢測和提取Text region.

2.接著利用radon hough變換等方法進行文字校正。

3.透過投影直方圖分割出單行的文字的圖片。

最後是對單行的OCR

對單行的OCR主要由兩種思想

第一種是需要分割字元(segmentation based method)的。
分割字元的方法也比較多，用的最多的是基於投影直方圖極值點作為候選分割點並使用分類器+beam search 搜尋最佳分割點。具體可以參考tesseract 的 presentation.

搜尋到分割點之後對於單個字元，傳統的就是特徵工程+分類器。一般流程是灰度 -> 二值化->矯正影象 -> 提取特徵(方法多種多樣例如pca lbp 等等) ->分類器(分類器大致有SVM ANN KNN等等 )。

現在的 CNN（卷積神經網路）可以很大程度上免去特徵工程。

第二種是無需分割字元(segmentation free method)的

對於短長度的可以使用mutli-label classification 。比如像車牌，驗證碼,不過提前需要預測長度。車牌識別中的不分割字元的端到端(End-to-End)識別
google做街景門牌號識別就是用的這種方法。

要是長度很長的話呢，就得用CTC模型了. ctc loss 能自動對其標籤而不需要標註資訊。

另外主要注意的一點是CTC不一定要配合RNN才能work.純CNN也能做時序任務，只是時序依賴沒有RNN強而已。

相關內容

如何用hough變換方法檢測影象中的圓？

∧ 中秋節和大豐收的關聯？

∨ 早孕期間可不可以拔牙？

熱門排行