1)先介紹一下傳統的影象形態學是什麼,讓大家有一個感性的認識。影象形態學的數學基本思想是,使用具有一定形態的結構元素,去度量和提取影象中的對應形狀,如邊界、骨架、突出部分等,以達到對影象進行分析和識別的目的。基本的操作有:膨脹,腐蝕,canny操作,分水嶺演算法等。下面我來舉個栗子(*^▽^*)。比如:我之前做過一個課題:自然語言處理---將字元從自然背景下提取出來(就是把字母從圖片中摳出來)。期初當然是想到用影象形態學來做了啦。利用膨脹和腐蝕如圖:
能夠簡單的將一些背景雜項和噪音點去除,再經過二值化處理只留下文字,感覺還不錯哦。。但是,這對於簡單情況還可以,真正到自然場景下就不好搞了。例如這樣:
這種情況簡直是“爆炸”,有植物,有建築物,字還是斜的。。。顏色五顏六色。這種情況困擾了科學家很久,直到深度學習和深度神經網路的提出,比如CNN卷積神經網路。RCNN,fast-rcnn、faster-rcnn等目標等目標檢測的深度學習技術提出後,問題才得到了較好的解決。
可以看到這些基於深度學習的影象檢測技術對各種物體(不僅僅是文字)包括人在內的各種物體都有很好地檢測識別率。
2)從傳統的影象形態學到深度學習的飛躍到底是什麼?
對於這個問題現在大家的意見是比較一致的,那就是特徵的選擇問題。傳統的影象形態學特徵選擇是人工定義的,例如定義短寬的畫素是和畫素差值才算作是物體的邊界;針對一副圖片設定多大的閾值才可以比較好的去除背景雜音只留下文字。等等。因此對於複雜自然背景的圖片,使用人工去逐一確定各種引數,提取形態各異的影象特徵,是不現實的---專業叫缺乏魯棒性或健壯性,有時甚至是定義不出來的。例如人臉識別,人工很難去用數字或公式去定義兩張影象的人臉是不是同一人。於是就要藉助於深度學習技術了,深度學習對事物特徵的提取是一種“隱式”的定義,這種隱式特徵的定義是由不斷學習而得來的。神經網路結構複雜,引數眾多因此可以擬合出比較複雜的特徵。這就像我們人類的學習過程,從小我們就在生活中不斷的學習,當我們見過無數的影像,逐漸能分辨出人,桌椅板凳,小動物等等,例如我們能分辨出狗狗和貓咪,很熟練以至於一眼就能分辨出來,但問我們為什麼狗是狗,貓咪是貓咪,分辨的公式或引數是什麼,我們很難回答,這就是隱式的特徵(於此對應的是顯式的定義,例如:同一平面內,永不相交的兩條直線稱為平行線)。
這就讓影象形態學插上了騰飛的翅膀,再也不用人工去定義一些引數,閾值了。因為深度學習的強大擬合能力可以讓人工神經網路自己去學習這些物體的特徵,還能學的不錯~~。能讓計算機也學會分辨“狗”是“狗”並一眼就認出來,而不用人工去費力氣的定義狗的特徵:“四條腿”,“有尾巴”,“旺旺叫~”,“可愛~”等等。
1)先介紹一下傳統的影象形態學是什麼,讓大家有一個感性的認識。影象形態學的數學基本思想是,使用具有一定形態的結構元素,去度量和提取影象中的對應形狀,如邊界、骨架、突出部分等,以達到對影象進行分析和識別的目的。基本的操作有:膨脹,腐蝕,canny操作,分水嶺演算法等。下面我來舉個栗子(*^▽^*)。比如:我之前做過一個課題:自然語言處理---將字元從自然背景下提取出來(就是把字母從圖片中摳出來)。期初當然是想到用影象形態學來做了啦。利用膨脹和腐蝕如圖:
能夠簡單的將一些背景雜項和噪音點去除,再經過二值化處理只留下文字,感覺還不錯哦。。但是,這對於簡單情況還可以,真正到自然場景下就不好搞了。例如這樣:
這種情況簡直是“爆炸”,有植物,有建築物,字還是斜的。。。顏色五顏六色。這種情況困擾了科學家很久,直到深度學習和深度神經網路的提出,比如CNN卷積神經網路。RCNN,fast-rcnn、faster-rcnn等目標等目標檢測的深度學習技術提出後,問題才得到了較好的解決。
可以看到這些基於深度學習的影象檢測技術對各種物體(不僅僅是文字)包括人在內的各種物體都有很好地檢測識別率。
2)從傳統的影象形態學到深度學習的飛躍到底是什麼?
對於這個問題現在大家的意見是比較一致的,那就是特徵的選擇問題。傳統的影象形態學特徵選擇是人工定義的,例如定義短寬的畫素是和畫素差值才算作是物體的邊界;針對一副圖片設定多大的閾值才可以比較好的去除背景雜音只留下文字。等等。因此對於複雜自然背景的圖片,使用人工去逐一確定各種引數,提取形態各異的影象特徵,是不現實的---專業叫缺乏魯棒性或健壯性,有時甚至是定義不出來的。例如人臉識別,人工很難去用數字或公式去定義兩張影象的人臉是不是同一人。於是就要藉助於深度學習技術了,深度學習對事物特徵的提取是一種“隱式”的定義,這種隱式特徵的定義是由不斷學習而得來的。神經網路結構複雜,引數眾多因此可以擬合出比較複雜的特徵。這就像我們人類的學習過程,從小我們就在生活中不斷的學習,當我們見過無數的影像,逐漸能分辨出人,桌椅板凳,小動物等等,例如我們能分辨出狗狗和貓咪,很熟練以至於一眼就能分辨出來,但問我們為什麼狗是狗,貓咪是貓咪,分辨的公式或引數是什麼,我們很難回答,這就是隱式的特徵(於此對應的是顯式的定義,例如:同一平面內,永不相交的兩條直線稱為平行線)。
這就讓影象形態學插上了騰飛的翅膀,再也不用人工去定義一些引數,閾值了。因為深度學習的強大擬合能力可以讓人工神經網路自己去學習這些物體的特徵,還能學的不錯~~。能讓計算機也學會分辨“狗”是“狗”並一眼就認出來,而不用人工去費力氣的定義狗的特徵:“四條腿”,“有尾巴”,“旺旺叫~”,“可愛~”等等。