傳統的基於模板的目標檢測方法一般學習一個線性分類器(濾波器),檢測的時候對(特徵)影象進行一次濾波,把得分高的那些位置找出來,認為就是目標。在檢測行人的時候,有的就是對整個人學一個分類器,有的是隻學習人臉分類器,然後有人想把兩個一起用,可以互相印證,減少漏檢並降低虛警。那問題來了,怎樣把多個分類器一起用呢? 直觀地,我們可以分別用兩個分類器去檢測影象,然後綜合分析各自檢測結果;但是實踐告訴我,兩個弱分類器之和不如一個強分類器!因此有人就在訓練時把人的特徵和人臉特徵直接組合起來作為新的樣本,其中人臉的位置是提前規定好的,訓練一個新的分類器。但是這有個問題,實際人臉位置與規定的位置有偏離,為了解決這個問題,就引入了deformation→先找人整體的位置,然後在人臉應該出現的位置附近尋找人臉分類器響應最大的位置,作為人臉位置。最終檢測出人的依據就是人整體得分+人臉得分之和很大。 由於人和人臉,本來兩個單獨分類器,此刻是協同訓練的,整體分類能力要強得多(新的分類器的工作的樣本空間的維度更大)。引入deformation是為了更符合實際情況,用latent ssvm訓練是為了同時挖掘part的最佳位置(因為對很多物體,人主觀上也不知道如何正確地設定part的位置;即使檢測物件是行人,當擬劃分的part個數變化時,人也不知道怎樣去定義part的位置)。 dpm是non-cnn目標檢測方法裡最成功的,在voc比賽中連續四五年拿獎,它最成功的應用就是檢測行人。高度最佳化的行人檢測dpm在最新i7處理器上單執行緒大概能跑到10fps,多執行緒大概30fps。執行速度和影象大小關係不太大,與目標在影象中所佔比例關係較大。
傳統的基於模板的目標檢測方法一般學習一個線性分類器(濾波器),檢測的時候對(特徵)影象進行一次濾波,把得分高的那些位置找出來,認為就是目標。在檢測行人的時候,有的就是對整個人學一個分類器,有的是隻學習人臉分類器,然後有人想把兩個一起用,可以互相印證,減少漏檢並降低虛警。那問題來了,怎樣把多個分類器一起用呢? 直觀地,我們可以分別用兩個分類器去檢測影象,然後綜合分析各自檢測結果;但是實踐告訴我,兩個弱分類器之和不如一個強分類器!因此有人就在訓練時把人的特徵和人臉特徵直接組合起來作為新的樣本,其中人臉的位置是提前規定好的,訓練一個新的分類器。但是這有個問題,實際人臉位置與規定的位置有偏離,為了解決這個問題,就引入了deformation→先找人整體的位置,然後在人臉應該出現的位置附近尋找人臉分類器響應最大的位置,作為人臉位置。最終檢測出人的依據就是人整體得分+人臉得分之和很大。 由於人和人臉,本來兩個單獨分類器,此刻是協同訓練的,整體分類能力要強得多(新的分類器的工作的樣本空間的維度更大)。引入deformation是為了更符合實際情況,用latent ssvm訓練是為了同時挖掘part的最佳位置(因為對很多物體,人主觀上也不知道如何正確地設定part的位置;即使檢測物件是行人,當擬劃分的part個數變化時,人也不知道怎樣去定義part的位置)。 dpm是non-cnn目標檢測方法裡最成功的,在voc比賽中連續四五年拿獎,它最成功的應用就是檢測行人。高度最佳化的行人檢測dpm在最新i7處理器上單執行緒大概能跑到10fps,多執行緒大概30fps。執行速度和影象大小關係不太大,與目標在影象中所佔比例關係較大。