回覆列表
  • 1 # mu子君

    傳統的卷積核一般都是長方形或正方形,但MSRA提出了一個相當反直覺的見解,認為卷積核的形狀可以是變化的,變形的卷積核能讓它只看感興趣的影象區域 ,這樣識別出來的特徵更佳。

    而要做到這個操作,可以直接在原來的過濾器前面再加一層過濾器,這層過濾器學習的是下一層卷積核的位置偏移量(offset),這樣只是增加了一層過濾器,或者直接把原網路中的某一層過濾器當成學習offset的過濾器,這樣實際增加的計算量是相當少的,但能實現可變形卷積核,識別特徵的效果更好。

    視覺是人們獲取資訊的主要渠道一樣,而計算機視覺也是人工智慧研究領域的核心問題之一,已有幾十年的研究歷史。顧名思義,計算機視覺是研究如何讓電腦“看懂”影象,例如,對影象中的物體進行識別、分割、跟蹤和三維幾何測量等。

    由於同樣的物體在影象中可能呈現出不同的大小、姿態、視角變化甚至非剛體形變,因此如何適應這些複雜的幾何形變是物體識別的主要難點,同時也是計算機視覺領域多年來關注的核心問題。很多傳統經典方法,如尺度不變的特徵變換(scale invariant feature transform, or SIFT)和可變形部件模型(deformable part models)等,都旨在解決這一問題。然而,由於人工設計特徵的侷限性,傳統視覺方法在物體識別問題上多年來並未取得突破性的進展。

    不久前,微軟亞洲研究院視覺計算組的研究員在arXiv上公佈了一篇題為“Deformable Convolutional Networks”(可變形卷積網路)的論文,首次在卷積神經網路(convolutional neutral networks,CNN)中引入了學習空間幾何形變的能力,得到可變形卷積網路(deformable convolutional networks),從而更好地解決了具有空間形變的影象識別任務。研究員們透過大量的實驗結果驗證了該方法在複雜的計算機視覺任務(如目標檢測和語義分割)上的有效性,首次表明在深度卷積神經網路(deep CNN)中學習空間上密集的幾何形變是可行的。該論文的原始碼也於近期在GitHub上公佈。

    卷積神經網路的成功和侷限

    近年來,隨著深度卷積神經網路的普遍使用,很多困難的視覺問題都獲得了重大突破。影象識別於兩年多前首次超越了人類的識別能力。物體檢測、影象分割等也都達到了幾年前傳統方法難以企及的高度。

    由於強大的建模能力和自動的端到端的學習方式,深度卷積神經網路可以從大量資料中學習到有效特徵,避免了傳統方法人工設計特徵的弊端。然而,現有的網路模型對於物體幾何形變的適應能力幾乎完全來自於資料本身所具有的多樣性,其模型內部並不具有適應幾何形變的機制。究其根本,是因為卷積操作本身具有固定的幾何結構,而由其層疊搭建而成的卷積網路的幾何結構也是固定的,所以不具有對於幾何形變建模的能力。

    舉個例子,想要識別出同一影象中不同大小的物體(比如遠近不同的兩個人),理想的結果是,在對應於每個物體的位置網路需要具有相應大小的感受野(receptive field)。直觀的說,為了識別更大的物體網路需要看到更大的影象區域。然而,在現有的卷積網路架構中,影象中任何位置的感受野大小都是相同的,其取決於事先設定的網路引數(卷積核的大小、步長和網路深度等),無法根據影象內容自適應調整,從而限制了識別精度。

    消除網路難以適應幾何變形的“罪魁禍首”

    追根溯源,上述侷限來自於卷積網路的基本構成單元,即卷積操作。該操作在輸入影象的每個位置時會進行基於規則格點位置的取樣,然後對於取樣到的影象值做卷積並作為該位置的輸出。透過端到端的梯度反向傳播學習,系統將會得到一個用矩陣表示的卷積核的權重。這就是自卷積網路誕生之初,已使用二十多年的基本單元結構。

    微軟亞洲研究院的研究員們發現,標準卷積中的規則格點取樣是導致網路難以適應幾何形變的“罪魁禍首”。為了削弱這個限制,研究員們對卷積核中每個取樣點的位置都增加了一個偏移的變數。透過這些變數,卷積核就可以在當前位置附近隨意的取樣,而不再侷限於之前的規則格點。這樣擴充套件後的卷積操作被稱為可變形卷積(deformable convolution)。標準卷積和可變形卷積在圖中有簡要的展示。

    如下圖:展示了卷積核大小為 3x3 的正常卷積和可變形卷積的取樣方式,(a) 所示的正常卷積規律的取樣 9 個點(綠點),(b)(c)(d) 為可變形卷積,在正常的取樣座標上加上一個位移量(藍色箭頭),其中(c)(d) 作為 (b) 的特殊情況,展示了可變形卷積可以作為尺度變換,比例變換和旋轉變換的特殊情況。

    事實上,可變形卷積單元中增加的偏移量是網路結構的一部分,透過另外一個平行的標準卷積單元計算得到,進而也可以透過梯度反向傳播進行端到端的學習。加上該偏移量的學習之後,可變形卷積核的大小和位置可以根據當前需要識別的影象內容進行動態調整,其直觀效果就是不同位置的卷積核取樣點位置會根據影象內容發生自適應的變化,從而適應不同物體的形狀、大小等幾何形變。

  • 中秋節和大豐收的關聯?
  • QG刺痛SOLO寂然韓信,看到寂然出裝後愣了:“超越KPL選手的理解”,你有何看法?