回覆列表
  • 1 # 機器之心Pro

    本文以兩種典型的不均衡為例,系統地研究並比較瞭解決 CNN 中類別不均衡問題的各種方法,在三個常用資料集上用統一標準做了實驗結果展示,得出了綜合性的結果,富有參考和指導意義。

    在這篇論文中,我們系統地研究了卷積神經網路中類別不均衡會給分類效能帶來的影響,並且對比了常用於解決該問題的一些方法。類別不均衡是一個普遍的問題,雖然這個問題在分類機器學習中被廣泛地研究,然而在深度學習領域很少有可用的系統性研究。在我們的研究中,我們用了三個複雜度依次遞增的基準測試集來研究類別不均衡對效能的影響,並對用來解決這個問題的幾種方法做了廣泛對比,這三個資料集分別是:MINIST,CIFAR-10 以及 ImageNet,這 4 種常用解決方法分別是:過取樣(oversampling,相當於插值),下采樣(downsampling,相當於壓縮),兩階段訓練(two-phase training),以及閾值化(threholding),閾值化可以補償先驗的類別機率。因為全域性準確率在不均衡的資料中是很難確定的,所以我們的主要評價指標是 ROC 曲線下面的面積(ROC AUC)。從我們的實驗可以得出以下結論:(i) 不均衡資料會給分類效能帶來損害;(ii) 解決不均衡資料問題的方法中,占主導地位的是過取樣,它幾乎存在於所有的分析場景中; (iii) 過取樣應該被用在那些需要完全消除不均衡的情況中,而下采樣在只需要從一定程度消除不均衡的情況中的效果可能更好;(iv) 與一些傳統的機器學習模型不同的是,過取樣也不一定會造成卷積神經網路的過擬合;(v) 當對被正確分類的例子的總數感興趣的時候,為了補償先驗類別機率,就應該使用閾值化方法。

    1 簡介

    卷積神經網路(CNN)在很多機器學習應用領域都被越來越重視,目前在最近為計算機視覺貢獻了很多當前最先進的技術成果,包括目標檢測、影象分類、影象分割等等。卷積神經網路也被廣泛地應用在自然語言處理和語音識別領域,在這些領域裡,CNN 要麼替代傳統技術,要麼幫助改善傳統機器學習模型 [1]。卷積神經網路在模型中集合了自動特徵提取器和分類器,這是它和傳統機器學習技術之間最大的不同。這個特性讓卷積神經網路能夠學習分層表徵 [2]。標準的卷積神經網路由全連線層、多個包含卷積層、啟用函式層以及最大池化層的模組組成 [3,4,5]。卷積神經網路本質上就是很複雜的,所以訓練和測試網路的時候需要很大的計算量,這通常都是藉助於現代的 GPU 來解決的。

    在現實生活的應用中,基於深度學習的一個常見問題是:在訓練集中,一些類的樣本量遠大於其他類。這種差別被稱為類別不均衡。在以下領域中有很多這種例子:比如計算機視覺 [6,7,8,9,10],醫療診斷 [11,12],欺詐檢測 [13] 以及其他領域 [14,15,16],在這些領域中這個問題非常重要,某個類別(比如癌症患者)的樣本頻率可以比其他類別(比如非癌症患者)小 1000 倍。已經確定的是,類別不均衡問題可以給傳統分類器 [17] 帶來嚴重的效能損害,包括多層感知機在內 [18]。它既影響了在訓練模型階段的收斂,也影響到在測試集上的泛化能力。儘管這個問題也同樣影響著深度學習,但是,並沒有關於這個問題的可用的系統性研究。

    應對不均衡問題的方法在傳統機器學習模型上已經有了一些研究成果 [19,17,20,18]。最直接最通用的就是使用一些取樣方法,這些方法直接對資料本身(而不是針對模型)進行處理,以提升資料的均衡性。最廣泛使用的,也被證明是比較魯棒的一種方法就是過取樣(oversampling)[21]。另一個就是下采樣(downsampling)。一個比較樸素的版本就是簡單地把多數類中的樣本隨機移除 [17],這個方法被稱為隨機多數下采樣(random majority downsampling)。類別不均衡問題也可以在分類器的層面處理。在這種情況下,學習演算法應該被修正,例如,給誤分類的樣本引入不同的權重係數 [22],或者具體地調節先驗類別機率 [23]。

    之前的研究證展示了深度神經網路中與敏感學習(cost sensitive learning)相關的一些結果 [24,25,26]。用於神經網路訓練的新的損失函式也被開發出了 [27]。最近,有人提出了一種用於卷積神經網路的新方法,就是分兩階段去訓練網路,首先在均衡資料上訓練神經網路,然後再微調輸出層 [28]。儘管在深度學習方面還沒有對不均衡性進行系統性的分析,也沒有可用的能夠處理這種問題的方法,但是基於直覺、一些中間測試結果以及在傳統機器學習上可用的一些系統性結果來看,研究者們採用的一些方法可能正在解決這個問題。根據我們對文獻的調研,深度學習中使用最廣泛的方法是過取樣。

    本文剩下的內容組織如下:第 2 節總結了解決不均衡問題的一些方法;第 3 節描述了我們的實驗設定,給出了關於比較方法、資料集和所用測試模型的細節內容;第 4 節展示了實驗結果和比較方法;最後,在第 5 節總結了整篇論文的工作。

    2 解決不均衡問題的方法

    解決類別不均衡問題的方法可以被分為兩大類 [29]。第一大類是資料層面的方法,這類方法對訓練資料進行處理,改變它的類別分佈。這類方法的目標就是朝著使標準訓練演算法能夠起作用的目標去改變資料集。另一大類則包括分類器(演算法)層面的。這些方法保持訓練資料集不變,僅僅調整訓練(或者推理)演算法。另外,結合這兩類的方法也是可以使用的。在這一部分我們會概述常常被使用的這兩類方法,既包含在經典機器學習模型,也包括在深度神經網路中使用的。

    圖 1:不均衡資料集的示例分佈,包含對應的引數值。(a、 b):階躍式不均衡,引數:ρ 和 µ;(c):線性不均衡,引數:ρ

    表 1:所用資料集總覽,每類影象的數量指的是實驗中用到的子資料集中完美均衡的一個。ImageNet 的影象維度是縮放之後的結果。

    3.2 這篇論文中所比較的解決不均衡問題的方法

    我們總共試驗了 7 種用來解決卷積神經網路中類別不均衡問題的方法,這 7 種方法包含了深度學習中使用的大多數方法:1. 隨機少數過取樣;2. 隨機多數下采樣;3. 兩階段訓練,在隨機過取樣的資料集上進行預訓練;4. 兩階段訓練,在隨機下采樣的資料集上進行預訓練;5. 使用先驗機率的閾值化方法;6. 使用閾值化方法的過取樣;7. 使用閾值化方法的下采樣。

    3.3 資料集和模型

    在我們的研究中,總共使用了 3 個基準測試資料集: MNIST [52],CIFAR-10 [53],以及 ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 2012 [54]。所有的資料集都被劃分成了具有標籤的訓練集和測試集。對於每一個數據集,我們選擇了不用的模型,每個模型都具有一個超引數集,這些超引數集都是在一些相關文獻中使用過並且表現良好的。資料集的複雜程度和模型的複雜程度是正相關的。這使得我們在一些簡單的任務上得出了一些結論,並驗證了這些結論是如何推廣到更加複雜的任務上的。

    表 2: 在 MNIST 資料集實驗中使用的 LeNet-5 卷積神經網路的架構

    表 3: 在 CIFAR-10 資料集實驗中使用的 All-CNN 網路結構

    圖 2: 在 ILSVRC-2012 實驗中使用的 ResNet 中的單殘差模組網路架構

    4. 結果

    4.1 樣本不均衡對分類效能的影響,以及幾種解決這個問題的方法的比較

    圖 3: 每種方法對應的多類 ROC AUC 對比:(a - c).MNIST,(d - f).CIFAR-10,(d - f). 具有固定少數類別數目的階躍式不均衡資料

    圖 4: 每種方法對應的多類 ROC AUC 對比:(a - c).MNIST,(d - f).CIFAR-10,(d - f). 具有固定少數類別比例的階躍式不均衡資料

    圖 5:線性不均衡下每種方法對應的多類 ROC AUC 對比

    4.2 ImageNet 資料集上的結果

    表 4 : ImageNet 上多類 ROC AUC 對比

    4.4 使用多類閾值化來提升準確度分數

    圖 6: 各種方法的準確率比較:(a - c).MNIST,(d - f).CIFAR-10,(d - f). 具有固定少數類別數目的階躍式不均衡資料

    4.5 透過下采樣和過取樣減小資料集的不均衡率

    圖 7: MNIST 資料集中,原始不均衡度為 1000(最多和最少類別的數目比)時,透過過取樣和下采樣來減小不均衡度後 ROC AUC 對比

    4.6 取樣方法的推廣

    圖 8: 分別使用基線和取樣方法之後,模型收斂的對比。使用 CIFAR-10 資料集,階躍不平衡,5 個類別,不平衡比率為 50。

    5. 總結

    在這篇論文中,我們研究了類別不均衡問題對卷積神經網路分類效能的影響,並對比研究瞭解決該問題的不同的方法的效果。我們定義了兩種不同型別的不均衡,並將它們引數化,也就是階躍性不均衡和線性不均衡。然後在 MNIST,CIFAR-10 和 ImageNet (ILSVRC-2012) 資料集中分出子資料集,人為地讓它們產生不均衡性。我們對比了常用取樣方法、基本閾值化方法和兩階段訓練方法。

    與類不均衡有關的實驗結論如下:

    類別不均衡會對分類效能產生有害的影響

    隨著任務規模的擴大,類別不均衡性對分類效能的影響越大

    類別不均衡的影響不能簡單地以訓練樣本數量的不足來解釋,它依賴於各類樣本的分佈

    根據在處理卷積神經網路中類別不均衡資料集時對各種不同方法的選擇,我們得到以下結論:

    將多類 ROC AUC 作為評價指標時,在絕大多數情況下表現最優異的方法是過取樣

    對於極端不均衡比率,以及大部分類別都是少數樣本的情況,下采樣比過取樣具有更好的效果

    為了實現最佳準確率,應該使用閾值化方法來補償先驗類別機率。最可取的方法是閾值化方法和過取樣的結合,然而不應該將閾值化方法和下采樣方法結合。

    過取樣方法應該應用在需要完全消除不均衡性的情況,而下采樣則更適合於僅需要從一定程度上消除不均衡性的情況

    與一些經典機器學習方法不同的是,過取樣並不一定會在卷積神經網路中導致過擬合。

  • 2 # 閒茶良味

    人工智慧就是個垃圾,我們跑起來了的,不教他比豬還笨。教他需要大資料支援。這個是有錢人的故事而已。就等於我生了個兒子,這個兒子非常聰明喜歡學習,但是他需要去好多學校學習知識,結果兒子沒有成材,爸爸餓死了。

  • 中秋節和大豐收的關聯?
  • 如果手機需要送去維修,如何防止隱私洩露?