首頁>科技>

SimpleAI

人工智慧、機器學習、深度學習還是遙不可及?來這裡看看吧~

前言:我們習慣於使用one-hot標籤來進行模型的訓練,但是有沒有辦法可以構造出更好的標籤呢?本文主要根據東南大學的論文“Label Enhancement for Label Distribution Learning”進行解讀和整理,從而認識並理解在分類問題中“標籤增強”技術。

論文標題:Label Enhancement for Label Distribution Learning會議/期刊:IJCAI-18團隊:東南大學 計算機科學與工程學院標籤分佈 & 標籤分佈學習

標籤分佈學習(Label Distribution Learning,LDL)的任務是讓模型去學習一個樣本的標籤分佈(Label Distribution),即每一個維度都反映對應標籤程度的一種機率分佈。這樣的標籤機率分佈可以比one-hot更好地表示一個樣本的情況,原因主要有以下:

一個標籤跟樣本是否有關,是一個相對的概念,即沒有一個“判斷是否相關”的絕對標準;當多個標籤都跟樣本相關時,它們的相關程度一般也是不同的;多個跟樣本不相關的標籤,它們的不相關程度也一般是不同的。

論文作者給出了幾個生動的例子:

然而,LDL任務的主要困難之一就是,標籤分佈是十分難以獲取的。大多數的分類資料集都不具備這樣的條件,都只有一些ligical label。所謂logical label,就是指one-hot或者multi-one-hot的label。要獲取真實的標籤分佈,理論上是需要對同一樣本進行大量的打標,得到其統計分佈的,但這背後的人工成本是無法承受的。

主要思想

一個自然的解決辦法就是,既然無法從外部得到樣本的標籤分佈,那就使用樣本集自身的特徵空間來構造出這樣的標籤分佈。

本文把這一類的方法稱為label Enhancement(LE),並介紹了幾種LE的方法,下面分別作簡單的介紹。

幾種經典的LE方法1. Fuzzy C-Means(FCM)

Fuzzy C-Means 是一個代表性的“軟聚類”演算法(soft clustering)。它實際上是對K-Means這種“硬聚類”演算法的一種改進。K-means聚類只能將一個點劃分到一個簇裡,而FCM則可以給出一個點歸屬於各個簇的機率分佈。

FCM的目標函式為:

其中是樣本點的特徵向量,是簇中心的特徵向量,是每個點歸屬於每個簇的係數,類別數,是樣本總數。的計算公式如下,顯然離某個簇越近,其係數就越大:

而簇中心的計算方法為,就是所有樣本點特徵的一個加權平均,其中m是超引數,控制fuzzy的程度,越大簇之間就越模糊:

透過FCM演算法,如果設定k個簇,樣本的簇機率分佈就是這個c維向量。

然後,構造一個分類類別(classes)與聚類簇(clusters)之間的一個軟連線矩陣k×c的矩陣A:

即A的第j行(代表第j個類別),是由所有屬於該類別的樣本的簇分佈累加而得到的。

最後,透過矩陣A與點乘,就可以將每個樣本的簇分佈(c個簇),轉化為標籤分佈(k個標籤)了

上面的過程,可以透過下圖來表達:

2.Label Propagation(LP)

LP的主要思想是透過樣本之間的相似度矩陣,來逐步調整原本的logical label representation。

第一步,透過下面的公式,計算N個樣本之間的一個N×N的相似性矩陣A:

然後,根據下面的公式,構建label propagation matrix,即標籤傳導矩陣P:

看到這個公式,熟悉GCN的人會發現,這不就是拉普拉斯矩陣嘛,目的主要是為了讓原本的A矩陣歸一化和對稱。圖神經網路的核心,也是鄰居節點之間的互相傳播,跟這裡的相似樣本之間,進行標籤資訊的傳播是類似的思想。

有了這個P傳播矩陣,就可以來透過“傳播”來構造標籤分佈D了:

其中L是原本的one-hot的logical label矩陣,D使用L來初始化。

透過不斷迭代上式,就可以得到一個趨於穩定的標籤分佈矩陣D了。

還是照例畫一個圖:

3.Mainifold Learning(LM)

除了LP之外,還有一個Mainifold Learning(LM),主要思想就是假設一個樣本點的特徵,可以完全由其相鄰點的特徵線性表示。所謂相鄰點,就是透過KNN得到的最近鄰。所以第一步就是最佳化下面的目標:

學習出相似節點之間的互相表示的方法,即某個點是如何被其他的鄰近點所線性表示的。

然後,再去最佳化這個目標,得到標籤分佈:

以上是三種傳統的Label Enhancement方法。雖然傳統,但是其思想我覺得我覺得都挺有意思的,尤其是FCM和LP方法。

本文提出的新方法:GLLE

GLLE全稱為Graph Laplacian Label Enhancement。也是一種基於圖的思想的方法。

別看這個名字這麼複雜,其實其思想很簡單:

在訓練標籤預測模型的同時,也考慮學習標籤間的相似性。

假設我們的預測模型是這樣的:

這裡的d,就是要學習的標籤分佈,W就是這個預測模型的引數。

根據前面提到的思想,作者設計的目標函式是這樣的,由兩部分組成

前一個部分,就是一個普通的MSE損失函式或最小二乘損失:

如果只最佳化這個目標,那麼得到的就是一個傾向於one-hot/logical label的預測模型。

第二部分,希望相似的樣本其分佈也相似

其中這裡的a是表達樣本i和j之間的相似係數,公式如下:

可以發現,這裡計算相似性的方法,跟Label Propagation十分相似,只是多了一個“僅在最近鄰範圍內計算相似度”這樣的限制,因此作者稱之為“local similarity matrix”。

後面作者當然扯了一大堆這個目標怎麼求解這個最佳化問題巴拉巴拉,我是不太懂的,感覺是可以使用梯度下降法來求的。

總之,可以看出這是一個有兩個目標的最佳化問題,透過一個λ引數控制二者的比例,同時最佳化兩個方面,雖然兩個方向上都不會最優,但是可以兼顧兩個方面的效果,即最後得到的label distribution(LD)既逼近logical label,同時相似樣本之間的LD也是類似的。

各個方法結果對比:

作者主要使用了兩種方法進行效果對比:

從logical label恢復到原本的label distribution的水平利用得到的label distribution來訓練LDL模型看預測效果

對於恢復效果,有一個自制三維資料集的視覺化:

可以看出,GLLE和LP都比較接近ground truth了。

另外在其他資料集上,作者透過計算相似度來衡量使用各個LE方法來進行模型訓練的效果:

還有一個平均排名:

看完了這些實驗結果,我最大的感覺就是:

LP這個方法真好的!又簡單,效果又好!(基本比複雜的GLLE差不了多少,而且GLLE這個λ調參估計挺麻煩的) 但是GLLE的方法,其實也給了我們很多啟發,畢竟相比於LP這種無監督的方法,有監督的方法肯定靈活性更強,所以取得效果的提示也是很正常的。

13
最新評論
  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • 騰訊程式設計師的回溯演算法學習手冊開放下載