Label smoothing,即標籤平滑,是一種機器學習中的模型正則化方法。在分類模型中,通常的過程是提取特徵之後,接一個全聯接層,將輸出對映到分類大小,之後再進行softmax,將結果對映到0-1之間,再同one-hot標籤計算交叉熵損失函式來訓練模型。而標籤平滑其基於的出發點有兩方面原因:
1. 此外使用one-hot的表示,會促使模型逐漸向1靠近,從而表現的對於預測結果過於自信,而這種自信就會促使模型過擬合。
2. 在分類模型中,標籤一般都是使用的one-hot向量表示,這種表示存在過擬合的風險。因為訓練集中的訓練資料往往是有限的,並不能真正表示出預測的結果的真實分佈情況。
特別在翻譯模型中,在對詞語進行預測時,往往並不存在唯一的答案,同一個句子能對應多種翻譯方案。但是one-hot會消除了這種可能性,使得結果變得唯一,使得正確答案和其他答案的距離越大越好,而我們所希望的可能是給每種情況都留下預測的可能性。
那麼標籤平滑就是將one-hot的編碼方式變得更加soft。做法也很簡單,即一方面降低1的大小,另一方面使得為0的標籤大一些。計算公式如下:
也就是將標籤分佈,同一個先驗分佈加權求和。這個先驗分佈如果為均勻分佈的話,那麼u(k)=1/k,k為分類的個數。這樣就使得模型的預測結果會變成同時擬合one-hot的標籤分佈和先驗分佈,從而提高模型的泛化能力,降低過擬合的風險。
Label smoothing,即標籤平滑,是一種機器學習中的模型正則化方法。在分類模型中,通常的過程是提取特徵之後,接一個全聯接層,將輸出對映到分類大小,之後再進行softmax,將結果對映到0-1之間,再同one-hot標籤計算交叉熵損失函式來訓練模型。而標籤平滑其基於的出發點有兩方面原因:
1. 此外使用one-hot的表示,會促使模型逐漸向1靠近,從而表現的對於預測結果過於自信,而這種自信就會促使模型過擬合。
2. 在分類模型中,標籤一般都是使用的one-hot向量表示,這種表示存在過擬合的風險。因為訓練集中的訓練資料往往是有限的,並不能真正表示出預測的結果的真實分佈情況。
特別在翻譯模型中,在對詞語進行預測時,往往並不存在唯一的答案,同一個句子能對應多種翻譯方案。但是one-hot會消除了這種可能性,使得結果變得唯一,使得正確答案和其他答案的距離越大越好,而我們所希望的可能是給每種情況都留下預測的可能性。
那麼標籤平滑就是將one-hot的編碼方式變得更加soft。做法也很簡單,即一方面降低1的大小,另一方面使得為0的標籤大一些。計算公式如下:
也就是將標籤分佈,同一個先驗分佈加權求和。這個先驗分佈如果為均勻分佈的話,那麼u(k)=1/k,k為分類的個數。這樣就使得模型的預測結果會變成同時擬合one-hot的標籤分佈和先驗分佈,從而提高模型的泛化能力,降低過擬合的風險。