作者:SHUBHAM SINGH編譯:ronghuaiyang導讀
給大家解析一下ICLR 2019的最佳論文,非常有創造性的工作!
介紹
我喜歡閱讀和解析機器學習研究論文。有非常多的令人難以置信的資訊要解析,這是一個數據科學家的金礦!當無與倫比的ICLR 2019(學習表徵國際會議)會議上公佈了最好的論文時,我非常激動。
我迫不及待地想要得到它們。
然而,大多數的研究論文都很難理解。它們是針對特定的讀者(研究人員)編寫的,因此它們假定讀者具有一定的知識水平。
當我第一次涉獵這些研究論文時,我也面臨著同樣的問題。我費了好大的勁來分析它們,並領會其中的基本技巧是什麼。這就是為什麼我決定幫助資料科學家同事理解這些研究論文。
這些天有非常多的令人難以置信的學術會議,我們需要讓自己跟上機器學習的最新發展。這篇文章是我回饋社群的一種方式,它給與了我很多東西!
在本文中,我們將研究ICLR 2019年會議上的兩篇最佳論文。
ICLR 2019年度最佳論文獎授予:
Ordered Neurons: Integrating Tree Structures Into Recurrent Neural Networks (RNNs)The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks讓我們來分析這兩篇令人難以置信的論文,並了解它們的方法。
Ordered Neurons: Integrating Tree Structures Into Recurrent Neural Networks
下載地址:https://openreview.net/pdf?id=B1l6qiR5F7
自然語言的結構是層次性的。這意味著較大的單位或成分由較小的單位或成分(短語)組成。這個結構通常是樹狀的。
雖然標準的LSTM體系結構允許不同的神經元在不同的時間尺度上跟蹤資訊,但它對單元層次結構的建模沒有明顯的偏好。本文提出通過對神經元進行排序來增加這種誘導性的偏好。
這篇文章的目標
研究人員的目標是將樹結構整合到神經網路語言模型中。這樣做的原因是通過更好的歸納偏好來改進泛化,同時潛在地減少了對大量訓練資料的需求。
過去的State-of-the-Art是什麼?
預測相應的潛在樹結構的一種方法是通過一個有監督的語法分析器。這些解析器生成的樹被用來指導將單詞語義組合成句子語義。這也有助於預測下一個單詞給定的前一個單詞。然而,受監督的解析器由於以下幾個原因而受到限制:很少有語言具有用於監督解析器培訓的全面註釋資料語法規則往往在某些領域被打破(例如在tweets中)語言會隨著使用的時間而變化,所以語法規則可能會進化遞迴神經網路(RNNs)已被證明在語言建模方面非常有效。RNNs顯式地對資料施加一個鏈結構。這種假設似乎與語言潛在的非順序結構不一致。使用深度學習方法對自然語言資料的處理可能會遇到一些困難,如獲取長期依賴關係、實現良好的泛化、處理否定等問題。同時,有證據表明,具有足夠能力的LSTMs可能通過隱式編碼樹結構來實現語法處理機制。這篇文章提出的新方法
這就是事情變得非常有趣的地方(對你們這些書呆子來說真的很酷!)
本文提出有序神經元。這是RNN的一種新的誘導偏好,它迫使神經元在不同的時間尺度上表示資訊。這種誘導偏好有助於在長期神經元中儲存長期資訊。短期資訊(可以很快被遺忘)儲存在較低級別的神經元中。
提出了一種新的RNN單元 ON-LSTM。新模型使用了與標準LSTM類似的架構:
不同之處在於,更新細胞狀態ct的函式被替換為一個新的函式cumax()。由於LSTM中的門獨立作用於每個神經元,因此可能很難辨別神經元之間的資訊層次。因此,研究人員提出,通過強制執行神經元更新的順序,使每個神經元的門依賴於其他神經元。
很有趣,對吧?
ON-LSTM包括一個新的門控機制和一個新的啟用函式cumax()。將cumax()函式和LSTM組合在一起,在LSTM上建立一個新的模型。這就解釋了為什麼這個模型偏向於執行類似樹的組合操作。
啟用函式: cumax()
引入這個cumax()啟用函式是為了強制更新頻率的順序:
g^= cumax(…)= cumsum(softmax(…)),
這裡,cumsum和表示累積和。g^可以看作是一個二元門的期望,g將cell狀態分成兩段:
0-segment1-segment因此,該模型可以對每個段應用不同的更新規則來區分長/簡訊息。
結構化門機制
本文還介紹了一種新的主忘記門ft和一種新的主輸入門it。這些實體也基於cumax()函式。
根據cumax()函式的性質,主遺忘門中的值從0單調地增加到1。類似的情況也發生在主輸入門中,其中值單調地從1下降到0。
這些門用作單元狀態更新操作的高階控制。我們可以定義一個新的更新規則使用主門:
實驗和結果
研究人員通過四項任務評估了他們的模型:
語言模型無監督的選區解析目標句法評價邏輯推理以下是最終結果:
橫軸表示序列的長度,縱軸表示模型在相應測試集上效能的準確性
對於不同長度的結構化資料,ON-LSTM模型具有較好的泛化效能。樹結構模型可以在此資料集上實現相當強的效能。
論文的總結
介紹了一種新的RNN誘導偏好有序神經元在此基礎上,提出了一種新的迴圈單元on-lstm,它包括一個新的門控機制和一個新的啟用函式cumax()這有助於RNN執行樹狀組合操作,通過分別分配具有長期和短期資訊的隱藏狀態神經元。模型效能表明,ON-LSTM以與人類專家註釋一致的方式誘導自然語言的潛在結構歸納偏好也使on-lstm能夠在語言建模、長期依賴和邏輯推理任務上取得良好的效能The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks
論文下載連結:https://openreview.net/pdf?id=rJl-b3RcF7
這是我2019年最喜歡的論文之一。讓我們把它分成易於消化的部分!
剪枝是從神經網路中去除不必要權重的過程。該過程在不影響精度的前提下,可以將引數計數減少90%以上。它還減少了訓練網路的規模和能量消耗,使我們的推理更有效。
然而,如果一個網路的規模可以縮小,為什麼我們不訓練這個更小的架構來提高訓練的效率呢?這是因為修剪所揭示的體系結構從開始的時候很難進行訓練,從而大大降低了準確性。這篇論文的目標
本文的目的是證明從一開始就存在較小的訓練子網路。這些網路在達到類似測試精度的同時,學習速度至少與較大的同類網路一樣快。
例如,我們從一個全連線的網路MNIST和卷積網路CIFAR10隨機抽樣並訓練子網路:
虛線是迭代的最小驗證在不同稀疏級別上迭代時的測試精度。網路越稀疏,學習越慢,最終的測試精度越低。
這就是研究人員提出他們的彩票假說的地方。
彩票假說
一個隨機初始化的密集神經網路包含一個子網路,標記為中獎彩票網路。這是初始化的,這樣,當單獨訓練時,它可以在訓練最多相同迭代次數的情況下匹配原始網路的測試精度。
下面是彩票假說概念的一個極好的例子:
識別出中獎的彩票
我們通過訓練它的網路和修剪它的最小量級的權重來識別一個彩票。其餘未修剪的連線構成了中獎彩票網路的體系結構。
然後,在對每個未修剪連線進行訓練之前,將其值從原始網路重置為初始化值。
實現這一目標的過程涉及到智慧訓練和修剪的迭代過程。我將其總結為五個步驟:
隨機初始化一個神經網路訓練網路直到它收斂進行修剪要提取中獎彩票網路,請將網路其餘部分的權重重置為步驟1中的值修剪是一次性的,也就是說只修剪一次。
但在這篇論文中,研究人員關注的是迭代剪枝,它反覆訓練、修剪和重置網路。每一輪刪除前一輪剩餘權重的p^(1/n) %。
因此,與一次性剪枝相比,這種迭代剪枝可以在較小的規模下找到與原始網路的精度匹配的中獎彩票網路。
應用
在閱讀這些研究論文時,每個人都會想到一個問題—我們究竟能把它應用到哪裡?這一切都很好,很好的實驗和提出一個新的方法。但最重要的是將其轉換為實際應用。
這篇論文對計算中獎彩票網路非常有用。彩票假設可以應用於MNIST訓練的全連線網路和CIFAR10上的卷積網路,增加了學習問題的複雜性和網路的規模。
實際上,初始訓練初始化修剪後的網路的權重,以便在微調期間它可以獨立地學習。
中獎彩票網路初始化的重要性
當隨機重新初始化中獎彩票網路時,中獎彩票網路的學習速度較慢,並且獲得較低的測試精度。這表明初始化對它的成功非常重要。
中獎彩票網路結構的重要性
產生中獎彩票網路的初始化安排在特定的稀疏體系結構中。由於我們通過大量使用訓練資料來發現中獎彩票網路,我們假設中獎彩票網路的結構編碼了一種針對當前學習任務的歸納偏好。
侷限性以及未來的工作
研究人員意識到這還不是最終產品。目前的辦法有一些限制,今後可以加以解決:
沒有研究較大的資料集。只考慮較小資料集中以視覺為中心的分類任務。這些研究人員打算探索更有效的方法來找到中獎彩票網路,這將使在更資源密集的環境中研究彩票網路假說成為可能稀疏剪枝是我們找到中獎彩票網路網路的唯一方法。研究人員打算從廣泛的當代文獻中研究其他剪枝方法,如結構化剪枝(可生成針對當代硬體優化的網路)和非規模剪枝方法(可生成更小的中獎彩票網路或更早發現它們)中獎彩票網路進行初始化之後才能得到和沒有剪枝的網路匹配的效能,需要考慮在規模太小的未經修剪的網路隨機初始化網路做同樣的事情。研究人員打算研究這些初始化的特性,這些特性與修剪後的網路架構的歸納偏好相一致,使得這些網路更加擅長學習結束語
在本文中,我們詳細討論了ICLR中發表的兩篇最佳研究論文。通過閱讀這些論文,了解這些研究專家的思維過程,我學到了很多。我鼓勵你讀完這篇文章後自己把這些論文看一遍。
不久還會有更多以研究為重點的會議。國際機器學習會議(ICML)和計算機視覺和模式識別(CVPR)會議將在未來幾個月舉行。請繼續關注!
英文原文:https://medium.com/recombee-blog/machine-learning-for-recommender-systems-part-2-deep-recommendation-sequence-prediction-automl-f134bc79d66b