回覆列表
  • 1 # 機器之心Pro

    Eugenio Culurciello近日在Medium發文闡述了這樣的觀點:我們已經陷入 RNN、LSTM 和的坑中很多年,是時候拋棄它們了!那麼有什麼替代方案呢?

    在 2014 年,RNN 和 LSTM 起死回生。我們都讀過 Colah 的部落格《Understanding LSTM Networks》和 Karpathy 的對 RNN 的頌歌《The Unreasonable Effectiveness of Recurrent Neural Networks》。但當時我們都「too young too simple」。現在,序列變換(seq2seq)才是求解序列學習的真正答案,序列變換還在語音到文字理解的任務中取得了優越的成果,並提升了 Siri、Cortana、谷歌語音助理和 Alexa 的效能。此外還有機器翻譯,現在機器翻譯已經能將文字翻譯為多種語言。在影象到文字、文字到影象的變換以及影片文字說明的應用中,序列變換也是卓有成效。

    在 2015-2016 年間,出現了 ResNet 和 Attention 模型。從而我們知道,LSTM 不過是一項巧妙的「搭橋術」。並且注意力模型表明 MLP 網路可以被「透過上下文向量對網路影響求平均」替換。下文中會繼續討論這一點。

    經過兩年多的時間,我們終於可以說:「放棄你的 RNN 和 LSTM 路線吧!」

    我們能看到基於注意力的模型已越來越多地被用於谷歌、Facebook 和 Salesforce 的 AI 研究。它們都經歷了將 RNN 模型和其變體用基於注意力的模型替換的過程,而這才剛剛開始。RNN 模型曾經是很多應用的構建基礎,但相比基於注意力的模型,它們需要更多的資源來訓練和執行。

    為什麼?

    RNN、LSTM 和其變體主要對時序資料進行序列處理。如下圖中的水平箭頭部分:

    RNN 中的序列處理過程,來自《Understanding LSTM Networks》

    這些箭頭表明,在長期資訊訪問當前處理單元之前,需要按順序地透過所有之前的單元。這意味著它很容易遭遇梯度消失問題。

    為此,人們開發了 LSTM 模型,LSTM 可以視為多個轉換門的合併。ResNet 也借鑑於這種結構,它可以繞過某些單元從而記憶更長時間步的資訊。因此,LSTM 在某種程度上可以克服梯度消失問題。

    LSTM 中的序列處理過程,來自《Understanding LSTM Networks》

    但這並不能完全解決該問題,如上圖所示。LSTM 中仍然存在按順序地從過去單元到當前單元的序列路徑。實際上,現在這些路徑甚至變得更加複雜,因為路徑上還連線了加如記憶的分支和遺忘記憶的分支。毫無疑問,LSTM、GRU 和其變體能學習大量的長期資訊(參見《The Unreasonable Effectiveness of Recurrent Neural Networks》),但它們最多隻能記住約 100s 的長期資訊,而不是 1000s 或 10000s 等。

    並且,RNN 的一大問題是它們非常消耗計算資源。即如果需要快速訓練 RNN,需要大量的硬體資源。在雲端上執行這些模型的成本也很高,隨著語音到文字的應用需求快速增長,雲計算資源目前甚至趕不上它的需求。

    解決方案是什麼?

    如果序列處理無可避免,那麼我們最好能找到可向前預測和向後回顧的計算單元,因為我們處理的大多數實時因果資料只知道過去的狀態並期望影響未來的決策。這和在翻譯語句或分析錄製影片時並不一樣,因為我們會利用所有資料並在輸入上推理多次。這種向前預測和後向回顧的單元就是神經注意力模組,下面將簡要介紹這一點。

    為了結合多個神經注意力模組,我們可以使用下圖所示的層級神經注意力編碼器:

    層級神經注意力編碼器

    觀察過去資訊的更好方式是使用注意力模組將過去編碼向量彙總到上下文向量 C_t。請注意上面有一個層級注意力模組,它和層級神經網路非常相似。

    在層級神經注意力編碼器中,多層注意力可檢視過去資訊的一小部分,例如 100 個向量,而上面層級的注意力模組能檢視到 100 個下層的注意力模組,也就是 100×100 個向量。即利用層級模組可極大地擴充套件注意力機制觀察的範圍。

    這就是一種能回顧更多的歷史資訊並預測未來的方法。

    這種架構類似於神經圖靈機,但令神經網路透過注意力決定從記憶中需要讀取什麼。這意味著一個實際的神經網路將決定過去的哪個向量對未來的決策更重要。

    但記憶的儲存呢?與神經圖靈機不同,上面的架構將會把所有的歷史表徵儲存在記憶中。這可能是不高效的,若儲存影片中每一幀的表徵,而大多數情況下表徵向量並不會一幀幀地改變,所以這導致儲存了太多的相同資訊。我們確實可以新增另一個單元來防止儲存相關資料,例如不儲存與之前太相似的向量。但這只是一種技巧,更好的方法可能是讓架構自己判斷哪些向量需要儲存,而哪些不需要。這一問題也是當前研究領域的重點,我們可以期待更多有意思的發現。

    所以,最後總結來說:忘了 RNN 和它的變體吧,你僅需要的是注意力機制模組。

    目前我們發現很多公司仍然使用 RNN/LSTM 作為自然語言處理和語音識別等架構,他們仍沒有意識到這些網路是如此低效和不可擴充套件。例如在 RNN 的訓練中,它們因為需要很大的記憶體頻寬而很難訓練,這對於硬體設計很不友好。本質上來說,遞迴是不可並行的,因此也限制了 GPU 等對平行計算的加速。

    簡單來說,每個 LSTM 單元需要四個仿射變換,且每一個時間步都需要執行一次,這樣的仿射變換會要求非常多的記憶體頻寬,因此實際上我們不能用很多計算單元的原因,就是因為系統沒有足夠的記憶體頻寬來傳輸計算。這對於模型的訓練,尤其是系統調參是非常大的限制,因此現在很多工業界應用都轉向了 CNN 或注意力機制。

  • 中秋節和大豐收的關聯?
  • 懶是人的天性,懶真的是十惡不赦的大罪嗎?