Compressive Transformer模型和PG-19資料集代表了重要的里程碑,可提高深度學習模型的儲存能力。
https://www.itassetmanagement.net/2020/02/04/how-artificial-intelligence-will-change-the-itam-world/
記憶是我們剛剛從神經科學的角度開始理解的人腦神奇的認知能力之一。人類具有出色的能力,可以長時間記住資訊,並透過難以置信的抽象關聯來恢復記憶。想象一個人在幾個月或幾年的時間內閱讀《指環王》系列。儘管敘事複雜而豐富,但該人仍能夠記住許多章以前的人物,並就其動機和角色進行推理。此外,當我們的英雄坐下來觀看電影《指環王》三部曲時,這些回憶再次浮出水面。自從人工智慧(AI)誕生以來,記憶體就一直被認為是為實現AI系統的真正潛力而需要重新建立的基本功能之一。最近,AI強國DeepMind發表了一篇新研究論文,提出了一種針對深度學習系統中的遠端記憶的改進架構,以及一種用於語言模型中記憶推理的新資料集。
在深度學習系統中重建長期記憶的挑戰既是技術上的,也是概念上的。到目前為止,我們對長期記憶的神經科學機制瞭解甚少。記憶的魔力不僅在於記憶的能力,還在於選擇,概括和整合資訊的能力。在整個歷史中,藝術家和哲學家使用不同的隱喻使記憶永生。柏拉圖將記憶比作蠟片,在蠟片上留下的印象將保持固定。像約翰·洛克(John Locke)這樣的哲學家相信,如果記憶是在時間和空間附近形成的,它們就會相互關聯。在《尋找失去的時光》(也稱為過去的回憶)中,作者馬塞爾·普魯斯特(Marcel Proust)以著名的瑪德琳蛋糕形式創造了最美麗的隱喻記憶之一。對於普魯斯特(Proust)來說,成年後對甜食的一種品味並沒有阻止他小時候的聯想之流。每當我想到記憶時,都會把我帶回我十幾歲時最喜歡的作家之一。
豪爾赫·路易斯·博爾赫斯(Jorge Luis Borges)被認為是拉丁美洲最具代表性的作家之一,也是我十幾歲時最喜歡的作家之一。博爾赫斯(Borges)在他的故事“紀念大千世界”中講述了一個有著巨大記憶的年輕人富內斯的故事。富內斯能夠記住他所看到的確切細節,例如昨天下午3:45時天空中的雲朵形狀。但是,Funes因無法將視覺資訊概括為知識而感到痛苦。每次看到博格斯的鏡子時,博爾赫斯的性格都會經常被自己的形象感到驚訝,並且無法確定下午3:14時從側面看到的那隻狗與下午3:15時從背面看到的那隻狗是否相同。對於富內斯來說,只有兩個細節都相同時,兩件事才是相同的。富內斯(Funes)的故事是一個很好的比喻,可以用來解釋記憶不僅涉及處理大量資訊,而且還涉及忽略資料中某些細節的一般化規則。
深度學習系統中的記憶記憶一直是深度學習領域最活躍的研究領域之一。記憶的最基本表示形式出現在遞迴神經網路(RNN)中,該網路學會在壓縮狀態向量中表示觀察的歷史。可以說,用於記憶體表示的最普遍的RNN變數稱為長短期記憶體(LSTM)。LSTM使用狀態狀態向量上的學習門來確定要儲存或從儲存器中忘記什麼資訊。常見的LSTM架構由一個單元(LSTM單元的儲存部分)和三個“調節器”(通常稱為門)組成,它們構成LSTM單元內部資訊流:輸入門,輸出門和忘記門。
https://deepmind.com/blog/article/A_new_model_and_dataset_for_long-range_memory
幾年前,來自DeepMind的研究人員提出了一種改進的LSTM架構,稱為差分神經計算機(DNC)。從概念上講,DNC透過更大的記憶體矩陣擴充套件了LSTM,以解決這些不足。DNC使用注意操作從此儲存矩陣讀取。DNC體系結構使用一個控制器,該控制器負責輸入,讀取和寫入記憶體,併產生可解釋為答案的輸出。儲存器是一組可以分別儲存資訊向量的位置。
https://deepmind.com/blog/article/A_new_model_and_dataset_for_long-range_memory
儘管LSTM和DNC之類的體系結構取得了進步,但是對於深度學習系統而言,記憶體仍然是一個巨大的挑戰。具體而言,挑戰不僅圍繞改進記憶體體系結構,而且還涉及在深度學習模型中基準化記憶體功能的有效機制。DeepMind的新版本試圖準時應對這兩個挑戰。
壓縮變壓器:遠端儲存器的新架構當前,像LSTM這樣的儲存器架構的主要限制之一是容量。在那些模型中,每個記憶體單元的設計都以可學習的權重影響記憶體中的每個其他單元。但這會導致計算效率低下的系統:模型中可學習的引數數量隨記憶體大小成平方增長。變壓器體系結構通常被視為LSTM的有效替代方案,因為它們通常被建模為一系列步驟,這些步驟儲存每個時間步驟的隱藏啟用,並使用注意運算子來整合此資訊。變壓器模型能夠使用過去觀察的張量(深度X儲存器大小X維度)表示過去,即實際上比LSTM的隱藏狀態大一個數量級。
Compressive Transformer是Transformer的簡單擴充套件,它將過去的隱藏啟用(記憶體)對映到較小的一組壓縮表示形式(壓縮記憶體)。Compressive Transformer在其記憶體和壓縮記憶體集上使用相同的注意機制,學習查詢其短期粒度記憶體和長期粗略記憶體。
從體系結構的角度來看,壓縮變壓器保留了過去啟用的細粒度儲存器,然後將其壓縮為較粗的壓縮儲存器。下圖說明了具有三層的壓縮變壓器,序列長度ns = 3,儲存器大小nm = 6,壓縮儲存器大小ncm =6。高亮顯示的儲存器透過每層壓縮函式fc壓縮為單個壓縮儲存器。
https://deepmind.com/blog/article/A_new_model_and_dataset_for_long-range_memory
DeepMind使用R兩個廣泛使用的遠端基準測試,Wikitext-103和Enwik8評估了對藝術記憶體模型的狀態的壓縮變壓器架構。在這兩種情況下,壓縮變壓器在記憶體和效率中對更熟悉的模型進行了顯著改進。
deepmind.com/research/publications/Compressive-Transformers-for-Long-Range-Sequence-Modelling
PG-19:深度學習系統中長期記憶的基準
書籍是評估深度學習模型中記憶能力的最佳資料集之一。PG-19是DeepMind建立的新資料集,用於促進長期記憶體研究。該資料集基於1919年之前出版的Project Gutenberg的大約28,000本書。目前,PG-19的大小是以前的記憶體建模基準的兩倍,並且包含平均大20倍的文件,從而提供了迄今為止最豐富的資料集之一啟用長期記憶研究。
deepmind.com/research/publications/Compressive-Transformers-for-Long-Range-Sequence-Modelling
記憶體功能仍然是深度學習模型的引人入勝的領域之一。DeepMind在Compression Transformer架構和PG-19資料集方面的努力代表了深度學習系統記憶體模型開發中的相關里程碑。瞭解DeepMind,我們很可能很快會在這方面看到更多的改進。