深度學習的歷史可以追溯到1943年,當時Walter Pitts和Warren McCulloch建立了基於人腦神經網路的計算機模型。他們將演算法和數學方法結合在一起,稱之為“閾值邏輯”,以模仿思維過程。自那時以來,深度學習一直在穩步發展,其發展只有兩個重大突破。兩者都與臭名昭著的人工智慧冬天有關。
亨利·凱利(Henry J. Kelley)因在1960年開發了連續反向傳播模型的基礎而受到讚譽。1962年,斯圖爾特·德雷福斯(Stuart Dreyfus)開發了僅基於鏈式規則的簡單版本。雖然反向傳播(為了訓練目的而向後傳播誤差)的概念在1960年代初確實存在,但它笨拙且效率低下,直到1985年才有用。
最早開發深度學習演算法的工作是在1965年由Alexey Grigoryevich Ivakhnenko(開發了資料處理的分組方法)和Valentin Grigorʹevich Lapa(控制論與預測技術的作者)開發的。他們使用具有多項式(複雜方程式)啟用函式的模型,然後進行統計分析。然後,從每一層將統計上最佳的功能轉發到下一層(緩慢的手動過程)。
在1970年代的第一個AI冬季開始,因為深度學習和AI研究無法兌現諾言,從而影響了資金投入研究。
福島邦彥使用了第一個“卷積神經網路”。福島設計了具有多個池化和卷積層的神經網路。 1979年,他開發了一種名為Neocognitron的人工神經網路,該網路使用了分層的多層設計。這種設計使計算機能夠“學習”到視覺圖案。該網路類似於現代版本,但是經過強化策略的反覆迴圈啟用訓練,隨著時間的推移,該策略逐漸增強。此外,福島的設計允許透過增加某些連線的“權重”來手動調整重要功能。
Neocognitron的許多概念繼續被使用。自上而下的連線和新的學習方法的使用已允許實現各種神經網路。當同時顯示多個模式時,選擇性注意模型可以透過將注意力從一個模式轉移到另一個模式來分離和識別各個模式。 (在多工處理中,我們許多人使用相同的過程)。現代的Neocognitron不僅可以識別資訊缺失的圖案(例如,不完整的數字5),還可以透過新增資訊缺失來完善影象。這可以描述為“推斷”。
反向傳播,即在訓練深度學習模型中使用錯誤的方法,在1970年得到了顯著發展。那時Seppo Linnainmaa撰寫了他的碩士論文,其中包括用於反向傳播的FORTRAN程式碼。不幸的是,直到1985年,該概念才應用於神經網路。那時Rumelhart,Williams和Hinton證明了神經網路中的反向傳播可以提供“有趣的”分佈表示。從哲學上講,這一發現使人們認識到人類理解是依賴符號邏輯(計算主義)還是分散式表示(聯絡主義)的認知心理學問題。 1989年,Yann LeCun在貝爾實驗室提供了反向傳播的第一個實際演示。他將卷積神經網路與反向傳播結合到讀取的“手寫”數字上。該系統最終用於讀取手寫支票的數量。
這次也是第二個AI冬季(1985-90年代)開始的時候,這也影響了神經網路和深度學習的研究。各種過於樂觀的人誇大了人工智慧的“即時”潛力,超出了預期並激怒了投資者。憤怒如此強烈,“人工智慧”一詞達到了偽科學的地位。幸運的是,一些人繼續從事AI和DL的研究,並取得了一些重大進展。 1995年,Dana Cortes和Vladimir Vapnik開發了支援向量機(一種用於對映和識別相似資料的系統)。 Sepp Hochreiter和Juergen Schmidhuber於1997年開發了用於遞迴神經網路的LSTM(長短期記憶)。
深度學習的下一個重要的進化步驟發生在1999年,那時計算機在處理資料方面開始變得更快,並且開發了GPU(圖形處理單元)。使用GPU處理圖片的處理速度更快,在10年的時間裡將計算速度提高了1000倍。在此期間,神經網路開始與支援向量機競爭。雖然與支援向量機相比,神經網路的速度可能較慢,但使用相同的資料,神經網路可以提供更好的結果。神經網路還具有隨著新增更多訓練資料而持續改進的優勢。
在2000年左右,消失的梯度問題出現了。發現在較低層中形成的“功能”(課程)沒有被較高層學習,因為沒有學習訊號到達這些層。這並不是所有神經網路的根本問題,只是那些採用基於梯度的學習方法的神經網路。問題的根源是某些啟用功能。許多啟用功能壓縮了它們的輸入,進而以某種混亂的方式減小了輸出範圍。這產生了在很小範圍內對映的大面積輸入。在這些輸入區域中,大的變化將減小為輸出的小變化,從而導致梯度消失。用於解決此問題的兩個解決方案是逐層預訓練和長短期記憶的開發。
2001年,META Group(現稱為Gartner)的一份研究報告將他在資料增長方面的挑戰和機遇描述為三維的。該報告描述了隨著資料來源和類型範圍的增加,資料量的增加和資料速度的增加。這是為了為即將開始的大資料衝擊做準備。
2009年,斯坦福大學AI教授李飛飛建立了ImageNet,該資料庫免費收集了超過1400萬張帶標籤影象的資料庫。網際網路過去充滿了無標籤的影象。需要標記影象來“訓練”神經網路。李教授說:“我們的願景是大資料將改變機器學習的工作方式。資料驅動學習。”
到2011年,GPU的速度已顯著提高,從而可以“無需”逐層進行預訓練來訓練卷積神經網路。隨著計算速度的提高,很明顯,深度學習在效率和速度方面具有明顯的優勢。一個例子是AlexNet,一種卷積神經網路,其體系結構在2011年和2012年期間贏得了多項國際競賽。整流的線性單元用於提高速度和輟學率。
同樣在2012年,Google Brain釋出了一個名為“貓實驗”的不尋常專案的結果。這個自由奔放的專案探討了“無監督學習”的困難。深度學習使用“監督學習”,這意味著卷積神經網路是使用標記資料(從ImageNet想到的影象)進行訓練的。使用無監督學習,卷積神經網路將獲得未標記的資料,然後被要求尋找重複模式。
貓實驗使用了遍佈1,000臺計算機的神經網路。從YouTube上隨機拍攝了1000萬張“未標記”影象,並顯示給系統,然後允許執行該培訓軟體。訓練結束時,發現最高層的一個神經元對貓的影象有強烈反應。該專案的創始人安德魯·伍(Andrew Ng)表示:“我們還發現了一種對人臉反應非常強烈的神經元。”無監督學習仍然是深度學習領域的重要目標。
貓實驗在處理未標記影象方面比其先驅者高約70%。但是,它只能識別不到用於訓練的物件的16%,對於旋轉或移動的物件甚至更糟。
當前,大資料的處理和人工智慧的發展都依賴於深度學習。深度學習仍在發展,需要創新的想法。
深度學習的歷史可以追溯到1943年,當時Walter Pitts和Warren McCulloch建立了基於人腦神經網路的計算機模型。他們將演算法和數學方法結合在一起,稱之為“閾值邏輯”,以模仿思維過程。自那時以來,深度學習一直在穩步發展,其發展只有兩個重大突破。兩者都與臭名昭著的人工智慧冬天有關。
亨利·凱利(Henry J. Kelley)因在1960年開發了連續反向傳播模型的基礎而受到讚譽。1962年,斯圖爾特·德雷福斯(Stuart Dreyfus)開發了僅基於鏈式規則的簡單版本。雖然反向傳播(為了訓練目的而向後傳播誤差)的概念在1960年代初確實存在,但它笨拙且效率低下,直到1985年才有用。
最早開發深度學習演算法的工作是在1965年由Alexey Grigoryevich Ivakhnenko(開發了資料處理的分組方法)和Valentin Grigorʹevich Lapa(控制論與預測技術的作者)開發的。他們使用具有多項式(複雜方程式)啟用函式的模型,然後進行統計分析。然後,從每一層將統計上最佳的功能轉發到下一層(緩慢的手動過程)。
在1970年代的第一個AI冬季開始,因為深度學習和AI研究無法兌現諾言,從而影響了資金投入研究。
福島邦彥使用了第一個“卷積神經網路”。福島設計了具有多個池化和卷積層的神經網路。 1979年,他開發了一種名為Neocognitron的人工神經網路,該網路使用了分層的多層設計。這種設計使計算機能夠“學習”到視覺圖案。該網路類似於現代版本,但是經過強化策略的反覆迴圈啟用訓練,隨著時間的推移,該策略逐漸增強。此外,福島的設計允許透過增加某些連線的“權重”來手動調整重要功能。
Neocognitron的許多概念繼續被使用。自上而下的連線和新的學習方法的使用已允許實現各種神經網路。當同時顯示多個模式時,選擇性注意模型可以透過將注意力從一個模式轉移到另一個模式來分離和識別各個模式。 (在多工處理中,我們許多人使用相同的過程)。現代的Neocognitron不僅可以識別資訊缺失的圖案(例如,不完整的數字5),還可以透過新增資訊缺失來完善影象。這可以描述為“推斷”。
反向傳播,即在訓練深度學習模型中使用錯誤的方法,在1970年得到了顯著發展。那時Seppo Linnainmaa撰寫了他的碩士論文,其中包括用於反向傳播的FORTRAN程式碼。不幸的是,直到1985年,該概念才應用於神經網路。那時Rumelhart,Williams和Hinton證明了神經網路中的反向傳播可以提供“有趣的”分佈表示。從哲學上講,這一發現使人們認識到人類理解是依賴符號邏輯(計算主義)還是分散式表示(聯絡主義)的認知心理學問題。 1989年,Yann LeCun在貝爾實驗室提供了反向傳播的第一個實際演示。他將卷積神經網路與反向傳播結合到讀取的“手寫”數字上。該系統最終用於讀取手寫支票的數量。
這次也是第二個AI冬季(1985-90年代)開始的時候,這也影響了神經網路和深度學習的研究。各種過於樂觀的人誇大了人工智慧的“即時”潛力,超出了預期並激怒了投資者。憤怒如此強烈,“人工智慧”一詞達到了偽科學的地位。幸運的是,一些人繼續從事AI和DL的研究,並取得了一些重大進展。 1995年,Dana Cortes和Vladimir Vapnik開發了支援向量機(一種用於對映和識別相似資料的系統)。 Sepp Hochreiter和Juergen Schmidhuber於1997年開發了用於遞迴神經網路的LSTM(長短期記憶)。
深度學習的下一個重要的進化步驟發生在1999年,那時計算機在處理資料方面開始變得更快,並且開發了GPU(圖形處理單元)。使用GPU處理圖片的處理速度更快,在10年的時間裡將計算速度提高了1000倍。在此期間,神經網路開始與支援向量機競爭。雖然與支援向量機相比,神經網路的速度可能較慢,但使用相同的資料,神經網路可以提供更好的結果。神經網路還具有隨著新增更多訓練資料而持續改進的優勢。
在2000年左右,消失的梯度問題出現了。發現在較低層中形成的“功能”(課程)沒有被較高層學習,因為沒有學習訊號到達這些層。這並不是所有神經網路的根本問題,只是那些採用基於梯度的學習方法的神經網路。問題的根源是某些啟用功能。許多啟用功能壓縮了它們的輸入,進而以某種混亂的方式減小了輸出範圍。這產生了在很小範圍內對映的大面積輸入。在這些輸入區域中,大的變化將減小為輸出的小變化,從而導致梯度消失。用於解決此問題的兩個解決方案是逐層預訓練和長短期記憶的開發。
2001年,META Group(現稱為Gartner)的一份研究報告將他在資料增長方面的挑戰和機遇描述為三維的。該報告描述了隨著資料來源和類型範圍的增加,資料量的增加和資料速度的增加。這是為了為即將開始的大資料衝擊做準備。
2009年,斯坦福大學AI教授李飛飛建立了ImageNet,該資料庫免費收集了超過1400萬張帶標籤影象的資料庫。網際網路過去充滿了無標籤的影象。需要標記影象來“訓練”神經網路。李教授說:“我們的願景是大資料將改變機器學習的工作方式。資料驅動學習。”
到2011年,GPU的速度已顯著提高,從而可以“無需”逐層進行預訓練來訓練卷積神經網路。隨著計算速度的提高,很明顯,深度學習在效率和速度方面具有明顯的優勢。一個例子是AlexNet,一種卷積神經網路,其體系結構在2011年和2012年期間贏得了多項國際競賽。整流的線性單元用於提高速度和輟學率。
同樣在2012年,Google Brain釋出了一個名為“貓實驗”的不尋常專案的結果。這個自由奔放的專案探討了“無監督學習”的困難。深度學習使用“監督學習”,這意味著卷積神經網路是使用標記資料(從ImageNet想到的影象)進行訓練的。使用無監督學習,卷積神經網路將獲得未標記的資料,然後被要求尋找重複模式。
貓實驗使用了遍佈1,000臺計算機的神經網路。從YouTube上隨機拍攝了1000萬張“未標記”影象,並顯示給系統,然後允許執行該培訓軟體。訓練結束時,發現最高層的一個神經元對貓的影象有強烈反應。該專案的創始人安德魯·伍(Andrew Ng)表示:“我們還發現了一種對人臉反應非常強烈的神經元。”無監督學習仍然是深度學習領域的重要目標。
貓實驗在處理未標記影象方面比其先驅者高約70%。但是,它只能識別不到用於訓練的物件的16%,對於旋轉或移動的物件甚至更糟。
當前,大資料的處理和人工智慧的發展都依賴於深度學習。深度學習仍在發展,需要創新的想法。