首頁>Club>
3
回覆列表
  • 1 # 氪星情報局

    下面是我對2018年深度學習的10個預測:

    (1)大部分深度學習領域的硬體創業公司都將失敗

    很多深度學習硬體創業公司將在2018年開始交付他們的矽產品(深度學習硬體的核心部件是由晶體矽構成)。其中的大部分公司都將破產,因為他們忘了交付好的軟體來支援他們的新解決方案。這些創業公司的DNA是硬體。不幸的是,在深度學習領域,軟體與硬體同樣重要。這些初創公司大多不懂軟體,也不懂得開發軟體的成本。這些公司可能會交付矽產品,但是沒有任何東西能在這些產品上執行。

    研究人員將開始使用這些張量計算核心,不僅用於推理,還會用於加速訓練。英特爾的解決方案將繼續被推遲,很可能會讓人失望。記錄顯示,英特爾無法在2017年年中實現這一計劃,而且所有人都不知道該公司何時會發布這一訊息。Google將繼續用機器學習晶片TPU來給世界帶來驚喜。也許GOogle透過將其IP授權給其他半導體廠商來進入硬體行業。如果它能繼續成為除英偉達以外唯一的真正玩家,它這麼做是有意義的。

    (2)元學習將會成為新的SGD

    2017年,在元學習領域出現了很多有分量的研究成果。隨著研究群體對元學習有更好的理解,舊的隨機梯度下降法(SGD)將會被擱置,取而代之的是一種結合了開發和探索性的搜尋方法的更有效的方法。無監督學習的進展將會出現遞增,但它主要是由元學習演算法驅動的。

    (3)生成模型驅動一種新的建模方式

    關於生成模型的科學研究將會越來越多。目前,大多數研究都是在生成影象和語音領域開展的。但是,我們會發現這些方法將被整合到用於建模複雜系統的工具中,其中就包括深度學習在經濟建模裡的應用。

    (4)自我博弈學習是自動化的知識創造

    AlphaGo Zero和AlphaZero是從零開始透過自我博弈學習是一次巨大的飛躍。在我看來,它的影響與深度學習的出現帶來的影響是同等重要的。深度學習發現了通用的函式逼近器,強化式自我博弈學習發現了通用的知識創造方式。我期待看到更多與自我博弈學習相關的進展。

    (5)直覺機器將縮小語義鴻鴻溝

    這是我做的一個最雄心勃勃的預測。我們將會縮小直覺機器和理性機器之間的語義鴻溝。雙重過程理論(Dual process theory)(兩種認知機器的概念,一種是無模型的,另一種是基於模型的)將會成為關於我們應該如何構建新的人工智慧的更普遍的概念。在2018年,人工直覺的概念將不再是一個邊緣概念,而是一個被普遍接受的概念。

    (6)解釋能力是無法實現的——我們必須偽造它

    解釋能力存在兩個問題。其中比較常見的一個問題是,這些解釋有太多的規則,人們通常無法完全掌握。第二個問題就不那麼常見了,那就是機器會創造出一些完全陌生的、無法解釋的概念。我們已經在AlphaGo Zero和Alpha Zero的策略中看到了這一點。人類會發現它們下棋時走的有些棋是違反常規的,但可能僅僅是因為人類沒有能力去理解它走這一步棋背後的邏輯。

    在我看來,這是一個無法解決的問題。取而代之的是,機器將變得非常善於“偽造解釋”。簡而言之,可解釋機器的目的是理解讓人類感到舒服的解釋或者在人類直覺層面上能夠理解的解釋。然而,在大多數情況下,人類無法獲得完整的解釋。

    我們需要透過創造虛假解釋來在深度學習中取得進展。

    (7)深度學習領域的研究成果會成倍增加

    2017年,人們已經很難掌握全部的深度學習研究成果了。在2018年ICLR 大會上提交的論文數量約為4000份。為了趕上會議時間,一位研究人員每天必須要閱讀10篇論文。

    這個領域的問題還在進一步惡化,因為理論框架都在不斷變化中。為了在理論領域取得進展,我們需要尋找能夠讓我們擁有更好的洞察力的更先進的數學運算方法。這將是一個艱難的過程,因為大多數深度學習領域的研究人員都沒有相應的數學背景來理解這些系統的複雜性。深度學習需要來自複雜性理論的研究人員,但這類研究人員是少之又少的。

    由於研究論文太多和理論的欠缺,我們現在處在一種非常尷尬的境地。同樣缺失的是通用人工智慧(artificial general intelligence)的一般路線圖。因為理論很薄弱,我們能做的最好的事情就是建立一個與人類認知相關的里程碑路線圖。我們只有一個來源於認知心理學的推測理論的框架。這是一個糟糕的情況,因為來自這些領域的經驗證據是參差不齊的。

    在2018年,深度學習方面的研究論文可能會增加三到四倍。

    (8)工業化是透過教學環境實現的

    通往可預測性和可控制性更強的的深度學習系統的發展之路是透過具體的教學環境的發展來實現的。如果你想找到最原始的教學方法,你只需要看看深度學習網路是如何訓練的就行。我們將在這個領域看到更多的進展。

    預計會有更多的公司披露他們的內部基礎設施,解釋他們是如何大規模地部署深度學習的。

    (9)會話認知的出現

    (10)我們需要人工智慧應用於道德領域

    對人工智慧更多地應用於道德領域的需求將會增加。現在,人們越來越意識到自動化失控造成的意想不到後果所帶來的災難性影響。我們今天在Facebook、Twitter、谷歌、亞馬遜等網站上發現的簡單的自動化可能會對社會產生副作用。

    我們需要理解部署能夠預測人類行為的機器的倫理道德。面部識別是我們擁有的最危險的能力之一。作為一個社會,我們需要要求自己只為了社會的整體利益而使用人工智慧,而不是將人工智慧作為增加不平等的武器。

    在接下來的一年裡,我們將會看到更多關於道德的討論。然而,不要期望會有新的規定出臺。在理解人工智慧對社會的影響方面,政策制定者往往是落後好幾年的。我不期望他們停止玩弄政治、去開始解決真正的社會問題。美華人民已經成為眾多安全漏洞的受害者,但我們沒有看到政府透過新的立法或採取什麼行動來解決這個嚴重的問題。所以我們自己也不要盲目樂觀期待。

  • 2 # 鎂客網

    在過去的兩三年裡,人工智慧和深度學習在公共領域出現了爆炸式的增長,推出了一些令人興奮的產品。在2018年和未來幾年,它們將越來越多地出現在我們的日常互動中,尤其是在移動應用領域。這裡大膽預測一下自然語言處理和影片影象處理這兩個方面。

    1.自然語言處理

    自然語言處理(NLP)是創造能夠處理或是「理解」語言以完成特定的任務的系統。這些任務可能包括:問答系統(也就是Siri、 Alexa和小娜所做的事情),情感分析(判斷一句話隱含的積極或消極意義),圖片題注(為輸入的影象生成一個標題),機器翻譯(將一段文字翻譯成另一種語言),語音識別(語音翻譯為文字),詞性標註(消極和積極),基於這些在未來的應用包括像改進消費者服務聊天機器人、完美的機器翻譯,我們目前已經可以做到文字作為輸入,音訊做出輸出。研究取得了出色的結果,因為跟人類的差異減少了50%,如果可以應用量產,將是記者,剪輯師,字幕師等很多人的福音

    2.影片影象處理處理

    視覺領域一個重要的挑戰是人臉識別,17年百度,阿里等大公司這塊技術都有了小範圍的應用,利用深度模型強大的學習能力,高效的特徵表達能力,將畫素級原始資料到抽象的語義概念逐層提取資訊將是一個非常火熱的領域。傳統上各類驗證方式如身份證、密碼卡、口令卡等無不存在著諸多的問題,並且伴隨著各類破解技術的不斷進步,也面臨著越來越嚴重的挑戰,人臉識別技術作為人類視覺上最傑出的能力之一,由於它的無害性以及對使用者最直觀自然的方式,因此使得其成為生物特徵自動識別技術領域最具有應用前景的方式。鑑於人臉識別具有非接觸、友好、直接、快速、外延性廣等特點,在安防、教育、支付、國防、金融等領域潛力巨大。

  • 3 # 機器之心Pro

    本文的預測基於 2012 年以來我關注的學術界和科技巨頭實驗室的研究思路演變。我所選擇的領域,從我的觀點來看,都多多少少尚處於發展的初級階段,但是已經為研究做足了準備,且在 2018 年可能獲得良好的結果,並在 2019-2020 年能投入實際應用。請閱讀吧!

    開放科研

    來自其他學科的學術界人士正在自問:

    人工智慧研究的進展為何如此之快?

    首先,在機器學習領域,大多數文章並不在期刊中發表,而是以即時 arXiv 預印本的形式提交到會議論文中。因此,人們無需在論文提交之後等待數月,就能很快地看到最新進展。第二,我們並不發表「順勢療法」的文章:如果你想讓文章被髮表的文章,必須確保在文中展現最先進的技術,或是展示和現有最先進技術性能相近的新方法。而且,新方法必須在不同的指標中有所改進——其中包括速度、準確率、並行執行效率、數學證明的質量、處理不同大小資料集的能力等——即大大提高整體質量。最後,所有的主要文章都是開源實現的,因此別人可以使用你的程式碼進行二次檢查甚至改進。

    以「部落格」為形式的出版新格式,是當代人工智慧研究中最棒的事情之一。我們可以關注各種部落格,比如:

    DeepMind blog(https://deepmind.com/blog/)

    OpenAI blog(https://blog.openai.com/)

    Salesforce blog(https://www.salesforce.com/products/einstein/ai-research/)

    IBM Research blog(http://www.research.ibm.com/ai/)

    在其中,結果得以清晰展現,所以即使是不諳於研究的人也能看出這有多「酷」。就個人而言,我非常喜歡 Distill Pub(https://distill.pub/)。

    Distill Pub 是一本真正的科學期刊,不過文章看起來更像博文,有著很棒的插圖。當然,這需要大量的工作,但是現在只有這種研究形式才能吸引更多的人——基本上,你可以同時向以下三種人同時展現成果:

    研究者,他們可以評估你的數學成果;

    開發者,他們可以從視覺化影象中瞭解你的研究意圖;

    投資者,他們可以瞭解你的研究,懂得它該如何應用。

    我相信,在接下來的幾年裡,最佳研究就是這樣釋出的。如果科技巨頭正在這麼做——你不妨也試試!

    無平行語料庫的語言模型

    讓我們考慮一個簡單的問題:

    使用 50 本阿拉伯語書、16 本德語書、7 本烏克蘭語書,學習阿拉伯語到烏克蘭語的翻譯,以及烏克蘭語到德語的翻譯。

    你能做到嗎?我打賭你不行。但是現在機器已經可以做到。2017 年,兩篇突破性的文章發表了,它們是「Unsupervised Machine Translation Using Monolingual Corpora Only」和「Unsupervised Neural Machine Translation」。基本上,研究想法是訓練一些通用人類語言表達空間,其中將相似的句子連線在一起。這個想法並不新鮮,但是現在,它卻能在無顯式德語-阿拉伯語句子對的情況下實現翻譯:

    多語種表徵空間的圖示

    這些文章作者表示,翻譯質量可以在少量監督下得到大幅上升。我預計這項研究將一直持續到明年夏天,並在 2018 年年底得到產品應用。而這種有監督卻並非傳統意義的監督學習的總體思路,可以並且必定會擴充套件到其他領域。

    更好地理解影片

    現在計算機視覺系統已在視覺方面超越人類。這要歸功於不同深度、廣度和連線密集度的網路:

    但是現在,我們只在靜止影象上進行了效能基準測試。這很不錯,但是我們習慣於用眼睛觀察影象的序列、影片、或是真實世界的改變——所以,我們需要將這些計算機視覺的成果轉化到影片領域,並使其能工作得和在靜止圖片中一樣快。

    老實說,在靜止的影象中檢測 1000 個物體簡直是太無聊了。

    在最近的 NIPS 2017 中,發表了關於下一幀預測的有趣結果(Temporal Coherency based Criteria for Predicting Video Frames using Deep Multi-stage Generative Adversarial Networks),我們可以看到這與用 RNN 網路進行文字生成的聯絡,其中預測下一個詞的訓練的神經網路可作為一種語言模型。此外,還發布了關於從影片中進行表徵學習的結果(Unsupervised Learning of Disentangled Representations from Video)。以下是可供使用的資料集,以改善注意力模型、將光流概念新增到影片中、使用迴圈架構以使其在大型影片中更加高效:

    Moments in Time(http://moments.csail.mit.edu/)

    Youtube-8M(https://research.google.com/youtube8m/)

    多工/多模式學習

    當我觀察周圍的世界時,不僅看到了移動的影象:我聽到聲音、感受到外界的溫度、感知一些情緒。這說明我能從不同的來源「觀察」這個世界,我想稱之為「多模態」。而且,即使我只「觀察」一種形式,比如聽到別人的聲音——我不會像語音識別系統那樣只是將其翻譯為文字,我還能瞭解說話人的性別、年齡、以及說話人的感情——我在同一時刻了解了很多不同的東西。我們希望機器也有相同的能力。

    人類能夠從一個影象中得到成百個結論,為什麼機器做不到呢?

    目前並沒有很多關於解決多工問題的資料集,通常在建立額外的任務之前,我們將這些資料集用作正則項。但是,最近牛津大學在多模態影象識別方面釋出了很不錯的資料集,向人們提出了挑戰性的問題。我希望明年在語音應用方面會出現更多的資料集和結果(例如年齡、聲音),詳見「Visual Decathlon Challenge」(http://www.robots.ox.ac.uk/~vgg/decathlon/)。

    人類能處理 10 餘種模態,為什麼機器不能呢?

    這是一個令人震驚的環境,在其中你能教你的機器人在一個接近全真的房間內去看、聽、感受所有事。參見「HoME: a Household Multimodal Environment」(https://home-platform.github.io/)

    我們能同時做這些事情嗎?

    如果我們能構建令人震驚的的多模態-多工模型,那麼就可以根據完全不同的輸入來解決不同的任務——Google Reasearch 就做到了。他們構建了一個可將圖片和文字作為輸入的體系結構,並用單個神經網路解決影象識別、影象分割、文字翻譯、文字解析等問題。這不算是解決這類問題最聰明的方法,但這是一個很好的開始!

    參考閱讀:

    學界 | 穩!DeepMind 提出多工強化學習新方法 Distral

    共享相關任務表徵,一文讀懂深度神經網路多工學習

    強化學習:還在遊戲領域

    強化學習是令我最興奮、也最懷疑的領域之一——強化學習可以在自我博弈、不知道任何規則的情況下學習複雜的遊戲,並在圍棋、象棋和牌類等遊戲中取勝。但是同時,我們幾乎看不到強化學習在真實世界中的應用,最多也只是一些 3D 玩具人物在人造環境當中攀爬或是移動機器手臂。這也就是為什麼我認為明年強化學習還會繼續發展。我認為,明年將會有兩個重大突破:

    Dota 2(https://blog.openai.com/dota-2/)

    星際爭霸 2(https://deepmind.com/blog/deepmind-and-blizzard-open-starcraft-ii-ai-research-environment/)

    是的,我非常確定,Dota 和 星際爭霸 2 的人類冠軍將被 OpenAI 和 DeepMind 機器人所擊敗。目前已經可以使用 OpenAI Gym 環境(https://github.com/alibaba/gym-starcraft)自己玩星際穿越 2。

    看看 OpenAI 機器人是怎麼玩 Dota 遊戲的:https://www.youtube.com/watch?v=x7eUx_Ob4os

    對於那些沒有玩多少遊戲的研究人員而言,可能想改進一些 OpenAI 所獲得的的有趣結果:競爭性的自我博弈、從其他模型中學習、學習溝通和合作,以及 Facebook 引導的學習談判。我希望 1-2 年內能在聊天機器人中看到上述結果,但是目前還需要完成更多研究。

    上圖表明 Facebook 機器人正在學習談判(來源:https://code.facebook.com/posts/1686672014972296/deal-or-no-deal-training-ai-bots-to-negotiate/)

    參考閱讀:

    OpenAI 人工智慧 1v1 擊敗 Dota2 最強玩家:明年開啟 5v5 模式

    學界 | 面向星際爭霸:DeepMind 提出多智慧體強化學習新方法

    業界 | 讓人工智慧學會談判,Facebook 開源端到端強化學習模型

    人工智慧需要自我解釋

    使用深度神經網路當然很贊。你能憑藉層數、連線密度和在 ImageNet 上 0.05 的改善來自我吹噓,或者可以將其應用到醫療放射學中。但是,如果神經網路無法實現自我解釋,我們怎麼能真正依賴它呢?

    我想知道的是,為什麼我的神經網路會認為影象中出現的是一隻狗,或者為什麼它認為有一個人在笑,又何以判斷我患有一些疾病。

    但不幸的是,深度神經網路即便能給出準確的結果,卻無法給我們上述問題的答案。

    圖片來自演講展示「DARPA Explainable AI—Performance vs. Explainability」

    即使我們已經有了一些成功的應用,比如:

    從深度網路提取基於樹的規則:https://www.ke.tu-darmstadt.de/lehre/arbeiten/master/2015/Zilke_Jan.pdf

    卷積神經網路層的視覺化:http://cs231n.github.io/understanding-cnn/

    以及一些更加有難度的想法如:

    隱概念:http://www-nlpir.nist.gov/projects/tvpubs/tv14.papers/sri_aurora.pdf

    與-或圖訓練:http://www.cnbc.cmu.edu/~tai/microns_papers/zhu_AOTpami.pdf

    生成視覺解釋:https://arxiv.org/pdf/1603.08507.pdf

    然而,這個問題仍然是開放性的。

    最近的當前最佳 InterpretNet:

    我們還應關注貝葉斯方法,它可以跟蹤預測的準確性。對於已有的神經網路,這在明年將是機器學習中一個非常熱門的話題。

    參考閱讀:

    學界 | Hinton 提出泛化更優的「軟決策樹」:可解釋 DNN 具體決策

    業界 | 解釋深度神經網路訓練全過程:谷歌釋出 SVCCA

    人工智慧安全:不再是小問題

    在人工智慧可解釋性之後,要解決的第二個重要任務就是當代機器學習演算法的脆弱性——他們很容易被對抗樣本、預測 API 等愚弄:

    Hype or Reality? Stealing Machine Learning Models via Prediction APIs(https://blog.bigml.com/2016/09/30/hype-or-reality-stealing-machine-learning-models-via-prediction-apis/)

    Attacking Machine Learning with Adversarial Examples(https://blog.openai.com/adversarial-example-research/)

    對於這些事,Ian Goodfellow 有一個名為 CleverHans(http://www.cleverhans.io/security/privacy/ml/2017/06/14/verification.html)的驚人創舉。關於資料的隱私和加密資料的訓練,請看看牛津大學博士生的精彩文章「Building Safe A.I.」(https://iamtrask.github.io/2017/03/17/safe-ai/),其中展示了構建簡單同態加密神經網路的例子。

    我們應當保護人工智慧的輸入(私人資料)、內在結構(使其免於攻擊),以及它所習得的東西(其行動的安全性)。

    以上所述仍非如今人工智慧所面臨的全部問題。從數學的角度來看(特別是在強化學習中),演算法仍然不能安全地探索環境,這也就意味著如果我們現在讓物理機器人自由地探索世界,他們仍然不能在訓練階段完全避免錯誤或不安全的行為;我們仍然不能使我們的模型適用於新的分佈和情況——例如,用在真實世界中的物件中訓練的神經網路識別繪製的物件仍然很困難;此外還有許多問題,你可以在如下文章中檢視:

    Concrete AI Safety Problems(https://blog.openai.com/concrete-ai-safety-problems/)

    Specifying AI safety problems in simple environments | DeepMind(https://deepmind.com/blog/specifying-ai-safety-problems/)

    最佳化:超越梯度,還能做什麼?

    我是最佳化理論的忠實粉絲,而且我認為 2017 年最佳的最佳化方法發展綜述是 Sebastian Ruder 所撰寫的「Optimization for Deep Learning Highlights in 2017」。這裡,我想回顧一下改進一般隨機梯度下降演算法+反向傳播的方法:

    合成梯度和其他方式以避免深度學習中高成本的鏈式法則(https://deepmind.com/research/publications/understanding-synthetic-gradients-and-decoupled-neural-interfaces/)

    進化策略,可用於強化學習、不可微損失函式問題,可能避免陷入區域性最小值(https://blog.openai.com/evolution-strategies/)

    SGD 的改進,學習率和批排程(http://ruder.io/deep-learning-optimization-2017/)

    學習最佳化——將最佳化問題本身視為學習問題(http://bair.berkeley.edu/blog/2017/09/12/learning-to-optimize-with-rl/)

    不同空間的最佳化——如果我們可以在 Sobolev 空間中訓練網路呢?(https://papers.nips.cc/paper/7015-sobolev-training-for-neural-networks.pdf)

    我相信,透過進化方法解決不可微函式最佳化問題帶來的進展,強化學習和學習最佳化技術將幫助我們更有效地訓練人工智慧模型。

    3D 和圖形的幾何深度學習

    在 NIPS 的一份演說「Geometric Deep Learning on Graphs and Manifolds」之前,我並沒有真正意識到這個話題的重要性。當然,我明白現實資料比 R^d 更困難,實際上資料和資訊本身就有自己的幾何和拓撲結構。三維物體可以被看作點雲,但事實上它是一個表面(流形),一個特別是在運動中具有自身區域性和全域性數學(微分幾何)的形狀。或者,考慮一下圖形,你當然可以用一些鄰接矩陣的形式描述它們,但是你會忽視一些你真想看作圖形的區域性結構或圖形(例如分子)。其他多維的物件,例如影象、聲音、文字也可以且必須從幾何角度考慮。我相信,我們會從這個領域的研究中得到許多有趣的見解。讓我們堅信:

    所有資料都有著我們無法避免的區域性和全域性幾何結構。

    檢視下列連線,以獲取更多細節:

    Geometric Deep Learning(http://geometricdeeplearning.com/)

    結論

    我本來還可以談談知識表示、遷移學習、單樣本學習、貝葉斯學習、微分計算等領域,但是說實話,這些領域在 2018 年還沒有充足的準備能有巨大的發展。貝葉斯學習中,我們仍然沒有解決抽樣的數學問題。微分計算聽起來很酷,但有何用?神經圖靈機、DeepMind 的差分神經計算機——又該何去何從?知識表示學習已是所有深度學習演算法的核心,已經不值得再寫它了。單樣本學習和少樣本學習也不是真正的已開發領域,而且目前也沒有明確的指標或資料集。我希望本文提到的主題能在一些熱門或成熟的領域發展,並且在 2019-2020 年能有大量實際應用。

    OpenAI(http://openai.com/)

    DeepMind(https://deepmind.com/)

    IBM AI Research(http://www.research.ibm.com/ai/)

    Berkley AI(http://bair.berkeley.edu/)

    Stanford ML Group(https://stanfordmlgroup.github.io/)

    Facebook Research(https://research.fb.com/)

    Google Research(https://research.googleblog.com/)

  • 中秋節和大豐收的關聯?
  • 10月下旬到11月份到黑水達古冰山拍紅葉彩林,高速堵車嗎?公路下雪結冰嗎?