回覆列表
  • 1 # 機器之心Pro

    在讀完書或者完成深度學習線上課程之後,如何才能繼續學習機器學習?如何才能「自給自足」地理解這一領域的最新突破?答案就是讀論文,機器學習領域的論文是所有前沿思想與技術的孵化所。大多數深度學習概念與技術都是近幾年提出來的,想要深入理解它們就必須要看原論文,而不能僅僅關注線上課程、部落格甚至是書籍,只有論文才是根本。

    在一個 Quora 問答《I want to pursue machine learning as a career but not sure if I am qualified. How can I test myself?》中,問到如何測試某人是否達到了從事機器學習職業的標準。吳恩達說(只要不斷學習)任何人都可勝任機器學習的工作。他說,在完成一些機器學習課程之後,「進一步的學習,閱讀研究論文。最好是嘗試復現研究論文中的結果。」

    OpenAI 的研究員 Dario Amodei 說,「為了測試自己是否適合從事 AI 安全或者機器學習的工作,只要嘗試快速實現大量模型。從最近的論文中找到一個機器學習模型,實現它,快速的讓它能跑起來。」

    這表明,讀研究論文,對個人進一步瞭解這個領域極為重要。

    每個月都有大量的論文被髮表,任何認真學習 ML 的人,都不能只是依靠別人把最新研究分解過的教程類文章或者課程。新的、獨創性的研究都是在讀文章的時候做出來的。機器學習領域的研究節奏從未如此快過,你能跟上節奏的唯一方法就是養成閱讀論文的習慣。

    在此文章中,我會嘗試給出閱讀論文的可行性建議。最後,我會嘗試分解一篇論文,從此開始讀論文。

    如何讀論文

    arXiv.org

    arXiv 是預印本論文的網上釋出平臺,研究者一般在著名的學術期刊或會議論文發表之前就先將其釋出到該平臺。

    那麼為什麼先發到 arXiv 上呢?其實事實證明,研究和實際撰寫論文並不是終點,將論文提交給某個學術期刊發表是非常漫長的過程。在一篇論文提交給學術期刊後,同行審議的過程一般需要數月甚至一年多的時間。而現在它對於機器學習領域來說是不可取的,因為這個領域發展從未如此迅速。

    所以,研究者在預印本資源庫 arXiv 上發表論文以快速傳播他們的研究,並獲得快速反饋。

    Arxiv Sanity Preserver

    讓研究者能輕鬆的預印論文自然很不錯。但對於閱讀的人而言,預印論文的數量太多了,對於新手而言肯定不適合(個人觀點,想試試也無妨)。

    所以,我要向你推薦 Arxiv Sanity Preserver:http://www.arxiv-sanity.com/

    Arxiv Sanity Preserver 由 Andrej Karpathy 建立。

    arXiv Sanity 對於 arXiv 而言,正如 Twitter 的 newsfeed 對於 Twitter 的作用。在 newsfeed 中,你能看到最有趣的符合你個人口味的推文,arXiv Sanity 也一樣。它能讓你基於研究趨勢、你的過去喜好以及你關注的人的喜好來排序論文。

    Machine Learning-Reddit 上的 WAYR thread

    WAYR 是 What Are You Reading 的簡寫。這是一個 Reddit 的子網站(subreddit)Machine Learning 上的一個 thread,其中人們在上面推送近期閱讀的機器學習論文,並討論他們發現的有趣結果。

    如我所說,每週在 arXiv 上發表的機器學習領域的研究論文數量非常多。這意味著幾乎不可能讓個人每週都把它們全部讀完,同時還能兼顧其它事情。同時,也不是所有論文都值得一讀的。

    因此,你需要把精力集中在最有潛力的論文上,而以上介紹的 thread 就是我推薦的一種方式。

    Newsletter、Newsletter、Newsletter!

    Newsletter 是我個人最喜歡的追蹤 AI 最新進展的資源。你只需要訂閱它們,就可以定期在電子郵件裡收到推送。然後,你就能瞭解到這周裡和 AI 相關的最有趣的新聞、文章和研究論文。

    我已經訂閱了以下 Newsletter:

    Import AI(Jack Clark):這是我的最愛,因為除了推送以上我介紹的那些資訊之外,它還擁有稱為「Tech Tales」的特色欄目。這個欄目包含新的 AI 相關的基於上週時間的短篇科幻小說。

    地址:https://jack-clark.net/

    Machine Learning(Sam DeBrule):他也以相同的名字在 Medium 上發表文章,其中有一些非常有趣的文章,推薦閱讀。

    地址:https://machinelearnings.co/

    Nathan.ai(Nathan Benaich):以上兩個快訊是週報形式,而這個是季刊形式。因此,你能在每三個月收到一封長郵件,其中總結了過去三個月裡最有趣的領域進展。

    地址:https://www.getrevue.co/profile/nathanbenaich

    The Wild Week(Denny Britz):這個快訊的展示很簡潔,但在過去兩個月裡似乎沒那麼活躍了。總之我也在這裡提一下,萬一 Denny 又繼續更新了呢。

    地址:https://www.getrevue.co/profile/wildml

    在 Twitter 上關注「AI 大牛」

    另一種追蹤領域最前沿的方式是在 Twitter 上關注著名的研究者和研究機構的賬號。以下是我的關注列表:

    Michael Nielsen

    Andrej Karpathy

    Francois Chollet

    Yann LeCun

    Chris Olah

    Jack Clark

    Ian Goodfellow

    Jeff Dean

    OpenAI

    但我要怎麼「開始」?

    沒錯,這才是更加迫切的問題。

    首先,確保你理解機器學習的基礎,例如迴歸和其它演算法;理解深度學習的基礎,一般神經網路、反向傳播、正則化,以及一些進階內容,例如卷積網路(CNN)、迴圈網路(RNN)和長短期記憶網路(LSTM)的工作方式。我不認為閱讀研究論文是理清基礎的好辦法,有很多其它資源可以用來打好基礎。比如吳恩達的《Machine Learning》、《Deep Learning》線上課程,周志華的《機器學習》(西瓜書)、Bengio 等著的《深度學習》教材。

    學好基礎後,你應該從閱讀引入那些基本概念、思想的研究論文開始。從而你可以聚焦於習慣研究論文的形式,不要太擔心對第一篇研究論文的真正理解,你已經對那些概念很熟悉了。

    我推薦從 AlexNet 這篇論文開始。

    論文地址:https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks

    為什麼推薦這一篇?看看下圖:

    我們可以看到,計算機視覺和模式識別(Computer Vision and Patter Recognition)的論文發表數從 2012 年開始暴漲,而這一切都源於 AlexNet 這篇論文。

    AlexNet 的作者是 Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton,論文標題為《ImageNet Classification with Deep Convolutional Networks》。這篇論文被認為是該領域中影響力最大的論文。它介紹了研究者如何使用稱為 AlexNet 的卷積神經網路贏得了 2012 年的 ImageNet 大規模視覺識別挑戰賽(ILSVRC)的冠軍。

    讓計算機觀察和識別目標是計算機科學最早期的研究目標之一。ILSVRC 就像是計算機視覺的奧林匹克,其中參賽者(計算機演算法)需要準確識別影象屬於 1000 個類別的哪一個。而且,在 2012 年,AlexNet 在這項競賽中遠遠超越了競爭對手:

    它獲得了 15.3% 的 top-5 準確率,第二名僅獲得 26.2% 的 top-5 準確率。

    毋庸置疑,整個計算機視覺社群都非常令人興奮,該領域的研究正前所未有地向前加速。人們開始意識到深度神經網路的強大力量,你也可以在該領域嘗試獲得更多的成果。只要你們瞭解一些卷積網路的基礎,那麼掌握 AlexNet 論文的內容就會很簡單,它們將會給你帶來更多的知識與力量。

    完成這一篇論文後,你可以嘗試其它與 CNN 相關的開創性論文,也可以轉而瞭解其它如 RNN、LSTM 和 GAN 等流行的架構。

    當然目前還有很多渠道獲取重要的研究論文,例如在 GitHub 中就有非常多的論文集合。

    論文集合:https://github.com/floodsung/Deep-Learning-Papers-Reading-Roadmap

    此外,最後還有一個非常優秀的平臺 Distill,是一個現代的互動、視覺化期刊平臺,面向現有以及新的機器學習研究成果。Distill 使用了現代使用者介面,注重對研究的理解與詮釋。

    Distill 地址:https://distill.pub (https://distill.pub/)

    雖然 Distill 更新非常慢,但它的每一篇都非常經典。

  • 2 # 加米穀大資料

    全面瞭解機器學習演算法和相關的數學知識。要想真正地瞭解演算法細節,就必須從頭開始編碼實現。建議可以試試一些公開課app(比如,course、Brilliant.org),並參加人工神經網路課程。在學習的同時,可以完成對應的線下作業。透過完成對應的作業,會進一步加深對知識的理解。

    可以看看這兩個課程:

    吳恩達《深度學習專項課程》

    一個更高階的課程系列,適用於對機器學習、深度學習及其原理和應用感興趣的人。

    Advanced Machine Learning 專項課程

    關於機器學習的另一個高階課程。如果你想盡可能多地學習機器學習技術,該專項課程就是一個很好的選擇。這需要更多的數學知識。

    相關:機器學習:從入門到晉級

    https://www.toutiao.com/i6625449704572322307/

  • 中秋節和大豐收的關聯?
  • 今年才21歲體檢尿酸達到530身高183體重88公斤怎麼降下去?