回覆列表
  • 1 # 知識小五

    首先要有強大的程式設計能力,Java、C語言這些必須要掌握,培養出過硬的專業技能,就像李彥宏一樣。其次,要有寬闊的胸懷和能容天下的氣度,就像馬雲一樣。如此技術與氣度結合,則可以立身於網際網路領域,併成為大資料時代的贏家。

  • 2 # 造就

    要想成為一名資料科學家,先了解一下2017年資料領域的趨勢,以及資料科學家在其中發揮的作用。

    資料不只是企業的一項業務,而是關係到整個公司的命運——它是燃料,是飼料,是動力。在過去一年裡,這一事實越來越得到眾人的認可。因此,積極制定改善企業資料策略的必要性應該引起重視。關於資料策略在過去一年的情況和未來一年的趨勢,我們請多位資料專家和思想領袖談了他們的看法。

    受訪者包括:美國威斯康星大學麥迪遜分校首席資料官傑森·費希貝恩(Jason Fishbain);First San Francisco Partners公司Quattroporte約翰·拉德利(John Ladley);被譽為“資料醫生”的Data Quality Solutions公司Quattroporte托馬斯·雷德曼(Thomas C. Redman);Nationwide公司首席資料官吉姆·泰約(Jim Tyo)。

    他們的看法應該有助於企業反思已經採取的措施,並思索在新的一年裡應該採取哪些措施,讓資料策略能夠與資料價值相符。

    回顧2016年

    受訪者指出,在過去的一年裡,資料策略取得了巨大進步,但也存在美中不足之處。

    越來越多的企業將設立首席資料官(CDO)崗位,這是大多數受訪者都認同的一個趨勢。拉德利說,CDO的湧現表明,企業已經開始認識到資料資產的重要性。

    據預測,到2020年,近九成的財富500強企業將設立首席資料官或同等職位。泰約覺得這是件值得慶賀的好事,因為:

    “這一職務不斷湧現的好處在於,CDO越多,我們可以參考和仿效的商業模式就越多,資料界的成功機會就越多。”

    泰約說,早期的CDO們“克服最初的艱難困苦,制定出正確的策略,如今將可在利用資料推動業務發展方面處於非常有利的地位”。在Nationwide公司,每一位業務主管都說資料很重要,這與幾年前形成鮮明對比。他說:“現在,複雜棘手的下一個問題在於,我們如何利用資料來獲得競爭優勢?”

    拉德利認為,這是很多企業將在2017年面對的一個數據策略問題,因為各行各業不同規模的公司都越來越重視資料的貨幣化。他說:“把資料視為具有可替代價值的資產,這種想法如今在影響著企業戰略甚至願景的設定。”

    另一方面,並不是所有公司都充分意識到了資料資產的價值。例如,拉德利指出,某些公司的CDO流動率很高,說明這一崗位的職責還不夠明確,企業還不習慣領導層中的這個新角色。這方面的“不安定”可能與某些企業文化問題有關。資料驅動企業必須靠有力的資料策略來推動,而這些問題的存在仍在拖慢它們進步的腳步。

    泰約說,有些企業認為,建立資料驅動的文化就是“企圖取代曾使企業功成名就的偉大傳承和文化”。事實並非如此。他說,使命和價值驅動的文化會令企業變得很偉大,“而CDO只是試圖引入基於事實、洞察驅動的方法,好讓這種文化與客戶更加契合。”

    拉德利說,真正意義上的資料驅動將大幅改變企業的商業模式,影響到管理、架構和運營。按照雷德曼的說法,不能只從字面上去理解“資料驅動的文化”,可惜這種事情常常發生。

    展望2017年(及以後)

    受訪者談到了哪些將是企業資料策略的優先事項。

    雷德曼的回答是繼續朝向真正的資料驅動文化邁進。他說,成為資料驅動型企業意味著做出意義深遠的改變,包括:制定積極的計劃來照料資料(主要涉及質量和安全);落實這一計劃,並及時制定和執行以獲取市場競爭優勢為目標的資料策略;推進管理體系建設,充分發揮資料的特殊屬性。此外,還需要“一份積極主動的計劃,獲取更多的資料,並以越來越有效的方式將資料和直覺結合起來,使個人和團隊作出更好的決策”。

    他還說,看到他提出的“資料煽動者”概念引起了很多人的共鳴,這讓他非常高興。“資料煽動者”是指一個人意識到有更好的方法來處理部門的資料問題並肩負起這個挑戰,從而成為公司其他部門的榜樣。

    他說:“我希望在2017年及以後,資料煽動者的概念會繼續引起關注,有越來越多的人來扮演這個角色。”另外,他認為,最具前瞻性的企業已經開始意識到利用專有資料獲取競爭優勢的重要性。

    拉德利把改進商業智慧(BI)和資料報告作為優先事項,因為他說:“傳統的報告和BI架構大多已經過時”。加強資料的報告分析基礎也在泰約的清單上,原因是“和我交談過的十位企業高管中,有九位都把簡潔快速的報告和分析列為他們在資料方面的優先事項”。他認為,這在很大程度上源於資料辦公室的“酷因素”正在拓展到大資料、物聯網、機器學習、人工智慧等方面,但中小型資料、運營報告和更傳統的分析與建模需求同樣重要。

    “獲取(恰當資料的)能力不足將催生出影子企業或以外包優先的資料策略。”泰約說。為了避免這種問題,資料策略應該包括建立“一個專門的辦公室,為處於資料成熟度不同階段的業務提供不同選擇”。

    泰約還認為,利用資料來實現客戶體驗差異化和規範性建模(就特定結果提供建議)將引起關注。而拉德利認為,所有企業都將熱烈擁抱預測分析,不管他們需不需要。預測分析提供基於資料的可執行見解。“每位CEO都想獲得新的見解,哪怕他們現在連準確的運營報告都還拿不到。”他說。

    拉德利還說,資料治理(仍然是重要的企業活動,常常作為主資料管理或者大資料等工作的一部分)將從IT或IM轉移到合規或風險管理領域。“IT內部的資料治理不管用。這種看法將繼續蔓延。”他說。

    提到資料策略,應該對哪些方面多加註意?

    費希貝恩認為,應該更加註意理解資料背後的語境:資料是如何收集的?利用已有資料可以作出什麼決定?還可利用哪些資料來源切實看清局勢發展,從而作出更明智的決定?“如果只看資料而忽略語境,還能算是資料驅動型文化嗎?”他如此發問。

    拉德利說,元資料必不可少,也是最基本的要素,他希望看到更多的企業“認真務實地部署一些出色的元資料設施”。他並不介意企業的資料策略將重心更多地放在資料使用方面的協作上。他說,大部分企業就連資料使用方面的配合都做不到:

    “真正的協作需要企業拋棄過時的卓越中心概念,轉而把資料視為跨越各座孤島的大一統因素,就像財務和預算那樣。”

    說到孤島,“我希望看到傳統的孤島型企業能以有實質意義的方式,更好地接納資料視覺化。”泰約說,“利用企業的工具與設施,更多地聚合資料來源,將會加強整個計劃的效果,加速實現CDO的很多戰略目標。”

    在雷德曼看來,他到目前為止看到的種種資料策略“亮點”尚未有效疊加成有實際意義的模式。他仍然擔心,企業不會從以前犯下的資料質量和資料架構錯誤中吸取教訓,比如尋求短期的緩解而放過更深層次的原因。此外,“我認為很多企業的行動不夠快,整個行業的行動也不夠快。”他說。

    他認為,現在是進入資料領域的最好時機。但“如果行動不夠快,那麼發生另一場危機的可能性就會提高。”雷德曼說,“經濟大蕭條與壞資料有很深的淵源——而我們承受不起第二次。”

    翻譯:于波

  • 3 # 機器之心Pro

    在外界看來,「大資料」和「資料科學」這樣的詞看起來複雜又神秘。資料科學被稱為「21世紀最性感的工作」。所要成為一名資料科學家,要實有際的付出,比如,需要具備成為資料科學家的三項能力,以及為走向資料科學做好一些準備,觀看一些有關資料科學的優秀線上課程,閱讀不得不讀的資料科學經典書籍;如果,你學有所成,也可以找一些好的測試題自我檢驗一下;而以上,正是本文所要分享的內容,希望對你能有所幫助!

    資料科學家需要具備的三項能力

    資料科學家」這個詞覆蓋的角色很廣,涵蓋了學術、金融和政府等多種產業和組織。然而,有三個重要的能力是每位資料科學家都必須理解的:

    1、必須理解資料是有意義的

    我們經常忽視一個事實,那就是資料是有含義的,並且理解其中的意義非常重要。如果我們想要在數字中獲得有用的洞察,就必須超越數字,理解它們暗藏的內涵。這一點與演算法和工程等沒有關係。理解資料是一門藝術,真的非常重要。

    2、必須理解你需要解決的問題,以及資料與之的聯絡

    此時,你可以開啟工具箱,找到正確的分析方法和演算法來分析資料。機器學習可以進行技術分析。除了機器學習之外,還有幾百種技術可以用資料來解決問題,例如運籌學、決策論、博弈論、控制論等,這些理論都有很長的歷史。一旦你理解了資料和你試圖解決的問題,下一步就應該選擇匹配的演算法,來獲得有意義的解。

    3、必須理解工程問題

    第三個能力是理解和運用執行分析任務的裝置,就是「如果你在正確的時間和地點沒有基礎裝置來高效精確地執行分析任務,那一切都是白搭。」

    做好走向資料科學的準備

    1、 最重要的是:無論你想要在目前的工作中學到什麼,都要找到方法

    找到一個涉及更多編碼/資料分析且對你的僱主有幫助的專案。嘗試使任何無聊的任務自動化。即使這個過程需要 5 倍的時間(即使這樣的任務你只做一次!),但你正是透過這樣來學習。

    2、分析您擁有的任何資料

    比如消費前的研究資料(即決定要購買哪種微波爐),個人健身追蹤器的資料,烹飪食譜的營養資料,為孩子調查的學前教育資料。把它變成一個小型的資料分析專案,並寫到部落格中。例如如果你是研究生,你可以分析所教學生的年級資料。

    3、學習最重要的資料科學軟體工具

    Python"s data science stack(pandas / numpy / scipy)是最有用的技術(閱讀本書!),緊隨其後的是 SQL。在學習其他語言之前我會專注於學習 Python 和 SQL。Python 被廣泛使用且非常靈活。如果你決定參與到更多的軟體開發工作,或者全面進入機器學習,你會有優勢。

    4、使用 Kaggle

    做教程,參加論壇,參加比賽(不要擔心你處於什麼水平- 只是專注於每天做得更好一點)。這是學習實用機器技能的最好方法。

    5、搜尋您所在地區的資料科學和技術會議

    隨著資料科學在過去幾年的激增,如今在全球有各種會議。例如,Google 最近在加利福尼亞州山景城舉辦了一次 TensorFlow Dev 峰會,但有全世界觀眾一起觀看直播(包括奈及利亞的阿布賈,印度的哥印拜陀和摩洛哥的拉巴特)。

    資料科學線上課程

    線上課程是一個了不起的資源。你可以在家裡舒適地跟隨世界上最好的資料科學家學習。通常作業是學習最多的地方,所以不要跳過它們!這裡有幾個我最喜歡的課程:

    Andrew Ng 的經典機器學習公開課(雖然沒有在 Octave / MATLAB 上花太多時間,但他把演算法解釋地非常完美),或許用 Python 完成這項工作更好

    快速實習深度學習課程。透露:我協助開設了這門課程,我們得到了許多學生的積極反饋。其中唯一的先決條件是一年的編碼經驗。

    Udacity 的資料科學系列。

    Udacity 的 Web 開發課程。如果想成為一個數據科學家在技術上不需要了解這些,但成為一個更好的軟體開發人員可以使你成為一個更好的資料科學家,瞭解如何構建自己的網路應用程式非常有用。

    上述強調的問題之一是,線上可用的資訊、教程和課程的數量或許巨大的,最大的風險之一是不能持之以恆,不能完成或堅持足夠長的時間來學習它。重要的是找到一個「足夠好」的課程或專案,然後堅持下去。找到或組建一個見面團隊來一起學完線上課程或許對解決這個問題有幫助。

    線上課程對獲取知識非常有用(做完作業非常重要,這是你學習的方式)。不過,我還沒發現獲得證書有啥好處。(雖然我知道這是一個新增長的領域)。因為之前僱傭資料科學家時,我面試過很多求職者,而且自己也有這方面的求職經驗,都是經驗之談。

    資料科學家要讀的書籍An Introduction to Statistical Learning: With Applications in R(統計學習導論 : 基於R應用)

    價格:英文版 61.36 美元,中文版 63.1 元

    品質得分:10/10

    這本書在亞馬遜上評分非常高,其作者是來自南加利福尼亞大學、斯坦福大學和華盛頓大學的四位教授 Gareth James、Daniela Witten、Trevor Hastie 和 Rob Tibshirani;他們都有統計學背景。這本書比《The Elements of Statistical Learning(統計學習基礎)》更為實用,它給出了一些使用 R 語言實現的案例。

    2.The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition(統計學習基礎:資料探勘、推理和預測)

    價格:英文版 62.0 美元,中文版 45 元

    品質得分:9/10

    亞馬遜上的高分書籍,作者是斯坦福大學的三位統計學教授。第一作者 Trevor Hastie 具有統計學和生物統計學方面的研究背景。關於這本書的一個有趣的事情是作者們以統計學的視角看待機器學習問題。這本書似乎過於關注理論了,所以一些讀者可能傾向於略過它。

    3.Pattern Recognition and Machine Learning(模式識別與機器學習)

    價格:英文版 60.0 美元,無中文版

    品質得分:8/10

    亞馬遜上的高分書籍,作者是著名作家 Christopher M. Bishop,他是微軟劍橋研究院的一位傑出科學家,領導微軟機器學習與感知研究組。這本書在技術上全面覆蓋了各種機器學習主題,包括迴歸、線性分類、神經網路、核方法和圖模型。

    4. Machine Learning: A Probabilistic Perspective(機器學習:機率學的觀點)

    價格:英文版 79.16 美元,無中文版

    品質得分: 7/10

    Machine Learning: A Probabilistic Perspective 一書提供了可以自動檢測資料模式,然後使用得出的模式預測未來資料的方法。該教材基於統一的、機率學的方法對機器學習領域提供了全面的介紹。該書的作者 Kevin Murphy 是谷歌的一位研究人工智慧、機器學習、計算機視覺、知識基礎建設和自然語言處理的研究科學家。

    5. Data Mining: Concepts and Techniques, Third Edition(資料探勘:概念與技術,第三版)

    價格:英文版 50.0 美元,中文版 79.0 元

    品質得分: 6/10

    Data Mining: Concepts and Techniques, Third Edition 一書的作者是伊利諾伊大學香檳分校計算機科學系的 Jiawei Han(韓家煒)教授。這本書能讓你瞭解、應用從大資料集中發現隱藏模式的理論和實踐知識。這本書在亞馬遜上獲得了較為平均的評價。

    6. Data Mining: Practical Machine Learning Tools and Techniques, Third Edition(資料探勘:實用機器學習工具與技術,第3版)

    價格:英文版 37.5 美元,中文版 79.0 元

    品質得分: 6/10

    這本書在亞馬遜上的評價相當不錯,其作者為紐西蘭懷卡託大學的三位計算機科學教授。他們也是基於 Java 的資料探勘軟體 Weka 的主要貢獻者。因此,這本書重在資料探勘領域的具體實現方面,尤其是基於 Weka 軟體的工作平臺。

    7. Probabilistic Graphical Models: Principles and Techniques(機率圖模型:原理與技術)

    價格:英文版 91.66 美元,中文版 198 元

    品質得分: 6/10

    Probabilistic Graphical Models: Principles and Techniques 這本獨特的書提供了設計自動推理系統的機率圖框架。這本書的作者是兩位計算機科學教授:來自斯坦福大學人工智慧實驗室的 Daphne Koller 和來自耶路撒冷希伯來大學的 Nir Friedman。

    8. Introduction to Information Retrieval(資訊檢索導論)

    價格:英文版 57.0 美元,中文版 69 元

    品質得分: 6/10

    Introduction to Information Retrieval 的第一作者是斯坦福計算機科學教授 Christopher Manning。這是講解網路時代的資訊檢索的教科書,包括網路搜尋,以及與文字分類和文字聚類的基本概念相關的領域。

    9. Machine Learning(機器學習)

    價格:英文版 211.6 美元,中文版 35 元

    品質得分: 5/10

    Machine Learning 是機器學習領域一本非常著名的著作,其作者是美國卡內基·梅隆大學計算機科學教授 Tom Mitchell。Tom Mitchell 是世界上第一個機器學習系的第一任系主任。Machine Learning 一書涵蓋了機器學習的一些基本領域,包括學習、決策樹學習、神經網路、貝葉斯學習、強化學習等。

    10. Speech and Language Processing, 2nd Edition(語音和語言處理,第二版)

    價格:英文版 78.65 美元,無中文版

    品質得分: 5/10

    Speech and Language Processing 的作者是斯坦福大學語言學和計算機科學教授 Dan Jurafsky。這是全面覆蓋語言技術的第一本書——在所有層次上且包含所有現代技術。基於大型企業使用的應用統計和其它機器學習演算法,這本書在語言技術這一主題上使用了實證的方法

    11. Introduction to Data Mining(資料探勘導論)

    價格:英文版 118.91 美元,中文版 49.0 元

    品質得分: 4/10

    這本書在亞馬遜上獲得了很好的評分,其作者是三位計算機科學教授:密歇根州立大學的 Pang-Ning Tan、明尼蘇達大學的 Michael Steinbach 和 Vipin Kumar。這本書涵蓋了資料探勘的不同基本領域,如:分類、關聯分析、聚類和異常檢測。

    12. Neural Networks for Pattern Recognition(用於模式識別的神經網路)

    價格:英文版 88.42 美元,無中文版

    品質得分: 4/10

    Neural Networks for Pattern Recognition 算是一本老書了,但其作者是微軟劍橋研究院的傑出科學家 Christopher M. Bishop。

    13. Foundations of Statistical Natural Language Processing(統計自然語言處理基礎)

    價格:英文版 87.27 美元,中文版 55 元

    品質得分: 4/10

    Foundations of Statistical Natural Language Processing 是亞馬遜上評分非常好的一本自然語言處理書籍。用統計方法處理自然語言文字近來已經佔據了主導地位。這本書對統計自然語言處理(NLP)進行了全面的介紹,含所有開發 NLP 工具所需的理論和演算法。

    14. Handbook of Statistical Analysis and Data Mining Applications(統計分析和資料探勘應用手冊)

    價格:英文版 72.81 美元,無中文版

    品質得分: 4/10

    這本書在亞馬遜的評分高於平均分,其作者是三位在資料探勘和統計學領域有行業經驗的博士。這本書是一本指導商業分析師、科學家、工程師和研究者的全面的專業參考書,其中包含不同階段的資料分析、建模和實現。

    15. Understanding Machine Learning: From Theory to Algorithms(理解機器學習:從理論到演算法)

    價格:英文版 52.76 美元,無中文版

    品質得分: 4/10

    Understanding Machine Learning: From Theory to Algorithms 提供瞭解釋機器學習基本思想的廣泛理論和將這些原理轉化成實際演算法的數學推導。這本書的兩位作者是分別來自耶路撒冷希伯來大學和滑鐵盧大學的計算機科學教授。

    16. Foundations of Machine Learning(機器學習基礎)

    價格:英文版 96.56 美元,無中文版

    品質得分: 3/10

    Foundations of Machine Learning 是一本研究生階段的教科書,介紹了機器學習的基本概念和方法。這本書描述了幾種重要的演算法,提供了這些演算法的理論基礎,並闡釋了這些演算法應用的主要方面。其作者 Mehryar Mohri 是紐約大學庫朗數學科學研究所的計算機科學教授。

    40 道資料科學測試題(附答案)

    如果你是一名資料科學家,那就需要對機器學習很擅長,而不只是三腳貓的功夫。測試包括機器學習、深度學習、時序問題以及機率。資料科學家可以就這些關鍵技能進行自我評估。算是對以上內容的一個補充。

    假定特徵 F1 可以取特定值:A、B、C、D、E 和 F,其代表著學生在大學所獲得的評分。現在請答題:

    1. 在下面說法中哪一項是正確的?

    A. 特徵 F1 是名義變數(nominal variable)的一個例項。

    B. 特徵 F1 是有序變數(ordinal variable)的一個例項。

    C. 該特徵並不屬於以上的分類。

    D. 以上說法都正確。

    答案為(B):有序變數是一種在類別上有某些順序的變數。例如,等級 A 就要比等級 B 所代表的成績好一些。

    2. 下面哪個選項中哪一項屬於確定性演算法?

    A.PCA

    B.K-Means

    C. 以上都不是

    答案為(A):確定性演算法表明在不同執行中,演算法輸出並不會改變。如果我們再一次執行演算法,PCA 會得出相同的結果,而 k-means 不會。

    3. 兩個變數的 Pearson 相關性係數為零,但這兩個變數的值同樣可以相關。

    A. 正確

    B. 錯誤

    答案為(A):Y=X2,請注意他們不僅僅相關聯,同時一個還是另一個的函式。儘管如此,他們的相關性係數還是為 0,因為這兩個變數的關聯是正交的,而相關性係數就是檢測這種關聯。詳情檢視:https://en.wikipedia.org/wiki/Anscombe"s_quartet

    4. 下面哪一項對梯度下降(GD)和隨機梯度下降(SGD)的描述是正確的?

    在 GD 和 SGD 中,每一次迭代中都是更新一組引數以最小化損失函式。

    在 SGD 中,每一次迭代都需要遍歷訓練集中的所有樣本以更新一次引數。

    在 GD 中,每一次迭代需要使用整個訓練集或子訓練集的資料更新一個引數。

    A. 只有 1

    B. 只有 2

    C. 只有 3

    D.1 和 2

    E.2 和 3

    F. 都正確

    答案為(A):在隨機梯度下降中,每一次迭代選擇的批次是由資料集中的隨機樣本所組成,但在梯度下降,每一次迭代需要使用整個訓練資料集。

    5. 下面哪個/些超引數的增加可能會造成隨機森林資料過擬合?

    樹的數量

    樹的深度

    學習速率

    A. 只有 1

    B. 只有 2

    C. 只有 3

    D.1 和 2

    E.2 和 3

    F. 都正確

    答案為(B):通常情況下,我們增加樹的深度有可能會造成模型過擬合。學習速率在隨機森林中並不是超引數。增加樹的數量可能會造成欠擬合。

    6. 假如你在「Analytics Vidhya」工作,並且想開發一個能預測文章評論次數的機器學習演算法。你的分析的特徵是基於如作者姓名、作者在 Analytics Vidhya 寫過的總文章數量等等。那麼在這樣一個演算法中,你會選擇哪一個評價度量標準?

    均方誤差

    精確度

    F1 分數

    A. 只有 1

    B. 只有 2

    C. 只有 3

    D. 1 和 3

    E. 2 和 3

    F. 1 和 2

    7. 給定以下三個圖表(從上往下依次為1,2,3). 哪一個選項對以這三個圖表的描述是正確的?

    A. 1 是 tanh,2 是 ReLU,3 是 SIGMOID 啟用函式

    B. 1 是 SIGMOID,2 是 ReLU,3 是 tanh 啟用函式

    C. 1 是 ReLU,2 是 tanh,3 是 SIGMOID 啟用函式

    D. 1 是 tanh,2 是 SIGMOID,3 是 ReLU 啟用函式

    答案為(D):因為 SIGMOID 函式的取值範圍是 [0,1],tanh 函式的取值範圍是 [-1,1],RELU 函式的取值範圍是 [0,infinity]。

    8. 以下是目標變數在訓練集上的 8 個實際值 [0,0,0,1,1,1,1,1],目標變數的熵是所少?

    A. -(5/8 log(5/8) + 3/8 log(3/8))

    B. 5/8 log(5/8) + 3/8 log(3/8)

    C. 3/8 log(5/8) + 5/8 log(3/8)

    D. 5/8 log(3/8) – 3/8 log(5/8)

    答案為(A):資訊熵的公式為:

    9. 假定你正在處理類屬特徵,並且沒有檢視分類變數在測試集中的分佈。現在你想將 one hot encoding(OHE)應用到類屬特徵中。那麼在訓練集中將 OHE 應用到分類變數可能要面臨的困難是什麼?

    A. 分類變數所有的類別沒有全部出現在測試集中

    B. 類別的頻率分佈在訓練集和測試集是不同的

    C. 訓練集和測試集通常會有一樣的分佈

    D. A 和 B 都正確

    E. 以上都不正確

    答案為(D):A、B 項都正確,如果類別在測試集中出現,但沒有在訓練集中出現,OHE 將會不能進行編碼類別,這將是應用 OHE 的主要困難。選項 B 同樣也是正確的,在應用 OHE 時,如果訓練集和測試集的頻率分佈不相同,我們需要多加小心。

    10.Skip gram 模型是在 Word2vec 演算法中為詞嵌入而設計的最優模型。以下哪一項描繪了 Skip gram 模型?

    A. A

    B. B

    C. A 和 B

    D. 以上都不是

    答案為(B):這兩個模型都是在 Word2vec 演算法中所使用的。模型 A 代表著 CBOW,模型 B 代表著 Skip gram。

    11. 假定你在神經網路中的隱藏層中使用啟用函式 X。在特定神經元給定任意輸入,你會得到輸出「-0.0001」。X 可能是以下哪一個啟用函式?

    A. ReLU

    B. tanh

    C. SIGMOID

    D. 以上都不是

    答案為(B):該啟用函式可能是 tanh,因為該函式的取值範圍是 (-1,1)。

    12. 對數損失度量函式可以取負值。

    A. 對

    B. 錯

    答案為(B):對數損失函式不可能取負值。

    13. 下面哪個/些對「型別 1(Type-1)」和「型別 2(Type-2)」錯誤的描述是正確的?

    型別 1 通常稱之為假正類,型別 2 通常稱之為假負類。

    型別 2 通常稱之為假正類,型別 1 通常稱之為假負類。

    型別 1 錯誤通常在其是正確的情況下拒絕假設而出現。

    A. 只有 1

    B. 只有 2

    C. 只有 3

    D. 1 和 2

    E. 1 和 3

    F. 3 和 2

    答案為(E):在統計學假設測試中,I 類錯誤即錯誤地拒絕了正確的假設(即假正類錯誤),II 類錯誤通常指錯誤地接受了錯誤的假設(即假負類錯誤)。

    14. 下面在 NLP 專案中哪些是文字預處理的重要步驟?

    詞幹提取(Stemming)

    移去停止詞(Stop word removal)

    目標標準化(Object Standardization)

    A. 1 和 2

    B. 1 和 3

    C. 2 和 3

    D. 1、2 和 3

    答案為(D):詞幹提取是剝離字尾(「ing」,「ly」,「es」,「s」等)的基於規則的過程。停止詞是與語境不相關的詞(is/am/are)。目標標準化也是一種文字預處理的優良方法。

    15. 假定你想將高維資料對映到低維資料中,那麼最出名的降維演算法是 PAC 和 t-SNE。現在你將這兩個演算法分別應用到資料「X」上,並得到資料集「X_projected_PCA」,「X_projected_tSNE」。下面哪一項對「X_projected_PCA」和「X_projected_tSNE」的描述是正確的?

    A. X_projected_PCA 在最近鄰空間能得到解釋

    B. X_projected_tSNE 在最近鄰空間能得到解釋

    C. 兩個都在最近鄰空間能得到解釋

    D. 兩個都不能在最近鄰空間得到解釋

    答案為(B):t-SNE 演算法考慮最近鄰點而減少資料維度。所以在使用 t-SNE 之後,所降的維可以在最近鄰空間得到解釋。但 PCA 不能。

    16-17 題的背景:給定下面兩個特徵的三個散點圖(從左到右依次為圖 1、2、3)。

    16. 在上面的影象中,哪一個是多元共線(multi-collinear)特徵?

    A. 圖 1 中的特徵

    B. 圖 2 中的特徵

    C. 圖 3 中的特徵

    D. 圖 1、2 中的特徵

    E. 圖 2、3 中的特徵

    F. 圖 1、3 中的特徵

    答案為(D):在圖 1 中,特徵之間有高度正相關,圖 2 中特徵有高度負相關。所以這兩個圖的特徵是多元共線特徵。

    17. 在先前問題中,假定你已經鑑別了多元共線特徵。那麼下一步你可能的操作是什麼?

    移除兩個共線變數

    不移除兩個變數,而是移除一個

    移除相關變數可能會導致資訊損失。為了保留這些變數,我們可以使用帶罰項的迴歸模型(如 ridge 或 lasso regression)。

    A. 只有 1

    B. 只有 2

    C. 只有 3

    D. 1 或 3

    E. 1 或 2

    答案為(E):因為移除兩個變數會損失一切資訊,所以我們只能移除一個特徵,或者也可以使用正則化演算法(如 L1 和 L2)。

    18. 給線性迴歸模型新增一個不重要的特徵可能會造成:

    增加 R-square

    減少 R-square

    A. 只有 1 是對的

    B. 只有 2 是對的

    C. 1 或 2 是對的

    D. 都不對

    答案為(A):在給特徵空間添加了一個特徵後,不論特徵是重要還是不重要,R-square 通常會增加。

    19. 假設給定三個變數 X,Y,Z。(X, Y)、(Y, Z) 和 (X, Z) 的 Pearson 相關性係數分別為 C1、C2 和 C3。現在 X 的所有值加 2(即 X+2),Y 的全部值減 2(即 Y-2),Z 保持不變。那麼運算之後的 (X, Y)、(Y, Z) 和 (X, Z) 相關性係數分別為 D1、D2 和 D3。現在試問 D1、D2、D3 和 C1、C2、C3 之間的關係是什麼?

    A. D1= C1, D2 < C2, D3 > C3

    B. D1 = C1, D2 > C2, D3 > C3

    C. D1 = C1, D2 > C2, D3 < C3

    D. D1 = C1, D2 < C2, D3 < C3

    E. D1 = C1, D2 = C2, D3 = C3

    F. 無法確定

    答案為(E):特徵之間的相關性係數不會因為特徵加或減去一個數而改變。

    20. 假定你現在解決一個有著非常不平衡類別的分類問題,即主要類別佔據了訓練資料的 99%。現在你的模型在測試集上表現為 99% 的準確度。那麼下面哪一項表述是正確的?

    準確度並不適合於衡量不平衡類別問題

    準確度適合於衡量不平衡類別問題

    精確率和召回率適合於衡量不平衡類別問題

    精確率和召回率不適合于衡量不平衡類別問題

    A. 1 and 3

    B. 1 and 4

    C. 2 and 3

    D. 2 and 4

    答案為(A):參考問題 4 的解答。

    21. 在整合學習中,模型集成了弱學習者的預測,所以這些模型的整合將比使用單個模型預測效果更好。下面哪個/些選項對整合學習模型中的弱學習者描述正確?

    他們經常不會過擬合

    他們通常帶有高偏差,所以其並不能解決複雜學習問題

    他們通常會過擬合

    A. 1 和 2

    B. 1 和 3

    C. 2 和 3

    D. 只有 1

    E. 只有 2

    F. 以上都不對

    答案為(A):弱學習者是問題的特定部分。所以他們通常不會過擬合,這也就意味著弱學習者通常擁有低方差和高偏差。

    22. 下面哪個/些選項對 K 折交叉驗證的描述是正確的

    增大 K 將導致交叉驗證結果時需要更多的時間

    更大的 K 值相比於小 K 值將對交叉驗證結構有更高的信心

    如果 K=N,那麼其稱為留一交叉驗證,其中 N 為驗證集中的樣本數量

    A. 1 和 2

    B. 2 和 3

    C. 1 和 3

    D. 1、2 和 3

    答案為(D):大 K 值意味著對過高估計真實預期誤差(訓練的折數將更接近於整個驗證集樣本數)擁有更小的偏差和更多的執行時間(並隨著越來越接近極限情況:留一交叉驗證)。我們同樣在選擇 K 值時需要考慮 K 折準確度和方差間的均衡。

    23 題至 24 題的背景:交叉驗證在機器學習超引數微調中是十分重要的步驟。假定你需要為 GBM 透過選擇 10 個不同的深度值(該值大於 2)而調整超引數「max_depth」,該樹型模型使用 5 折交叉驗證。 4 折訓練驗證演算法(模型 max_depth 為 2)的時間為 10 秒,在剩下的 1 折中預測為 2 秒。

    23. 哪一項描述擁有 10 個「max_depth」不同值的 5 折交叉驗證整體執行時間是正確的?

    A. 少於 100 秒

    B. 100-300 秒

    C. 300-600 秒

    D. 大於等於 600 秒

    E. 無法估計

    答案為(D):因為深度為 2 的 5 折交叉驗證每一次迭代需要訓練 10 秒和測試 2 秒。因此五折驗證需要 12*5 = 60 秒,又因為我們需要搜尋 10 個深度值,所以演算法需要 60*10 = 600。

    24. 在先前的答案中,如果你訓練同樣的演算法調整 2 個超引數,假設是 max_depth 和 learning_rate。你想要選擇正確的值對抗 max_depth(從給定的 10 個深度值中)和學習率(從 5 個不同的學習率做選擇)。在此情況下,整體時間是下面的哪個?

    A.1000-1500 秒

    B.1500-3000 秒

    C. 多於或等於 3000 Second

    D. 都不是

    答案為(D):和 23 題一樣。

    25. 下表是機器學習演算法 M1 的訓練錯誤率 TE 和驗證錯誤率 VE,基於 TE 和 VE 你想要選擇一個超引數(H)。

    基於上表,你會選擇哪個 H 值?

    A.1

    B.2

    C.3

    D.4

    E.5

    答案為(D):看這個表,D 選項看起來是最好的。

    26. 為了得到和 SVD 一樣的投射(projection),你需要在 PCA 中怎樣做?

    A. 將資料轉換成零均值

    B. 將資料轉換成零中位數

    C. 無法做到

    D. 以上方法不行

    答案為(A):當資料有一個 0 均值向量時,PCA 有與 SVD 一樣的投射,否則在使用 SVD 之前,你必須將資料均值歸 0。

    問題 27-28 的背景:假設存在一個黑箱演算法,其輸入為有多個觀察(t1, t2, t3,…….. tn)的訓練資料和一個新的觀察(q1)。該黑箱演算法輸出 q1 的最近鄰 ti 及其對應的類別標籤 ci。你可以將這個黑箱演算法看作是一個 1-NN(1-最近鄰)

    27. 能夠僅基於該黑箱演算法而構建一個 k-NN 分類演算法?注:相對於 k 而言,n(訓練觀察的數量)非常大。

    A. 可以

    B. 不行

    答案為(A):在第一步,你在這個黑箱演算法中傳遞一個觀察樣本 q1,使該演算法返回一個最近鄰的觀察樣本及其類別,在第二步,你在訓練資料中找出最近觀察樣本,然後再一次輸入這個觀察樣本(q1)。該黑箱演算法將再一次返回一個最近鄰的觀察樣本及其類別。你需要將這個流程重複 k 次。

    28. 我們不使用 1-NN 黑箱,而是使用 j-NN(j>1) 演算法作為黑箱。為了使用 j-NN 尋找 k-NN,下面哪個選項是正確的?

    A. j 必須是 k 的一個合適的因子

    B. j>k

    C. 不能辦到

    答案為(C):原因和 27 題一樣

    29. 有以下 7 副散點圖(從左到右分別編號為 1-7),你需要比較每個散點圖的變數之間的皮爾遜相關係數。下面正確的比較順序是?

    1<2<3<4

    1>2>3 > 4

    7<6<5<4

    7>6>5>4

    A. 1 和 3

    B. 2 和 3

    C. 1 和 4

    D. 2 和 4

    30. 你可以使用不同的標準評估二元分類問題的表現,例如準確率、log-loss、F-Score。讓我們假設你使用 log-loss 函式作為評估標準。下面這些選項,哪個/些是對作為評估標準的 log-loss 的正確解釋。

    如果一個分類器對不正確的分類很自信,log-loss 會嚴重的批評它。

    對一個特別的觀察而言,分類器為正確的類別分配非常小的機率,然後對 log-loss 的相應分佈會非常大。

    3.log-loss 越低,模型越好。

    A.1 和 3

    B.2 和 3

    C.1 和 2

    D.1、2、3

    答案為(D):答案無需解釋。

    問題 31-32 背景:下面是資料集給出的 5 個樣本。

    注意:影象中點之間的視覺距離代表實際距離。

    31. 下面哪個是 3-NN(3-最近鄰)的留一法交叉驗證準確率?

    A.0

    B.0.4

    C.0.8

    D.1

    答案為(C):留一法交叉驗證,我們將選擇(n-1) 觀察值作為訓練,以及驗證的 1 觀察值。把每個點作為交叉驗證點,然後找到 3 個最近鄰點。所以,如果你在每個點上重複該步驟,你會為上圖中給出的所有正類找到正確的分類,而錯誤分類負類。因此,得到 80% 的準確率。

    32. 下面哪個 K 值將會有最低的差一法(leave-one-out)交叉驗證精確度?

    A. 1NN

    B. 3NN

    C. 4NN

    D. 以上所有具有相同的差一法錯誤

    答案(A):在 1-NN 中,被錯誤分類的每一個點都意味著你將得到 0% 的精確度。

    33. 假設你被給到以下資料,你想要在給定的兩個類別中使用 logistic 迴歸模型對它進行分類。你正在使用帶有 L1 正則化的 logistic 迴歸,其中 C 是正則化引數,w1 和 w2 是 x1 和 x2 的係數。當你把 C 值從 0 增加至非常大的值時,下面哪個選項是正確的?

    A. 第一個 w2 成了 0,接著 w1 也成了 0

    B. 第一個 w1 成了 0,接著 w2 也成了 0

    C. w1 和 w2 同時成了 0

    D. 即使在 C 成為大值之後,w1 和 w2 都不能成 0

    答案(B):透過觀察影象我們發現,即使只使用 x2,我們也能高效執行分類。因此一開始 w1 將成 0;當正則化引數不斷增加時,w2 也會越來越接近 0。

    34. 假設我們有一個數據集,在一個深度為 6 的決策樹的幫助下,它可以使用 100% 的精確度被訓練。現在考慮一下兩點,並基於這兩點選擇正確的選項。

    注意:所有其他超引數是相同的,所有其他因子不受影響。

    深度為 4 時將有高偏差和低方差

    深度為 4 時將有低偏差和低方差

    A. 只有 1

    B. 只有 2

    C. 1 和 2

    D. 沒有一個

    答案(A):如果在這樣的資料中你擬合深度為 4 的決策樹,這意味著其更有可能與資料欠擬合。因此,在欠擬合的情況下,你將獲得高偏差和低方差。

    35. 在 k-均值演算法中,以下哪個選項可用於獲得全域性最小?

    嘗試為不同的質心(centroid)初始化執行演算法

    調整迭代的次數

    找到叢集的最佳數量

    A. 2 和 3

    B. 1 和 3

    C. 1 和 2

    D. 以上所有

    答案(D):所有都可以用來除錯以找到全域性最小。

    36. 假設你正在做一個專案,它是一個二元分類問題。你在資料集上訓練一個模型,並在驗證資料集上得到混淆矩陣。基於上述混淆矩陣,下面哪個選項會給你正確的預測。

    精確度是~0.91

    錯誤分類率是~0.91

    假正率(False correct classification)是~0.95

    真正率(True positive rate)是~0.95

    A. 1 和 3

    B. 2 和 4

    C. 1 和 4

    D. 2 和 3

    答案(C):精確度(正確分類)是 (50+100)/165,約等於 0.91。真正率是你正確預測正分類的次數,因此真正率將是 100/105 = 0.95,也被稱作敏感度或召回。

    37. 對於下面的超引數來說,更高的值對於決策樹演算法更好嗎?

    用於拆分的樣本量

    樹深

    樹葉樣本

    A. 1 和 2

    B. 2 和 3

    C. 1 和 3

    D. 1、2 和 3

    E. 無法分辨

    答案(E):對於選項 A、B、C 來說,如果你增加引數的值,效能並不一定會提升。例如,如果我們有一個非常高的樹深值,結果樹可能會過擬合數據,並且也不會泛化。另一方面,如果我們有一個非常低的值,結果樹也許與資料欠擬合。因此我們不能確定更高的值對於決策樹演算法就更好。

    38-39 題背景 :想象一下,你有一個 28x28 的圖片,並使用輸入深度為 3 和輸出深度為 8 在上面執行一個 3x3 的卷積神經網路。注意,步幅是 1,你正在使用相同的填充(padding)。

    38. 當使用給定的引數時,輸出特徵圖的尺寸是多少?

    A. 28 寬、28 高、8 深

    B. 13 寬、13 高、8 深

    C. 28 寬、13 高、8 深

    D. 13 寬、28 高、8 深

    答案(A):計算輸出尺寸的公式是:輸出尺寸=(N – F)/S + 1。其中,N 是輸入尺寸,F 是過濾器尺寸,S 是步幅。閱讀這篇文章(連結:https://www.analyticsvidhya.com/blog/2016/04/deep-learning-computer-vision-introduction-convolution-neural-networks/)獲得更多瞭解。

    39. 當使用以下引數時,輸出特徵圖的尺寸是多少?

    A. 28 寬、28 高、8 深

    B. 13 寬、13 高、8 深

    C. 28 寬、13 高、8 深

    D. 13 寬、28 高、8 深

    答案 (B):同上

    40. 假設,我們正在 SVM 演算法中為 C(懲罰引數)的不同值進行視覺化繪圖。由於某些原因,我們忘記了使用視覺化標註 C 值。這個時候,下面的哪個選項在 rbf 核心的情況下最好地解釋了下圖(1、2、3 從左到右,圖 1 的 C 值 是 C 1,圖 2 的 C 值 是 C 2,圖 3 的 C 值 是 C 3)中的 C 值。

    A. C1 = C2 = C3

    B. C1 > C2 > C3

    C. C1 < C2 < C3

    D. 沒有一個

    答案 (C):錯誤項的懲罰引數 C。它也控制平滑決策邊界和訓練點正確分類之間的權衡。對於 C 的大值,最佳化會選擇一個較小邊距的超平面。

  • 4 # 西線學院

      1、決問題

      如果這個不是你清單中的首位的話,馬上去修改。所有科學核心都是解決問題:一個偉大的資料科學家也是一個偉大的問題解決者;就是這麼簡單。需要更進一步的證明嗎,基本我在這個專案中碰到的每一個人(不管其背景和目前工作環境如何)都提到資料科學中最重要的因素就是解決問題。

      很明顯,你需要有工具去解決問題,但是它們只是:工具。在這種情況下,即便是統計/機器學習技術也可以認為是你解決問題的工具。新的技術出現了,科技進步了。唯一不變的就是解決問題。

      在某種程度上,你解決問題的能力是由天賦決定的,但是與此同時有且僅有一個方式來進行提高:那就是練習、練習、練習。在後面我們會回顧這部分內容,但是現在你只需要記住:你只能透過嘗試來掌握某件事情。

      2. 統計/機器學習

      進一步對這些詞進行解釋說明,機器學習可以被認為是從人工智慧/計算科學與統計學中發展起來的多學科領域。它通常被認為是人工智慧的一個子領域,這是正確的,但是很重要的是要意識到沒有統計學的話就沒有機器學習(機器學習非常依賴統計算法來工作)。很長一段時間依賴統計學家都被機器學習所輕視,但是在這兩個領域的合作才造就了最近的發展(參見統計學習理論),順便提下高維統計學習只有在統計學家與機器學習結果合作時才會有良好的結果。

      3. 計算

      程式設計

      對於我們來說只需要簡單的接觸程式就行,因為它應該是很直觀的:但是對資料科學家來說程式設計是必須要會的。設想下如果你不會程式設計的話,如何才能透過編寫一段獨特的演算法來實現你的理論?又或者建立一個統計模型?

      如何成為一名資料科學家?

      分散式計算

      並不是所有事情都需要超級大的資料組,但是考慮到現代世界的情況,建議在工作中都加上大資料。簡而言之:單一計算機中的主要記憶體並不能實現大資料處理,如果你想同時在數百臺虛擬機器中訓練模型的話,你需要能夠使用分佈計算與並行演算法。

      軟體工程

      對於A類資料科學而言,讓我明確一點:工程是一門獨立的學科。因此如果這是你想成為的資料科學家型別,你其實不需要成為一個工程師。然而,如果你想把機器學習演算法轉化到應用中(即B類),那麼你將需要一個強大的軟體工程基礎。

      手動轉換資料

      資料清理/準備是資料科學的重要內在組成部分。這將耗費你大多數時間。倘若你沒有成功地對資料集進行降噪(例如,錯誤賦值,非標準化分類等),將會對建模的準確性產生影響,最終導致產生錯誤的結論。因此,如果你尚未做好處理資料的準備,這將使你先前的知識積累顯得無關重要。

      有一點是非常重要的且值得注意的,即在商業化組織中資料質量一直以來成為飽受爭議的話題,在資料儲存方面,許多業務又涉及到複雜的基礎事務需要處理。所以,如果你尚未準備好融入這個環境中,想要處理純粹的資料集,商業資料科學可能不是最適合你的選擇。

      工具與技術

      直至目前,你應當意識到,成為一名具備解決問題的能力的資料科學家相比於其他一切條件來講是重中之重:因為技術將不斷髮生變化,能夠在相對較短的時間內得到掌握。但是,我們不能對其他影響因素置之不理,因而,能夠認清楚如今應用最廣泛的工具對於成為一名資料科學家是有用的。

      讓我們先從程式語言談起,R與Python是兩種最常用的程式語言,因而,如果能夠選擇的話,希望你選用其中一種語言用於實驗研究。

      尤其是在A類資料科學工作領域,具備能夠直觀地觀察資料的能力將會對與非技術型商業股東交流溝通產生重大影響。你可能具有最優的模型和最深刻的見解,但是如果不能有效地呈現/解釋這些研究成果,那又將有什麼用呢?事實上,你運用什麼工具實現資料直觀視覺化並不重要,可以是透過使用R或Tableau(當時最為流行的程式語言),但是,說實話,工具是不太重要的。

      最後,不論我們所討論的是關係型資料庫,還是運用大資料技術獲得的SQL衍生資料庫,由於SQL是當時產業界用於資料庫中最為廣泛的程式語言,大多數公司都非常看重SQL這種程式語言。SQL對於手動轉換資料尤為重要,至少在處理更大規模的資料庫時。總之,SQL真的值得你花費一定的時間來好好研究應用。

      交流/商業頭腦

      在商業資料科學領域工作,具備交流溝通能力/商業頭腦是不容忽視的。除非你將要從事非常具體的工作,可能是純研究型別的工作(儘管我們要面對現實,在產業界並沒有很多這種型別的工作),絕大多數資料科學領域的工作都涉及到業界交流互動,通常是與非學者型別的人打交道。

      具備將商業化問題和催生這些問題的環境概念化是極為重要的。將統計學方面的觀點轉化為可以想普通大眾推薦的行動或啟發性觀點也是重要的,特別是對於A型別資料科學領域的工作來講。我曾與Yanir就該話題交談過,他的觀點如下:

      “我發現一種奇怪的現象,當一些技術型人才開始使用行話與人交流時,他們並不留意他們的交談者——那些非技術型人才,的目光早已落到了別處。在交談過程中,能夠設身處地地為他人著想是重要的。”

  • 5 # 空白女俠

    要達到這一目標,僅僅依靠資料分析本身已經遠遠不夠。作為資料專家/分析師,你的分析需要給公司高管乃至於投資人彙報吧?這需要演講的能力;你在公司內部推動資料思維時要說服各個業務部門的老總吧?這需要良好的溝通能力;推動過程中難免影響各方面的利益,你需要定位問題並組織資源去解決吧?這需要理解公司內各組織的定位,需要平衡各方利益,甚至於需要“搞定人”的能力。最重要的是站在一個數據專家/科學家的角度,你需要為公司的資料化建設設計總體的框架,規劃整體的實時路徑,提供實施方法論以及指導不同的團隊去實施。以上所有這些,都已經遠遠超出了單純的資料分析領域,更多的是依賴一個人的綜合能力。

    各位看到這裡是不是感到一絲絲絕望?一名普通的資料分析師天天就是和資料打交道,怎麼才能夠培養自己這些能力呢?我給大家的建議是有機會就去諮詢公司工作轉一圈。作為一名在諮詢公司工作過的資料分析師,我在諮詢公司學到了體系化的方法論和思維方式,這些思維方式能最大程度上幫助你從全域性的層面來考慮問題。同時,在諮詢公司做專案演講彙報是必修課,溝通協調是日常工作,平衡利益乃至於“搞定人”是必備能力。透過諮詢公司的打磨,思考問題時不但會從資料的視角出發,還能結合多個層面一起思考,會更加全面更加完整。這就好比大家學習下棋,如果能夠分析並記住各個高手的棋譜,你的棋力肯定比自己琢磨會漲進的更快,也更全面。諮詢公司絕對是存放無數套棋譜的典藏室。

    所以覺得自己想從資料分析師成為一名戰略型的資料科學家,有機會就到(外資)諮詢公司去打磨一下自己,相信大家一定會有很大的收穫,讓自己的職業生涯走的更高、更遠。以上僅是我從另一個角度剖析的回答。

  • 6 # 科技行者

    資料科學家的需求仍然很高,幾乎每個行業的企業都希望從其蓬勃發展的資訊資源中獲得最大價值。

    “隨著企業開始充分利用內部資料資產,以及審視數百個第三方資料來源的整合,資料科學家的作用也在變得越來越重要,”諮詢公司Protiviti總監Greg Boyd這樣說。

    “過去,負責資料的團隊只是IT部門的後臺,執行關鍵資料庫任務,確保各種公司系統得到資料‘燃料’的支援,這讓企業高管能夠報告運營情況並提供財務結果。”

    這個角色很重要,但冉冉升起的業務明星都是那些精明的資料科學家,他們不僅能夠利用複雜的統計和視覺化技術處理大量資料,而且具有極強的敏銳度,讓他們可以從資料中得到前瞻性的洞察,這些洞察有助於預測潛在結果,並減少對企業的潛在威脅。

    那麼,成為資料科學家需要具備哪些條件呢?下面就是我們根據IT領導者、行業分析師、資料科學家的看法,總結出的一些重要屬性和技能。

    批判性思維

    資料科學家應該是具有批判性的思想家,能夠在提出意見或作出判斷之前,針對特定主題或問題對事實進行客觀的分析。

    諮詢公司普華永道負責資料分析的全球人工智慧和創新負責人Anand Rao表示:“他們需要了解業務問題或業務決策,並能夠‘模擬’或‘抽象’解決問題的關鍵,而不是那些無關的、可以忽略的事情。這項技能比其他任何因素都更多地決定著資料科學家能否取得成功。”

    資料科學家需要有經驗,但也要能夠摒棄先見,Zeta Global公司資訊長Jeffry Nimeroff補充說。

    Nimeroff說:“這種特質是要知道在任何領域工作都能有所期待,但也知道經驗和直覺是不完美的。有經驗是件好事,如果我們過於自滿,那風險也是存在的。這就是摒棄先見的重要性所在。”

    這並不是說要以新手的視角來看待事情,而是要從多個角度重新審視,或者能夠評估問題和情況。

    寫程式碼

    頂尖的資料科學家知道如何寫程式碼,並且能夠輕鬆處理各種程式設計任務。

    Rao說:“資料科學的語言選擇正在朝著Python方向傾斜,R語言也有大量追隨者。”此外,還有其他一些正在使用中的語言,例如Scala、Clojure、Java和Octave。

    “要成為一名非常成功的資料科學家,程式設計技能就需要同時覆蓋到計算方面——處理大量資料、處理實時資料、雲計算、非結構化資料以及統計——和工作與統計模型方面——如回滾、最佳化、叢集、決策樹、隨機森林等。”

    安全軟體公司McAfee的首席資料科學家Celeste Fralick說,大資料從20世紀90年代末開始產生影響力以來,就要求越來越多的資料科學家理解並能夠使用諸如Python、C ++或Java等語言進行編碼。

    如果一個數據科學家不懂如何寫程式碼,那麼就應該聘請一群會寫程式碼的人。“把資料科學家和開發人員組成一個團隊,這被證明是非常成效的,”Fralick這樣說。

    數學

    對於不喜歡或不擅長數學的人來說,資料科學可能不是一個很好的職業選擇。

    Boyd表示:“在我們與全球組織的合作中,我們認識了很多希望開發複雜財務或運營模式的客戶,為了使這些模型具有統計相關性,就需要有大量的資料。資料科學家的角色,就是利用他們在數學方面的深厚專業知識,開發出可用於開發或轉移關鍵業務戰略的統計模型。”

    資料科學家應該是擅長數學和統計學的,同時具備與業務線主管密切協作的能力,以確保業務可以信賴其結果和建議的方式,與業務線主管溝通在複雜的“黑盒子”中實際發生了什麼。

    機器學習、深度學習、人工智慧

    計算能力不斷提高,連線性增加,以及收集到的海量資料,很多行業都在飛速的發展中。 “資料科學家需要走在研究前沿,知道在什麼時候運用什麼技術。很多時候,資料科學家會採用那些‘性感’而新奇的技術,而他們實際要解決的問題遠沒有那麼複雜。”

    資料科學家需要對他們要解決的問題有著深入的瞭解,資料本身會告訴你需要什麼。Fralick說:“意識到生態系統的計算成本、可解釋性、延遲、頻寬,以及其他系統邊界條件,還有客戶的成熟度,這可以幫助資料科學家知道他們應該運用哪種技術。”的確如此,只要他們對這種技術是瞭解的。

    統計方面的能力也是很重要的。Fralick說,大多數僱主都沒有考慮這方面的技能,因為他們輕而易舉地就能使用各種自動化工具和開源軟體。“但是,瞭解統計資料是理解這些工具和軟體所做假設的關鍵能力,”她說。

    資料儲存公司Micron資訊長Trevor Schulze說,僅僅理解機器學習演算法的功能介面是不夠的。“為了選擇合適的演算法,資料科學家需要了解方法中的統計資料以及資料準備技術,以最大限度地提高任何模型的整體效能。”

    Schulze說,計算機科學能力也很重要。因為資料科學的工作主要是在鍵盤上進行的,所以堅實的軟體工程基礎能起到幫助作用。

    溝通能力

    溝通技巧的重要性不言而喻。如今各種技術幾乎沒有哪些技術是在真空中使用的;系統、應用、資料和人員之間總是存在著整合。資料科學也是如此,能夠利用資料與利益相關者進行交流,這是一個重要特質。

    “用資料‘講故事’的能力,是可以把數學結果轉化為可操作的洞察或者干預。作為業務、技術和資料的交叉點,資料科學家需要善於向每個利益相關者‘講故事’。”

    這其中包括,向業務主管傳達資料的商業利益;技術和計算資源;資料質量、隱私和機密性方面的挑戰;以及該組織感興趣的其他領域。

    Nimeroff表示,作為一名優秀的溝通者,能夠將具有挑戰性的技術資訊提煉成完整的、準確且易於呈現的形式。“資料科學家必須記住,他們執行所產生的結果,可以並且將用於支援業務的特定行動。因此,要確保受眾理解並接受擺在他們面前的所有內容,包括問題、資料、成功標準和結果,這是至關重要的。”

    Schulze說,優秀的資料科學家必須具有商業頭腦和好奇心,才能充分地與業務利益相關者溝通,瞭解問題並確定哪些資料可能是相關的。

    此外,資料科學家需要能夠向業務領導者解釋演算法。Schulze說:“解釋演算法是如何實現預測的,是獲得領導者對作為業務流程一部分的預測模型的信任的關鍵技能。”

    資料架構

    資料科學家必須從一開始、到模型、再到業務決策的過程中,就瞭解資料的所有情況。

    “如果不去了解架構可能會對樣本規模的推論和假設產生這樣嚴重的影響,這就會導致錯誤的結果和決策,”Fralick說。

    更糟糕的是,架構內部也可能會發生變化。Fralick說,如果不瞭解對模型的影響是從何而起的話,資料科學家最終可能會“不得不重做模型”,或者突然遇到模型不準確的情況而不知道其中原因。

    Fraclick表示,雖然Hadoop透過將程式碼傳遞給資料(而不是相反)來透過提供大資料,但瞭解資料流或資料管道的複雜性對於確保基於事實的決策制定是至關重要的。

    風險分析、過程改進、系統工程

    敏銳的資料科學家需要了解分析業務風險、改進流程以及系統工程等概念。

    Fralick表示:“我所知的優秀資料科學家無一不具備這些能力。他們緊密合作,對內焦點是資料科學家,對外專注於客戶。”

    對內,資料科學家應該謹記“科學家”三個字,遵循良好的科學理論,Fralick這樣說。

    在模型開發開始時進行風險分析可以降低風險。“表面上看,這些都是資料科學家瞭解客戶想要解決什麼問題索要具備的技能。”

    Fralick表示,將支出與流程改進聯絡起來,瞭解固有的那些公司風險,以及可能影響資料或模型結果的其他系統,這些可以透過資料科學家的努力實現更高的客戶滿意度。

    解決問題的能力和良好的商業直覺

    一般來說,偉大的資料科學家所展現的特質,與任何一個好的問題解決者都是相同的。Nimeroff表示:“”他們會從多角度看待世界,他們會在動用所有工具之前,先了解他們應該做什麼,他們以嚴謹而完整的方式工作,並且能夠順利地解釋他們的執行結果。”

    當評估資料科學家等職位的技術專業人士時,Nimeroff會尋找這些特質。“這種方法成功的機率要比失敗的機率高得多,並且也確保了潛在的優勢得以最大化,因為批判性思維已經走到了最前沿。”

    尋找一位優秀的資料科學家,就是要尋找擁有某種矛盾性技能的人:可以應對資料處理,並建立有用的模型;能直觀地理解他們正在嘗試解決的業務問題、資料的結構和細微差別、以及模型的工作原理,商業軟體供應商Paytronix Systems的Paytronix Data Insights主管Lee Barnes這樣說道。

    “其中第一個是最容易找到的;大多數擁有良好數學能力,擁有數學統計學、工程學或其他科學學科學位的人,可能在這方面是非常出色的。第二個卻很難找到。令人驚訝的是,很多人建立了複雜的模型,但是當他們被問及為什麼他們認為這個模型能夠奏效、或者為什麼他們選擇這個方法的時候,他們卻無法給出一個很好的答案。”

    這些人也許能夠解釋模型有多準確,“但是,如果不理解模型為什麼以及如何工作,就很難對他們的模型抱有很大的信心。能夠對於正在做的事情有更深入的瞭解和直覺,這樣的人才是真正的資料科學家,並且可能在這個領域擁有成功的職業生涯。”Barnes說。

  • 7 # 加米穀大資料

    首先要保持開放的心態。如果你是一個新手,那麼你實際上並不知道什麼是資料科學,所以它完全有可能不是你想要的工作領域。要成為資料科學家需要花費大量的時間和精力,請充分了解資料科學中不好的方面,比如資料整理,以及構建資料生產流水線,而這些工作佔了資料科學家日常工作的大部分時間。

    首先要做的是學習Python。儘快在MOOC(大規模網路公開課平臺即慕課)上選擇相關的課程專案。當熟悉Python基本用法後,請學習如何使用Jupyter notebooks工具,並選學一些資料科學領域的網路公開課。

    如果你是完全從零開始的,一開始就以高階的資料科學職位為目標可能不太好,選擇一些入門級的職位比較好,比如資料視覺化或資料分析職業的需求量很大,並且市場需求也大。這些崗位的人員通常與資料科學家一起工作,一旦你積累了相關經驗,就為今後的勝任更高階的資料科學相關職位奠定了基礎。全文:三種“圈外人”的資料科學入行指南:https://www.toutiao.com/i6636954081736786439/

    相關:從事資料科學,“必備”的數學基礎有哪些?

    https://www.toutiao.com/i6591645564310389251/

    https://www.toutiao.com/i6630975917390823943/

  • 8 # 人民郵電出版社

    Intuit資深資料科學家&創新領袖George Roumeliotis認為,資料科學家是一個結合了應用數學、計算機科學、商業資訊和新產品開發的綜合職位,最後一專案前在資料科學中的比例越來越大。一名出色的資料科學家應該像瑞士軍刀一樣多才多藝,能夠在諸多領域都有所作為,並且在一兩個區域內擁有深邃的真知灼見。

    資料科學家需要有三個方面的技能或素質:

    經典統計學或者機器學習、計算機科學和商業諮詢能力。

    其中,資料科學家的技術列表大概包括了統計學、機器學習、SQL和Hadoop,以及一門類似Java一類的主流程式語言。

    先說資料庫技術,熟練使用SQL語言和Hadoop絕對是繞不過去的條件,如果你還是一名在校大學生,你一定要學會它。可以參加一些相關的基礎課程,並要確保課程裡包含了一個至少有一部分需要你動手去完成的專案。

    再說程式設計技術,學會R語言是重中之重。這個語言寫起來不那麼漂亮,但是絕對是一個非常通用的語言。另外,你需要學會一門主流的程式語言,比如Java或者C++。當然,學會一門主流的指令碼語言,例如Python和Perl也是很有用的。

    如果你需要給這些語言或者技術做一個優先順序排序或者估計一下它們的比例,大概是這個樣子的:

    同樣,商業諮詢能力也是很重要的,它是區分資料科學家與資料“技術宅”的重要指標,一個具有商業諮詢能力的資料科學家就像是一個資深的麥肯錫諮詢師,可以流暢地在商業和技術兩個區域騰挪閃轉,並且是一名能被人信任的商業顧問或者領袖。

    那麼,怎樣才能成為具備這些能力的資料科學家呢?

    對於有志於資料科學的本科或者研究生同學,哈佛大學應用統計專業教授Joe Blitzstein給出了學習建議:

    充分利用線上資料:在網上可以找到大量關於資料科學的資料,不要只埋頭在書本里。動手做Kaggle之類的競賽:

    除了看書和學習線上課程以外,切記一定要去Kaggle網站上動手做一些類似Kaggle的競賽。Kaggle上有非常有趣的資料集以及問題等待大家去處理,大部分都是關於預測變數的。你可以嘗試一個或者幾個比賽,找到那些你感興趣的資料集,大膽地參與其中,也可以從中找到各種各樣關於迴歸模型和機器學習的問題。去看那些不同的問題,然後嘗試去用每一個問題提供的資料解決它們,你將會對於用什麼方法解決什麼問題有更深的理解。這些東西中有很多都是很難透過課程來學會的,需要上手寫程式碼做東西才能知道。

    努力去做數學、統計學和計算機這三種學科的交叉型人才,並且牢牢地打好基礎。專注於解決現實問題,要記住深度比廣度有用。解決一些有難度的問題,這樣你可以將自己的課堂所學運用於現實生活中,獲得更多的想法,以及能準確地判斷這些想法與資料科學有沒有關聯。要多問問題,以及嚴謹求實:

    隨時隨地問自己一個很基本的問題:“有誰會關心這個問題?”多想想你做這一切的動機。為什麼這些變數相互關聯?為什麼這個資料集有意思?我們能用它回答什麼問題?當你使用不同的統計方法的時候,不要只是像用架子上的一個黑盒子一樣,拿過來用它產出結果。一定要多問問題!這些結果有意義嗎?你如何評估你使用的方法是不是靠譜的?或者說你怎麼知道用這個複雜模型的效果要比隨便去猜更準確?你怎麼知道它更好?它在哪些方面更好?它確實比一些很簡單的模型好嗎?不停地去試問這些東西,然後去比較它們。無論結果有沒有變好,都一定要深究下去。

    如果你想獲得更多關於如何成為資料科學家的方法,可以去閱讀這本《資料科學家訪談錄》。這本書對25位世界知名的資料科學家進行了深度的訪談,從不同的視角和維度,將他們的智慧、經驗、指導和建議凝聚成冊。每一篇訪談都是一次深度的交流,涵蓋了這些資料科學家從菜鳥起步,運用各種知識武裝和充實自己,一直到成為一名卓有成效的資料科學家的全過程。透過閱讀本書中的訪談,讀者可以形成對資料科學的宏觀認識和了解,更深刻地認識和體驗資料科學家的角色,並且從這些前輩的過往經歷中學到寶貴的知識和經驗,以應用於自身的成長和事業中。

  • 9 # 農民做力所能及的事

    謝謝邀請,科技的組合沒有資料怎麼能成功,首先是機器的大小資料是型號,然後各種安裝的距離,機器的功率是資料,比喻怎麼樣能量不守恆,是靠資料支撐,只有資料經得起考驗,只要安排了方向推進,再靠資料,絕對難有假事,把握好方向,利用好技巧,精於資料,科技發明創造成功不會有錯,所以資料是證據,好好學習數學,利用資料築基每項科學的進需要資料,不斷增加對資料的必須要有資料之間分析,用資料說話,腦海裡一定要注意資料,每一件事要具體說明,都是資料別人才有目的地,掌握了資料就掌握了科技,做到巧用資料,最佳化資料,沒有資料一件事不可能有結果,要想成為一位優秀的資料科學,很難,要努力學習,學習學習再學習。

  • 10 # 老劉說IT的那些事

    個人感覺任何工作都有兩塊:低頭幹活和開口說話。只會低頭幹活是傻把式,只會開口說話是假把式。

    但對於資料科學家來說,不能做傻子更不能做騙子,怎麼辦呢?以下四招:

    1、邏輯思維

    這是思考和交流的基石,即使以後不做資料科學家,對生活和工作也大有幫助。推薦本書《金字塔原理》。

    2、理論基礎

    包括統計學和各種演算法,太多了,就不細說了。

    3、工具技能

    常用軟體和語言:EXCEL, PYTHON,SPSS等等

    常用分析模型:5W2H之類的東東

    4、交流溝通

    在工作環境中,日常彙報很常見,表達自己並且能說清楚事情是最基本的,透過和上下級的交流溝通,得到認可和支援是相當重要的。這時候 POWERPOINT 可以幫你。

    對於準備入行的同學,建議先從1和3入手,逐漸加強2和4。

    對於已經入行的同學,建議2和4是重點,這需要大量的學習和實踐,同時要透過工作熟練運用1和3。

    老劉的回答必須是簡單明瞭。:-}

  • 11 # 資料分析不是個事兒

    大概是能製作出屬於自己的資料地圖吧。

    這是我自己做出來的,集合了近10年來的資料分析職業經驗,參考了數十份行業內的權威著作、白皮書等,結合數十萬字的龐大學習資料,才有了這個。

    指導別人前,自己也得有拿的出手的乾貨吧,不然怎麼讓人信服?

    先說一個,如果題主只是為了高大上的title來的,那我勸你趁早放棄幻想,現實中資料科學家只是尊稱罷了,沒什麼用,說不定別人轉頭就認為你是為他們服務的呢?

    那這個概念是怎麼來的?

    程式設計師覺得自己不適合程式設計,產品經理覺得自己不適合做產品,統計會計覺得自己天花板又低,咦,這個資料科學家的崗位聽起來蠻高大上的,做的事情和我也沒什麼差距,我去試試?

    嗯,基本上都是這樣。

    你們以為的:

    這種人存不存在?存在,但醒一醒,數量很少,而且需要多年的歷練。

    據我瞭解,多個網際網路大公司的資料leader,他們就是導導表,跑下資料,然後按業務需求把資料給別人,偶爾還幫其他部門做一些臨時的需求,挖掘使用者資料可能更多一點。

    離資料科學家還遠著,這就是現實。

    但並不是沒辦法,成為資料科學家,還是有路可循。

    1、資料科學家怎麼來的?

    先有Data science ,再有做此行當的人data scientists 。

    science都是要做實驗的,實驗的物件是資料,方法是dm,ml,dl等,儀器是各類儲存硬體,處理軟體。奇妙的是研究物件是不同領域,所以一個data science過程,產出物可能僅僅一些常規知識,提示和決策,甚至可以拓展對某個領域認知。

    2、資料科學家的型別

    第一種,偏分析。

    可以說,類似於商業分析這種,需要你懂行業,懂市場,懂公司運作,然後再去解決問題。

    主要工作,基本上是清清資料,做做分析,出出報告,搞搞洞察,但隨著大資料的到來,對模型建立能力、工具使用能力、資料處理能力要求更高了。

    Tableau、python、Finebi、R、pandas、matlab都得會。

    還得懂市場、經濟、統計的知識。

    第二種,偏演算法。

    研究類的昇華,比如阿里達摩院,也算一個成本部門,是部門就得有產出,是研究就得有成果,就得能落地(這句話不是我說的,是馬老師)。

    那這種就很好理解了,把演算法從Research做到Product。

    要求會更高,NLP,資料探勘,推薦演算法,CV,業務邏輯,需求管理,程式設計能力倒是其次的。

    3、資料科學家的核心技能

    除了資料分析,還有什麼?

    其實資料科學在公司裡的應用還是基礎層次,老闆招人可能只是想讓公司趕上AI的末班車,但是不懂如何讓資料成為生產力,噱頭是主要的。公司越大,職位邊界會越模糊。

    所以,資料科學家應該擁有產品經理一樣的嗅覺能力,或者僅僅次於程式設計師的程式碼能力。

    不然你就會很迷茫,自己在產品和開發都沒有話語權,逐漸變成了支援部門。

    所以要在大方向上,更加積極一點,從insight到product,要全程參與,真的很培養能力,然後才能有資料話語權,這可不是寫個python、sql或者etl就能實現的。

  • 中秋節和大豐收的關聯?
  • 新手入行寫網路小說,要注意些什麼呢?求前輩指點?