全文共3387字,預計學習時長9分鐘
資料行業被認為是增長最快、價值數十億美元的行業之一。許多公司和組織正嘗試充分利用已有資料,確定仍需捕獲和儲存哪些資料。與此同時,資料科學家仍然迫切需要了解數字,挖掘針對棘手業務問題的可能解決方案。最近一項研究表明,2020年大多數高科技工作需要資料科學技能。
資料科學領域確實有很多令人興奮的機會。但在進入資料科學領域前,有必要看看以下問題,以評估資料科學是否真的適合你。
1.什麼是資料科學?
資料科學是一個廣闊的領域,包括幾個細分領域,如資料準備和探索、資料表示和轉換、資料視覺化、預測分析、機器學習、深度學習、人工智慧等。資料科學能力可分為三個等級:1級(初級);2級(中級);和3級(高階)。
2.資料科學家的職責
資料科學家利用資料得出有意義、有見地的結論,從而推動機構或組織的決策過程。他們的工作職責包括資料收集、資料轉換、資料視覺化和分析構建預測模型,提供行動建議,基於資料實施建議。資料科學家在不同的部門工作,如醫療保健、政府、工業、能源、學術界、技術、娛樂等。
一些僱傭資料科學家的頂級公司有亞馬遜、谷歌、微軟、Facebook(臉書)、LinkedIn(領英)、Twitter(推特)、Netflix(網飛)、IBM(國際商業機器股份有限公司)等。
3.資料科學家的職業前景
資料科學家的職業前景非常樂觀。IBM預測,到2020年,資料科學家的需求量將激增28%。最近使用LinkedIn求職工具進行的一項研究表明,2020年大部分的高科技工作需要具備資料科學技能,包括商業分析、機器學習和雲計算。
4.資料科學家的收入
資料科學家的收入取決於所在組織或公司、教育背景、經驗年限以及所擔任的特定職務。資料科學家的年薪在5萬美元至25萬美元之間,平均約為12萬美元。
5.如何為資料科學職業做準備
大多數資料科學或商業分析專案需要以下條件:
· 高水平的定量能力
· 解決問題的心態
· 程式設計能力
· 有效溝通的能力
· 團隊合作能力
6.應該重點關注哪些程式語言?
如果你對學習資料科學基礎感興趣,需要從某個地方開始。不要被資料科學家招聘廣告中提到的荒謬程式語言清單所嚇住。雖然學習儘可能多的資料科學工具很重要,但筆者建議從一種或兩種程式語言入手。
當你打下紮實基礎之後,就可以挑戰自己,學習能夠增強技能的不同程式語言、平臺或高效工具。筆者認為,Python和R兩種程式語言在資料科學運用中仍位居前列。我建議從Python開始,因為越來越多的學術訓練專案和行業將Python用作資料科學的預設語言。
7.成為資料科學家要多長時間
如果你有紮實的分析學科背景知識,如物理、數學、工程、計算機科學、經濟學或統計學,基本上可以自學資料科學的基礎知識。你可以從edX、Coursera或DataCamp等平臺上學習免費的線上課程。
6到12個月內可達到初級水平,7 -18個月內可達到中級水平,18- 48個月內可達到高階水平。達到一定水平所需的時間取決於教育背景以及願意在資料科學研究上投入的時間。通常,具有分析學科背景的人,如物理、數學、科學、工程、會計或計算機科學,需要的時間比不具有資料科學背景的人要少。
8.當專案遇到瓶頸,我是否有耐心可以堅持下去
資料科學專案週期可能會很漫長,且要求很高。從問題框架到模型構建和應用,整個過程可能需要數週甚至數月,具體時間取決於問題的規模。作為一名實踐資料科學家,不可避免地會碰到專案瓶頸。耐心、堅韌和毅力是成功開展資料科學事業必不可少的關鍵素質。
9.我是否具有一定的商業頭腦,可以從一個模型中得出有意義的結論,為組織帶來重要的資料驅動型決策?
資料科學是非常實用的領域,謹記,你可能非常擅長處理資料以及構建良好的機器學習演算法,但作為資料科學家,實際應用至關重要。每個預測模型都必須產生在現實情況下有意義且可解釋的結果。必須針對現實對預測模型進行驗證,才意義重大。
資料科學家的角色是從資料中提取有意義的見解,這些見解可用於以資料為依據的決策,從而提高公司效率,或改進業務開展方式,或幫助增加利潤。
10.我有良好的溝通能力嗎?
資料科學家需要能夠跟團隊的其他成員或組織中的業務主管交流想法。良好的溝通能力將起到關鍵作用,以便能夠向很少或根本不瞭解資料科學技術概念的人們傳達和展示技術性強的資訊。良好的溝通能力將有助於與其他團隊成員,例如資料分析師、資料工程師、現場工程師等營造團結協作的氛圍。
11.我是一名終身學習者嗎?
資料科學是一個不斷髮展的領域,因此請準備好接受和學習新技術。與該領域的發展齊頭並進的一種方法是與其他資料科學家建立網路。某些可以建立這種網路的平臺包括LinkedIn、GitHub和medium(TowardsData Science和Towards AI出版物)。這些平臺對於獲取有關該領域最新動態的資訊大有裨益。
12.我能成為團隊的一員嗎?
資料科學家將在資料分析師、工程師、主管的團隊中工作,因此你需要良好的溝通技巧,此外也需要成為一名好的傾聽者,尤其是在專案開發的早期階段,你需要依靠工程師或其他人員來設計和構築一個好的資料科學專案。
成為一名好的團隊合作者有助於你在商業環境中得心應手,並與團隊中的其他成員以及組織的主管或董事保持良好的關係。
13.我遵守道德規範嗎?
資料科學必須考慮道德和隱私。你需要了解專案的含義,對自己誠實,避免操縱資料或使用有意產生偏差的方法。從資料收集、分析到模型構建、測試和應用的所有階段,都要遵守道德規範。避免出於誤導或操縱觀眾的目的捏造結果。解釋資料科學專案的發現時要遵守道德規範。
14.有哪些資源可供學習資料科學?
如果情況允許,可以攻讀資料科學或商業分析碩士學位。如果負擔不起碩士學位課程,則可以自學資料科學。通常,如果具有諸如物理學、數學、經濟學、工程學或計算機科學等分析學科的紮實背景,並且對探索資料科學領域感興趣,那麼最好的方法是從大規模開放式線上課程開始。
在建立堅實的基礎後,你可能會尋求其他方法來增加知識和專業技能,如可以從教科書中學習,從事專案以及與其他資料科學領域的有志者建立聯絡。
以下推薦的MOOC和教科書可助你掌握資料科學的基礎知識。
· 推薦的MOOC:
資料科學專業證書(哈佛edX):https://www.edx.org/professional-certificate/harvardx-data-science
分析:基本工具和方法(佐治亞理工學院edX):https://www.edx.org/micromasters/analytics-essential-tools-methods
使用Python應用資料科學(密歇根大學 Coursera):https://www.coursera.org/specializations/data-science-python
· 推薦書籍:
本書作者以一種易於理解的方式解釋了機器學習中的基本概念,另外還介紹了程式碼,你可以使用提供的程式碼來練習和構建自己的模型。這本書對我作為資料科學家的旅程幫助很大。
還有許多其他出色的資料科學教科書,例如Wes McKinney的《利用Python進行資料分析》、Kuhn&Johnson的《應用預測建模》、Ian H. Witten、Eibe Frank和Mark A. Hall的《資料探勘:實用機器學習工具和技術》等等。
每個人背景不同,資料科學的旅程也因人而異。但開始旅程之前,先問問自己這14個問題,會讓你的職業生涯更加清晰。
我們一起分享AI學習與發展的乾貨