全文共1968字,預計學習時長5分鐘
對於資料科學初學者來說,實幹才是硬道理。所以我們只需選擇其中一種語言,並重點完成一些專案,接著便可品嚐勝利的果實。這就是最快的學習方式。<0}
筆者雖然很想直接推薦Python(筆者主要使用Python,不過也的確掌握一些R語言的工作知識),但還是想為初學者公正地評估一下這兩種語言的有效性。這主要是因為選擇哪種語言取決於你自己的具體情況。
你為什麼想學習?
必須考慮的因素是:你想要學習的原因。例如,如果你是一個訓練有素的生物學家,想學習一些程式設計技能以便更好地理解你的資料集,或者你熟悉其他科學程式語言,比如MATLAB,那麼你應該考慮在YouTube上看一些R語言的教程,因為它對你來說比Python更簡單、更直觀。
或者,如果你是精通C/C++和Java等語言的軟體工程師,並且準備轉攻資料科學,Python將是適合你的一種語言。與大多數其他流行的程式語言一樣,Python是一種面向物件程式設計(OOP)語言,它可能比R語言更直觀。
又或者,也許你最近一直在閱讀資料科學這一迷人領域的相關文獻,並想涉足其中,在這種情況下,這兩種語言都是不錯的選擇。因此,比起學習的理由這一因素,選擇哪種語言將更多地取決於其他因素。
你是否有精通該語言的朋友或同事?
如果你正在學習一門新語言,那麼獲得社群的支援將會是一個巨大的優勢。從社群獲得幫助是程式設計師的一項非常重要的技能。
作為一名初學者,學習如何獲得幫助有些棘手,很少有網路資源來教會人們如何從社群獲得幫助。具備敏銳的直覺,並且知道當代碼出錯時應該詢問些什麼是非常重要的。
如果你認識一個精通Python的人,或者你實驗室的另一個研究人員一直在研究R語言,那麼你最好學習他們擅長的語言,因為這樣你就可以在遇到困難時隨時向他們求助。
你是隻對統計和資料分析感興趣,還是想學習其他領域,如機器學習和人工智慧?
在應用層面上,Python和R語言的一個顯著區別在於前者用途更廣泛。Python是一種成熟的程式語言,這意味著你只用Python便可以收集、儲存、分析和視覺化資料,同時還可以建立機器學習工作管道並將其部署至生產或網站中。
另一方面,R語言則是隻用於統計和資料分析,它的圖表要比Python的更美觀且個性化。R語言使用圖形語法(Grammar ofGraphics)的方式視覺化其ggPlot2庫中的資料,這提供了Python所缺乏的大量直觀的個性化設定。
或許這樣說有些籠統,但如果你想成為一名資料分析師,R語言應該是你的首選。如果你想成為一名資料科學家,Python則是更好的選擇。這便是泛化與專業化的兩難選擇。
作為一個在過去十年間興起的領域,資料科學的進化日新月異。但不變的是越來越多的資料管道每天都在被自動化。
具備資料工程、資料視覺化、機器學習工程、雲服務整合和模型部署等多種技能的員工,總是比那些只專注於資料科學工作流程這一個方面的員工更受歡迎。該領域的發展已經在很大程度上實現自動化,只有程式設計技能出色的員工才能不被機器所取而代之。除非你極其擅長該領域,否則僅僅專注於構建優秀的機器學習模型在未來是行不通的。
目前的業內形勢是:有太多初學者水平的求職者,能力雖然“較為”出色,而初工作經驗則寥寥無幾。對於那些略微高階的工作崗位來說,則沒有足夠多的經驗豐富或技術對口的工作者。為了能夠在工作中更上一層樓,你將需要去理解並實踐工作流的其它階段,為何不讓自己的成功機率最大化?
如果你依舊舉棋不定,筆者建議最好是現在就選擇Python並開始學習。在你掌握了與之相關的工作知識之後,還可以學習R語言的基礎知識。但如果你實在用不慣Python,那麼接下來該做什麼就無需筆者多費口舌了。
作為初學者,你的首要任務應該是瞭解資料科學的核心概念,並首先了解如何將這些概念應用於實際場景。對於那些沒有程式設計或計算機科學背景知識的人來說,配置程式設計環境可能是件難事。然而,比起Python,配置環境並開始學習R語言的體驗可能會更加流暢友好。
有太多人只是沉溺於成為一名資料科學家的空想,而真正腳踏實地採取行動的人卻遠遠不夠。所以,是時候開始你的資料科學之旅了。
我們一起分享AI學習與發展的乾貨