資料科學家算是統計師和程式設計師的結合體,來源也主要是這兩個專業的畢業生。不過這兩個群體的思維方式還真的是不一樣。可以認為,統計的人更加偏愛R,程式設計師更偏愛python。其實python有了pandas才能使資料分析變的像R那樣簡單。資料科學家能把python用的像R一樣我覺得就好了。不過如果除了資料分析,公司要求程式碼的重用性,或者直接嵌入到產品中(比如網站推薦系統),那麼對程式設計的要求就更高了。其實資料科學家在做資料分析的時候,起碼80%的時間是在做資料整理和清洗,熟練使用pandas就好,這意味著能熟練的清理掉不必要資料,讀取主要的資料格式檔案,資料的合併彙總歸類和切片等等。資料整理好比學程式設計要最起碼能控制if-else和for迴圈,命令簡單但是實用。資料整理好了,對於各種演算法包裡的函式,其實就是input output的問題了。另外一個常用的就是資料視覺化也就是繪圖了(目前主要是matplotlib)。這個步驟對於input的資料就是資料探索化的過程,檢視資料是否有不合理性,資料的分佈等等,對於output的資料就是結果呈現的過程,這樣更有助於分析。總而言之,資料科學家熟悉python的基本語法,熟練pandas(基於numpy),能利用python熟練的獲取資料,整理資料,並會使用matplotlib展現資料是一個基本的要求。對於要做科學計算或者機器學習來說,資料整理好了,程式設計不是問題,數學才是。
資料科學家算是統計師和程式設計師的結合體,來源也主要是這兩個專業的畢業生。不過這兩個群體的思維方式還真的是不一樣。可以認為,統計的人更加偏愛R,程式設計師更偏愛python。其實python有了pandas才能使資料分析變的像R那樣簡單。資料科學家能把python用的像R一樣我覺得就好了。不過如果除了資料分析,公司要求程式碼的重用性,或者直接嵌入到產品中(比如網站推薦系統),那麼對程式設計的要求就更高了。其實資料科學家在做資料分析的時候,起碼80%的時間是在做資料整理和清洗,熟練使用pandas就好,這意味著能熟練的清理掉不必要資料,讀取主要的資料格式檔案,資料的合併彙總歸類和切片等等。資料整理好比學程式設計要最起碼能控制if-else和for迴圈,命令簡單但是實用。資料整理好了,對於各種演算法包裡的函式,其實就是input output的問題了。另外一個常用的就是資料視覺化也就是繪圖了(目前主要是matplotlib)。這個步驟對於input的資料就是資料探索化的過程,檢視資料是否有不合理性,資料的分佈等等,對於output的資料就是結果呈現的過程,這樣更有助於分析。總而言之,資料科學家熟悉python的基本語法,熟練pandas(基於numpy),能利用python熟練的獲取資料,整理資料,並會使用matplotlib展現資料是一個基本的要求。對於要做科學計算或者機器學習來說,資料整理好了,程式設計不是問題,數學才是。