1、Python語言
如果你的資料科學家不使用R,他們可能就會徹底瞭解Python。十多年來,Python在學術界當中一直很流行,尤其是在自然語言處理(NLP)等領域。因而,如果你有一個需要NLP處理的專案,就會面臨數量多得讓人眼花繚亂的選擇,包括經典的NTLK、使用GenSim的主題建模,或者超快、準確的spaCy。同樣,說到神經網路,Python同樣遊刃有餘,有Theano和Tensorflow;隨後還有面向機器學習的scikit-learn,以及面向資料分析的NumPy和Pandas。
還有Juypter/iPython――這種基於Web的筆記本伺服器框架讓你可以使用一種可共享的日誌格式,將程式碼、圖形以及幾乎任何物件混合起來。這一直是Python的殺手級功能之一,不過這年頭,這個概念證明大有用途,以至於出現在了奉行讀取-讀取-輸出-迴圈(REPL)概念的幾乎所有語言上,包括Scala和R。
Python往往在大資料處理框架中得到支援,但與此同時,它往往又不是“一等公民”。比如說,Spark中的新功能幾乎總是出現在Scala/Java繫結的首位,可能需要用PySpark編寫面向那些更新版的幾個次要版本(對Spark Streaming/MLLib方面的開發工具而言尤為如此)。
與R相反,Python是一種傳統的面嚮物件語言,所以大多數開發人員用起來會相當得心應手,而初次接觸R或Scala會讓人心生畏懼。一個小問題就是你的程式碼中需要留出正確的空白處。這將人員分成兩大陣營,一派覺得“這非常有助於確保可讀性”,另一派則認為,我們應該不需要就因為一行程式碼有個字元不在適當的位置,就要迫使直譯器讓程式執行起來。
2、R語言
在過去的幾年時間中,R語言已經成為了資料科學的寵兒——資料科學現在不僅僅在書呆子一樣的統計學家中人盡皆知,而且也為華爾街交易員,生物學家,和矽谷開發者所家喻戶曉。各種行業的公司,例如Google,Facebook,美國銀行,以及紐約時報都使用R語言,R語言正在商業用途上持續蔓延和擴散。
R語言有著簡單而明顯的吸引力。使用R語言,只需要短短的幾行程式碼,你就可以在複雜的資料集中篩選,透過先進的建模函式處理資料,以及建立平整的圖形來代表數字。它被比喻為是Excel的一個極度活躍版本。
R語言最偉大的資本是已圍繞它開發的充滿活力的生態系統:R語言社群總是在不斷地新增新的軟體包和功能到它已經相當豐富的功能集中。據估計,超過200萬的人使用R語言,並且最近的一次投票表明,R語言是迄今為止在科學資料中最流行的語言,被61%的受訪者使用(其次是Python,39%)。
3、JAVA
Java,以及基於Java的框架,被發現儼然成為了矽谷最大的那些高科技公司的骨骼支架。 “如果你去看Twitter,LinkedIn和Facebook,那麼你會發現,Java是它們所有資料工程基礎設施的基礎語言,”Driscoll說。
Java不能提供R和Python同樣質量的視覺化,並且它並非統計建模的最佳選擇。但是,如果你移動到過去的原型製作並需要建立大型系統,那麼Java往往是你的最佳選擇。
4、Hadoop和Hive
一群基於Java的工具被開發出來以滿足資料處理的巨大需求。Hadoop作為首選的基於Java的框架用於批處理資料已經點燃了大家的熱情。Hadoop比其他一些處理工具慢,但它出奇的準確,因此被廣泛用於後端分析。它和Hive——一個基於查詢並且執行在頂部的框架可以很好地結對工作。
1、Python語言
如果你的資料科學家不使用R,他們可能就會徹底瞭解Python。十多年來,Python在學術界當中一直很流行,尤其是在自然語言處理(NLP)等領域。因而,如果你有一個需要NLP處理的專案,就會面臨數量多得讓人眼花繚亂的選擇,包括經典的NTLK、使用GenSim的主題建模,或者超快、準確的spaCy。同樣,說到神經網路,Python同樣遊刃有餘,有Theano和Tensorflow;隨後還有面向機器學習的scikit-learn,以及面向資料分析的NumPy和Pandas。
還有Juypter/iPython――這種基於Web的筆記本伺服器框架讓你可以使用一種可共享的日誌格式,將程式碼、圖形以及幾乎任何物件混合起來。這一直是Python的殺手級功能之一,不過這年頭,這個概念證明大有用途,以至於出現在了奉行讀取-讀取-輸出-迴圈(REPL)概念的幾乎所有語言上,包括Scala和R。
Python往往在大資料處理框架中得到支援,但與此同時,它往往又不是“一等公民”。比如說,Spark中的新功能幾乎總是出現在Scala/Java繫結的首位,可能需要用PySpark編寫面向那些更新版的幾個次要版本(對Spark Streaming/MLLib方面的開發工具而言尤為如此)。
與R相反,Python是一種傳統的面嚮物件語言,所以大多數開發人員用起來會相當得心應手,而初次接觸R或Scala會讓人心生畏懼。一個小問題就是你的程式碼中需要留出正確的空白處。這將人員分成兩大陣營,一派覺得“這非常有助於確保可讀性”,另一派則認為,我們應該不需要就因為一行程式碼有個字元不在適當的位置,就要迫使直譯器讓程式執行起來。
2、R語言
在過去的幾年時間中,R語言已經成為了資料科學的寵兒——資料科學現在不僅僅在書呆子一樣的統計學家中人盡皆知,而且也為華爾街交易員,生物學家,和矽谷開發者所家喻戶曉。各種行業的公司,例如Google,Facebook,美國銀行,以及紐約時報都使用R語言,R語言正在商業用途上持續蔓延和擴散。
R語言有著簡單而明顯的吸引力。使用R語言,只需要短短的幾行程式碼,你就可以在複雜的資料集中篩選,透過先進的建模函式處理資料,以及建立平整的圖形來代表數字。它被比喻為是Excel的一個極度活躍版本。
R語言最偉大的資本是已圍繞它開發的充滿活力的生態系統:R語言社群總是在不斷地新增新的軟體包和功能到它已經相當豐富的功能集中。據估計,超過200萬的人使用R語言,並且最近的一次投票表明,R語言是迄今為止在科學資料中最流行的語言,被61%的受訪者使用(其次是Python,39%)。
3、JAVA
Java,以及基於Java的框架,被發現儼然成為了矽谷最大的那些高科技公司的骨骼支架。 “如果你去看Twitter,LinkedIn和Facebook,那麼你會發現,Java是它們所有資料工程基礎設施的基礎語言,”Driscoll說。
Java不能提供R和Python同樣質量的視覺化,並且它並非統計建模的最佳選擇。但是,如果你移動到過去的原型製作並需要建立大型系統,那麼Java往往是你的最佳選擇。
4、Hadoop和Hive
一群基於Java的工具被開發出來以滿足資料處理的巨大需求。Hadoop作為首選的基於Java的框架用於批處理資料已經點燃了大家的熱情。Hadoop比其他一些處理工具慢,但它出奇的準確,因此被廣泛用於後端分析。它和Hive——一個基於查詢並且執行在頂部的框架可以很好地結對工作。