spark是實時計算的分散式框架
現代網際網路或者IT公司常常會有大量資料沉澱,其中的商業價值有待發掘和利用。傳統人工或者簡單的資料庫統計還有Excel工具效能太慢,單機也無法儲存這麼多資料。所以分散式計算框架應運而生:主要包括hadoop和spark。hadoop最早就是做一些定時處理任務。這些任務跟統計和機器學習相關。。個人或企業試圖從中發現商業流向的動態以調整本身的定價模式,執行方向以獲得更好的收益
hadoop對於機器要求不高(個人pc級別)就更有價值了(一個好的傳統bi分析師至少好幾萬還不好找。。有些功能還做不到,hadoop只要你想都可以)
hadoop因為技術原因(基於硬碟)是定時批處理性質的,比較適合在閒時計算。。spark是基於記憶體的相對要求機器好點但是效能快的多(幾百倍),而且由於摩爾定律,價格也變成商業可接受的範圍。而且隨著現代商業發現。。也越來越需要一些實時計算。。比如說商場人流分佈這些計算等。。電商平臺流量分佈等。。
spark就更加火爆了
總的來說,spark是市面上效能最好的商業分析開發框架
spark是實時計算的分散式框架
現代網際網路或者IT公司常常會有大量資料沉澱,其中的商業價值有待發掘和利用。傳統人工或者簡單的資料庫統計還有Excel工具效能太慢,單機也無法儲存這麼多資料。所以分散式計算框架應運而生:主要包括hadoop和spark。hadoop最早就是做一些定時處理任務。這些任務跟統計和機器學習相關。。個人或企業試圖從中發現商業流向的動態以調整本身的定價模式,執行方向以獲得更好的收益
hadoop對於機器要求不高(個人pc級別)就更有價值了(一個好的傳統bi分析師至少好幾萬還不好找。。有些功能還做不到,hadoop只要你想都可以)
hadoop因為技術原因(基於硬碟)是定時批處理性質的,比較適合在閒時計算。。spark是基於記憶體的相對要求機器好點但是效能快的多(幾百倍),而且由於摩爾定律,價格也變成商業可接受的範圍。而且隨著現代商業發現。。也越來越需要一些實時計算。。比如說商場人流分佈這些計算等。。電商平臺流量分佈等。。
spark就更加火爆了
總的來說,spark是市面上效能最好的商業分析開發框架