如果單純使用hadoop,不修改它的核心,實時性沒戲。這由hadoop的定位決定。Hadoop 最初被設計為解決大量資料離線情況下批次計算的問題,解決伸縮性、分佈問題的,不是解決效能問題的。MapReduce的IO開銷是hadoop實時性最大的障礙。
資料分析應用中的低延遲是Hadoop平臺的主要目標,而不是實時性。
實時資料分析一般用於金融、B2C等領域,往往要求在數秒內返回上億行資料的分析,要滿足這樣的需求,可以採用精心設計的傳統關係型資料庫組成並行處理叢集,但需要耗費比較高的軟硬體成本。目前比較新的海量資料實時分析工具有EMC的Greenplum、SAP的HANA等。
hadoop比較適合做離線處理。對於大多數反饋時間要求不是那麼嚴苛的應用,比如離線統計分析、機器學習、搜尋引擎的反向索引計算、推薦引擎的計算等,可以採用Hadoop進行離線分析的方式。Hadoop叢集軟硬體的花費極低,每GB儲存和計算的成本是其他企業級產品的百分之一甚至千分之一。
對於一般的實時資料分析場景,兩階段構建更經濟適用,使用Hadoop進行離線計算(offline computation)及利用關係型資料庫進行線上服務(online serving)。這個場景困難的部分在於如何批次載入離線計算階段的輸出到線上服務系統,而不會造成效能下降。其實我們要知道大資料的實質特性:針對增量中海量的結構化,非結構化,半結構資料,在這種情況下,如何快速反覆計算挖掘出高效益的市場資料??帶著這 個問題滲透到業務中去分析,就知道hadoop需要應用到什麼業務場景了!!!
如果關係型資料庫都能應付的工作還需要hadoop嗎?比如
1.銀行的信用卡業務,當你正在刷卡完一筆消費的那一瞬間,假如在你當天消費基礎上再消費滿某個額度,你就可以免費獲得某種令你非常滿意的利益等等,你可能就會心動再去消費,這樣就可能提高銀行信用卡業務,那麼這個消費額度是如何從海量的業務資料中以秒級的速度計算出該客戶的消費記錄,並及時反饋這個營銷 資訊到客戶手中呢?
這時候關係型資料庫計算出這個額度或許就需要幾分鐘甚至更多時間,就需要hadoop了,這就是所謂的“秒級營銷”. 針對真正的海量資料,一般不主張多表關聯。
2. 在淘寶,當你瀏覽某個商品的時候,它會及時提示出你感興趣的同類商品的產品資訊和實時銷售情況,這或許也需要用到hadoop.
3. 就是報表用到的年度報告或者年度環比資料報告的時候也會用到hadoop去計算.
4.搜尋引擎分析的時候應該也會用到。一個網友說過,其實還是看big data能否帶來多大的效益!比如銀行在躺著都賺錢的情況下,big data不一定是銀行的專案. 況且hadoop是新興技術,銀行業對新技術還是相對保守的.
如果單純使用hadoop,不修改它的核心,實時性沒戲。這由hadoop的定位決定。Hadoop 最初被設計為解決大量資料離線情況下批次計算的問題,解決伸縮性、分佈問題的,不是解決效能問題的。MapReduce的IO開銷是hadoop實時性最大的障礙。
資料分析應用中的低延遲是Hadoop平臺的主要目標,而不是實時性。
實時資料分析一般用於金融、B2C等領域,往往要求在數秒內返回上億行資料的分析,要滿足這樣的需求,可以採用精心設計的傳統關係型資料庫組成並行處理叢集,但需要耗費比較高的軟硬體成本。目前比較新的海量資料實時分析工具有EMC的Greenplum、SAP的HANA等。
hadoop比較適合做離線處理。對於大多數反饋時間要求不是那麼嚴苛的應用,比如離線統計分析、機器學習、搜尋引擎的反向索引計算、推薦引擎的計算等,可以採用Hadoop進行離線分析的方式。Hadoop叢集軟硬體的花費極低,每GB儲存和計算的成本是其他企業級產品的百分之一甚至千分之一。
對於一般的實時資料分析場景,兩階段構建更經濟適用,使用Hadoop進行離線計算(offline computation)及利用關係型資料庫進行線上服務(online serving)。這個場景困難的部分在於如何批次載入離線計算階段的輸出到線上服務系統,而不會造成效能下降。其實我們要知道大資料的實質特性:針對增量中海量的結構化,非結構化,半結構資料,在這種情況下,如何快速反覆計算挖掘出高效益的市場資料??帶著這 個問題滲透到業務中去分析,就知道hadoop需要應用到什麼業務場景了!!!
如果關係型資料庫都能應付的工作還需要hadoop嗎?比如
1.銀行的信用卡業務,當你正在刷卡完一筆消費的那一瞬間,假如在你當天消費基礎上再消費滿某個額度,你就可以免費獲得某種令你非常滿意的利益等等,你可能就會心動再去消費,這樣就可能提高銀行信用卡業務,那麼這個消費額度是如何從海量的業務資料中以秒級的速度計算出該客戶的消費記錄,並及時反饋這個營銷 資訊到客戶手中呢?
這時候關係型資料庫計算出這個額度或許就需要幾分鐘甚至更多時間,就需要hadoop了,這就是所謂的“秒級營銷”. 針對真正的海量資料,一般不主張多表關聯。
2. 在淘寶,當你瀏覽某個商品的時候,它會及時提示出你感興趣的同類商品的產品資訊和實時銷售情況,這或許也需要用到hadoop.
3. 就是報表用到的年度報告或者年度環比資料報告的時候也會用到hadoop去計算.
4.搜尋引擎分析的時候應該也會用到。一個網友說過,其實還是看big data能否帶來多大的效益!比如銀行在躺著都賺錢的情況下,big data不一定是銀行的專案. 況且hadoop是新興技術,銀行業對新技術還是相對保守的.