-
1 # IT人劉俊明
-
2 # Lake說科技
Hadoop 本身是一款開源大資料元件,它包括三個部分:MapReduce計算模型、HDFS 分散式檔案系統、Yarn 資源管理系統。像現在其他 Hadoop 相關的大資料元件,比如HBase、Hive等,因為這些元件底層其實還是依賴 Hadoop 系統的功能模組來進行實現的,沒有完全脫離於 Hadoop 系統單獨形成一個開源元件。所以整體 Hadoop 生態系統包含很多大資料元件。
比如像 HBase NoSQL 資料庫的實現,最底層是以 HFile 檔案進行儲存,而 HFile 檔案是在 HDFS 上面進行儲存。HBase 整體上理解可以認為是一個基於 Hadoop HDFS 分散式檔案系統的一個數據庫。使用 HDFS 分散式檔案系統進行儲存時,因為 HDFS 本身具有分割槽容錯性,同時HDFS 檔案系統是分散式的,未來在機器擴容時,也非常方便。
現在其實也有很多分散式計算引擎也屬於 Hadoop 生態系統,比如 Spark ,Storm等。公司其實為了大資料技術的收斂,一般都會統一來使用 Yarn 資源管理器來管理和排程叢集的資源,而很多 Spark 任務、Storm 任務也支援在 Yarn 上面進行執行,而 Yarn 資源管理器又屬於 Hadoop 本身的一個模組,所以它們屬於 Hadoop 生態系統的一員。
雖然 Hadoop 生態系統有很多大資料元件,但是新人在學習入門的時候,我建議還是先從 Hadoop 底層的原理和 Hadoop API 的使用進行入手,先去了解一下 Hadoop 到底是一個什麼樣的大資料元件,它包含了哪些,它的功能是什麼等等。我建議可以先從《Hadoop權威指南》這本書開始看起。
如果書確實看不懂的話,可以去網上看一些 Hadoop 的技術部落格,有些技術部落格比書本要講解的清楚,同時,你也可以從網上下載 Hadoop 相關的影片來進行學習,想入門大資料的朋友,我推薦先從 Hadoop 入手。
回覆列表
目前經過多年的發展,Hadoop已經形成了一個比較成熟的生態系統,原因主要集中在三個方面,其一是Hadoop自身已經構建起了一整套解決方案;其二是Hadoop自身能夠完成價值增量;其三是Hadoop為大資料技術體系奠定了一定的基礎。
雖然Hadoop本身是一個開源框架,但是圍繞Hadoop平臺已經打造了一整套解決方案,這些解決方案涉及到資料的儲存(HDFS)、分散式計算、資料同步、資料查詢、資料分析、資料呈現等一系列內容,可以說當前的Hadoop平臺已經比較完善了。
雖然Hadoop自身是非商業系統,但是Hadoop平臺目前的落地應用案例已經比較多了,而且能夠為使用者形成價值增量,這是Hadoop形成自身生態的關鍵點。目前基於Hadoop的大資料應用開發已經遍佈多個行業領域,涉及到金融、醫療、交通等。
目前行業領域內有不少商用的大資料平臺正是基於Hadoop打造的,這也在一定程度上說明了Hadoop平臺的穩定性和擴充套件性都是比較強的,而且基於Hadoop平臺打造的大資料應用產品也可以廣泛部署在其他商業大資料平臺上,這使得Hadoop已經成為了一種大資料開發領域的標準,這進一步鞏固了Hadoop的應用地位。
雖然目前Hadoop得到了廣泛的應用,而且Hadoop生態也越來越完善,但是Hadoop自身的可用性也有待提高,畢竟對於行業企業來說,直接採用Hadoop作為大資料平臺還是相對比較麻煩,對於開發人員的要求也相對比較高。相比於Hadoop來說,Spark平臺要更“輕”一些,所以目前很多大資料應用也會更傾向於採用Spark平臺。