搭建私有云平臺：Hadoop還是選擇OpenStack？

首頁>Club>視界雲服務2021-04-06 04:51

搭建私有云平臺：Hadoop還是選擇OpenStack？

搭建私有云平臺選擇Hadoop還是OpenStack? 搭建一個私有云平臺，主要是用於機器人工作站的各種感測器、相機等感測裝置對工業作業現場環境資料的採集和實時處理，為機器人的運動提供決策。感測器採集的資料量大且該系統希望實時性較好，所以希望資料處理等過程快而準確。最近在調研各種元件各種工具，但是資料太多眼花繚亂了。據我目前瞭解的話，Hadoop更側重的是分散式儲存和計算，而OpenStack則是對平臺和虛擬機器的管理，不知道這樣理解對不對？那麼具體到系統平臺的實際設計實現上，該如何選擇呢?

回覆列表

1 # 雲谷計算

最好是用OpenStack搭建iaas,做資源池化，然後把hadoop作為應用跑在openstack iaas上，即使用openstack提供的虛擬機器，塊儲存，物件儲存，vpc，安全組能力。

2 # 王海軍老師

首先建議題主描述清楚應用場景，否則別人做的方案可能都不符合需求。

就Hadoop和OpenStack的糾結而言，支撐資料分析用前者，做資源管理用後者。

=================補充=============

題主的需求，實質是搭建一個IoT實時大資料平臺，而不是一般意義的私有云。IoTa大資料平臺除了資料採集和結果反饋，其餘部分和一般的大資料平臺相差不多。OpenStack長於管理VM資源管理，Hadoop長於批處理，不擅長實時處理，所以需要尋找一種更加完善的解決方案。這裡推薦考慮Storm或者Apache Flink。
OpenStack是一個開源的IaaS實現，由Nova、Cinder、Neutron、Swift、Glance等一系列相互關聯的子專案組成，可以理解為雲計算領域的Linux。OpenStack架構松耦合，高可擴充套件，能適應不同企業的需求，已經成為IaaS私有云事實標準。國內外各大廠都在OpenStack上有很大的投入。當然專案成長的同時，也受到大廠博弈的一些影響，但專案本身就是大家求同存異的結果，我們相信OpenStack會在競閤中有更美好的未來。

大資料平臺可以完全不鳥OpenStack，分散式檔案系統有HDFS，資源排程和管理YARN就行。YARN都已經支援Docker，希望細粒度排程模式可以考慮Mesos，Mesos提供良好的API，支援很多成熟的框架，不過Mesos不在Hadoop生態中，這是一個缺憾。Apache Hadoop能夠以低成本進行海量資料的多維統計分析，還是很有優勢。
核心流式計算部分，有Storm、Spark、Flink可以選擇。

Storm程式設計模型簡單，毫秒級延遲，容錯性、擴充套件性和可靠性都比較好，在國內有很多團隊採用。不過Storm只是流計算框架，且不能直接利用YARN。

Apache Spark是和Hadoop一樣流行的開源大資料框架，社群活躍，在流計算、圖處理、機器學習方面都投入很大，支援對SQL的最佳化，很適合多種大資料平臺的需求，不過Spark Streaming本質還是批處理，把資料流分解成一系列小的RDD，透過時間窗來控制資料塊的大小，有測試說只能支援秒級計算。

Apache Flink是可擴充套件的批處理和流式資料處理的資料處理平臺，能夠基於同一個Flink執行時提供支援流處理和批處理兩種型別應用的功能。不同於Spark，Flink把批處理當初特殊的流處理，並且支援增量迭代，這是非常讚的設計，可以快速地處理資料密集型和迭代任務，效能很有保證。不過目前Flink使用者群和社群還沒有Spark那麼強大。但Flink的未來很值得期待，可能需要時間的沉澱。
Spark和Flink的對比，Apache Flink現在在大資料處理方面能夠和Apache Spark分庭抗禮麼這個問題的最佳答案質量很棒，轉載自知乎，翻譯的這篇文章：Introduction to Apache Flink for Spark Developers : Flink vs Spark

最後，上一張網易猛獁大資料平臺架構圖，供參考。
3 # 大資料小諸葛

hadoop適合幾百臺電腦聯合處理資料的大型應用，電腦少時體現不出優勢，反而耗費資源卻效率不高。
潤乾集算器是個不錯的大資料計算引擎，資源投入很少，價效比相當高，而且開發語言十分簡潔易懂。目前已在很多企業大資料計算中得到了應用，比如北京銀行、國家電網、油田環境監測資料處理等

∧ 中秋節和大豐收的關聯？

∨ 如何做好地板的品牌策劃？

熱門排行

劇多

搭建私有云平臺：Hadoop還是選擇OpenStack？