回覆列表
-
1 # 猿人故事
-
2 # 一下v
你那個應該是500G的,沒有400多G左右的硬碟規格。
可以按以下容量進行劃分:
1、系統盤:50G
2、程式盤:50G,如果安裝的較多可劃100G
3、電影及音樂盤:150G
4、個人資料盤:50G
5、下載資源庫:150G
6、資料備份盤:150G
剛好。
-
3 # Microphone吳
1、分配哪些資源?
executor、core per executor、memory per executor、driver memory2、在哪裡分配這些資源?
在我們在生產環境中,提交spark作業時,用的spark-submit shell指令碼,裡面調整對應的引數/usr/local/spark/bin/spark-submit \--class cn.spark.sparktest.core.WordCountCluster \--num-executors 3 \ 配置executor的數量--executor-memory 100m \ 配置每個executor的記憶體大小--executor-cores 3 \ 配置每個executor的cpu core數量--driver-memory 100m \ 配置driver的記憶體(影響很大)/usr/local/SparkTest-0.0.1-SNAPSHOT-jar-with-dependencies.jar \3、調節到多大,算是最大呢?
第一種,Spark Standalone,公司叢集上,搭建了一套Spark叢集,你心裡應該清楚每臺機器還能夠給你使用的,大概有多少記憶體,多少cpu core;那麼,設定的時候,就根據這個實際的情況,去調節每個spark作業的資源分配。比如說你的每臺機器能夠給你使用4G記憶體,2個cpu core;20臺機器;executor,20;平均每個executor:4G記憶體,2個cpu core。 第二種,Yarn。資源佇列。資源排程。應該去檢視,你的spark作業,要提交到的資源佇列, hadoop spark storm 每一個佇列都有各自的資源(cpu mem)大概有多少資源?500G記憶體,100個cpu core;executor,50;平均每個executor:10G記憶體,2個cpu core。 Spark-submit的時候怎麼指定資源佇列? --conf spark.yarn.queue default設定佇列名稱:spark.yarn.queue default 一個原則,你能使用的資源有多大,就儘量去調節到最大的大小(executor的數量,幾十個到上百個不等;executor記憶體;executor cpu core)
看你對執行程式的效能有什麼要求,400g如果全部要載入到記憶體,那一臺機器128g記憶體,4臺spark計算節點機器就夠了。如果對效能要求不高,那麼spark計算節點的記憶體不需要這麼大,因為spark是支援資料先儲存在磁碟上的,就是說一部分rdd資料在記憶體,一部分資料rdd可以儲存在磁碟。當然這樣讀寫io會變慢。看你的實際需求了。