400G資料需要分配多少spark記憶體？

首頁>Club>看著反會才豬2021-01-03 01:18

400G資料需要分配多少spark記憶體？

回覆列表

1 # 猿人故事

看你對執行程式的效能有什麼要求，400g如果全部要載入到記憶體，那一臺機器128g記憶體，4臺spark計算節點機器就夠了。如果對效能要求不高，那麼spark計算節點的記憶體不需要這麼大，因為spark是支援資料先儲存在磁碟上的，就是說一部分rdd資料在記憶體，一部分資料rdd可以儲存在磁碟。當然這樣讀寫io會變慢。看你的實際需求了。

2 # 一下v

你那個應該是500G的，沒有400多G左右的硬碟規格。
可以按以下容量進行劃分：
1、系統盤：50G
2、程式盤：50G，如果安裝的較多可劃100G
3、電影及音樂盤：150G
4、個人資料盤：50G
5、下載資源庫：150G
6、資料備份盤：150G
剛好。
3 # Microphone吳

1、分配哪些資源？
executor、core per executor、memory per executor、driver memory
2、在哪裡分配這些資源？
在我們在生產環境中，提交spark作業時，用的spark-submit shell指令碼，裡面調整對應的引數/usr/local/spark/bin/spark-submit \--class cn.spark.sparktest.core.WordCountCluster \--num-executors 3 \ 配置executor的數量--executor-memory 100m \ 配置每個executor的記憶體大小--executor-cores 3 \ 配置每個executor的cpu core數量--driver-memory 100m \ 配置driver的記憶體（影響很大）/usr/local/SparkTest-0.0.1-SNAPSHOT-jar-with-dependencies.jar \
3、調節到多大，算是最大呢？
第一種，Spark Standalone，公司叢集上，搭建了一套Spark叢集，你心裡應該清楚每臺機器還能夠給你使用的，大概有多少記憶體，多少cpu core；那麼，設定的時候，就根據這個實際的情況，去調節每個spark作業的資源分配。比如說你的每臺機器能夠給你使用4G記憶體，2個cpu core；20臺機器；executor，20；平均每個executor：4G記憶體，2個cpu core。第二種，Yarn。資源佇列。資源排程。應該去檢視，你的spark作業，要提交到的資源佇列， hadoop spark storm 每一個佇列都有各自的資源（cpu mem）大概有多少資源？500G記憶體，100個cpu core；executor，50；平均每個executor:10G記憶體，2個cpu core。 Spark-submit的時候怎麼指定資源佇列？ --conf spark.yarn.queue default設定佇列名稱:spark.yarn.queue default 一個原則，你能使用的資源有多大，就儘量去調節到最大的大小（executor的數量，幾十個到上百個不等；executor記憶體；executor cpu core）

劇多

400G資料需要分配多少spark記憶體？

相關內容