2019-02-25
閱讀量:
860
spark 分區(qū)數(shù)是怎么設定?
spark 分區(qū)數(shù)是怎么設定?
答:
如果在spark-default.conf中沒有顯示設置的話。會按照不同模式給不同的默認分區(qū)數(shù)。(spark.default.parallelism)
對于local[N]模式,因為開辟了N個線程,所以有N個core,也就默認分區(qū)為N。如果單用local那么只會開起一個分區(qū)。
如果是偽分布模式,local-cluster[x,y,z] 那么默認分區(qū)是x*y,x代表的是運行的executor數(shù)量,y是每個executor有多少個core。
如果是yarn或者是standalone模式。是用的函數(shù)max(x*y,2)前者的含義和偽分布一樣,后者表示如果x*y<2,分區(qū)就取2。
在程序讀取創(chuàng)建RDD的時候,一般會用textFile,這個函數(shù)可以讀取本地或者是hdfs的文件。分區(qū)數(shù)為
rdd的分區(qū)數(shù) = max(本地file的分片數(shù), sc.defaultMinPartitions)
rdd的分區(qū)數(shù) = max(hdfs文件的block數(shù)目, sc.defaultMinPartitions)






評論(0)


暫無數(shù)據(jù)
推薦帖子
0條評論
1條評論
0條評論