2020-07-04
閱讀量:
818
如何解決HDFS的大量小文件問題(續(xù))
(2)采用CombineTextInputFormat
(3)有小文件場景開啟JVM重用;如果沒有小文件,不要開啟JVM重用,因為會一直占用使用到的task卡槽,直到任務(wù)完成才釋放。
JVM重用可以使得JVM實例在同一個job中重新使用N次,N的值可以在Hadoop的mapred-site.xml文件中進行配置。通常在10-20之間:
<property>
<name>mapreduce.job.jvm.numtasks</name>
<value>10</value>
<description>How many tasks to run per jvm,if set to -1 ,there is
no limit</description>
</property>






評論(0)


暫無數(shù)據(jù)
推薦帖子
0條評論
1條評論
0條評論