2018-11-17
閱讀量:
989
pyspark如何創(chuàng)建RDD
PySpark 如何創(chuàng)建RDD呢?
PySpark中有兩種方法可以創(chuàng)建RDD:
1、使用parallelize(...) 通過傳入python集合創(chuàng)建,如:list或array。第二個參數(shù)可以是分區(qū)數(shù)。
2、也可以引用文件(本地或者外部文件如HDFS等)
data_from_file = sc.textFile(path,p_num) ,其中path是文件路徑,p_num是分區(qū)數(shù)。






評論(0)


暫無數(shù)據(jù)
推薦帖子
0條評論
1條評論
0條評論