2018-11-02
閱讀量:
1077
pandas 的數(shù)據(jù)框與spark數(shù)據(jù)框區(qū)別
最近學(xué)習(xí)spark,pandas 的數(shù)據(jù)框與spark數(shù)據(jù)框區(qū)別?
首先兩者使用平臺不一樣:pandas的Dataframe應(yīng)用場景是單機(jī),就是在python環(huán)境中使用。而spark中的dataframe是基于RDD的,因此他是分布式的。
平臺底層不一樣導(dǎo)致他們的方法也是不一樣的.
首先pandas的Dataframe 不支持并行計算,也不支持Hadoop,因此大數(shù)據(jù)處理不了。因?yàn)槭菃螜C(jī)所以編程簡單。在編程過程中pyspark可以實(shí)現(xiàn)pandas 的numpy、dataframe與spark dataframe的互換,但是注意單機(jī)內(nèi)存的限制(數(shù)據(jù)量不要太大)。






評論(0)


暫無數(shù)據(jù)
推薦帖子
0條評論
0條評論
0條評論
0條評論