2018-11-02
閱讀量:
1112
pandas 的數(shù)據(jù)框與spark數(shù)據(jù)框區(qū)別
最近學(xué)習(xí)spark,pandas 的數(shù)據(jù)框與spark數(shù)據(jù)框區(qū)別?
首先兩者使用平臺(tái)不一樣:pandas的Dataframe應(yīng)用場景是單機(jī),就是在python環(huán)境中使用。而spark中的dataframe是基于RDD的,因此他是分布式的。
平臺(tái)底層不一樣導(dǎo)致他們的方法也是不一樣的.
首先pandas的Dataframe 不支持并行計(jì)算,也不支持Hadoop,因此大數(shù)據(jù)處理不了。因?yàn)槭菃螜C(jī)所以編程簡單。在編程過程中pyspark可以實(shí)現(xiàn)pandas 的numpy、dataframe與spark dataframe的互換,但是注意單機(jī)內(nèi)存的限制(數(shù)據(jù)量不要太大)。






評(píng)論(0)


暫無數(shù)據(jù)
CDA考試動(dòng)態(tài)
CDA報(bào)考指南
推薦帖子
0條評(píng)論
0條評(píng)論
0條評(píng)論