99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
2020-07-13 閱讀量: 1679
Spark使用parquet文件存儲格式的好處

1) 如果說HDFS 是大數(shù)據(jù)時代分布式文件系統(tǒng)首選標準,那么parquet則是整個大數(shù)據(jù)時代文件存儲格式實時首選標準;

2) 速度更快:從使用spark sql操作普通文件CSV和parquet文件速度對比上看,絕大多數(shù)情況會比使用csv等普通文件速度提升10倍左右,在一些普通文件系統(tǒng)無法在spark上成功運行的情況下,使用parquet很多時候可以成功運行;

3) parquet的壓縮技術(shù)非常穩(wěn)定出色,在spark sql中對壓縮技術(shù)的處理可能無法正常的完成工作(例如會導(dǎo)致lost task,lost executor)但是此時如果使用parquet就可以正常的完成;

4) 極大的減少磁盤I/o,通常情況下能夠減少75%的存儲空間,由此可以極大的減少spark sql處理數(shù)據(jù)的時候的數(shù)據(jù)輸入內(nèi)容,尤其是在spark1.6x中有個下推過濾器在一些情況下可以極大的減少磁盤的IO和內(nèi)存的占用,(下推過濾器);

5) 采用parquet可以極大的優(yōu)化spark的調(diào)度和執(zhí)行。我們測試spark如果用parquet可以有效的減少stage的執(zhí)行消耗,同時可以優(yōu)化執(zhí)行路徑。


34.8716
3
關(guān)注作者
收藏
評論(0)

發(fā)表評論

暫無數(shù)據(jù)
推薦帖子