99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
2018-10-21 閱讀量: 1061
Hive有哪幾種文件格式,分別有什么特點?

TextFile:

Hive默認格式,數(shù)據(jù)不做壓縮,磁盤開銷大,數(shù)據(jù)解析開銷大??山Y合Gzip、Bzip2、Snappy等使用(系統(tǒng)自動檢查,執(zhí)行查詢時自動解壓),但使用這種方式,hive不會對數(shù)據(jù)進行切分,從而無法對數(shù)據(jù)進行并行操作。

SequenceFile:

SequenceFile是Hadoop API 提供的一種二進制文件,它將數(shù)據(jù)以<key,value>的形式序列化到文件中。這種二進制文件內部使用Hadoop 的標準的Writable 接口實現(xiàn)序列化和反序列化。它與Hadoop API中的MapFile 是互相兼容的。Hive 中的SequenceFile 繼承自Hadoop API 的SequenceFile,不過它的key為空,使用value 存放實際的值,這樣是為了避免MR 在運行map 階段的排序過程。

RCFile:

RCFile是Hive推出的一種專門面向列的數(shù)據(jù)格式。 它遵循“先按列劃分,再垂直劃分”的設計理念。當查詢過程中,針對它并不關心的列時,它會在IO上跳過這些列。需要說明的是,RCFile在map階段從 遠端拷貝仍然是拷貝整個數(shù)據(jù)塊,并且拷貝到本地目錄后RCFile并不是真正直接跳過不需要的列,并跳到需要讀取的列, 而是通過掃描每一個row group的頭部定義來實現(xiàn)的,但是在整個HDFS Block 級別的頭部并沒有定義每個列從哪個row group起始到哪個row group結束。所以在讀取所有列的情況下,RCFile的性能反而沒有SequenceFile高。

其中textfile為默認格式,建表時不指定默認為這個格式,導入數(shù)據(jù)時會直接把數(shù)據(jù)文件拷貝到hdfs上不進行處理。SequenceFile,RCFile格式的表不能直接從本地文件導入數(shù)據(jù),數(shù)據(jù)要先導入到textfile格式的表中,然后再從textfile表中用insert導入到SequenceFile,RCFile表中。

0.0000
4
關注作者
收藏
評論(0)

發(fā)表評論

暫無數(shù)據(jù)
推薦帖子