狼人青草久久网伊人,欧美激情精品成人一区,国产午夜精品理论片久久影院

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

Hive基于HADOOP來執(zhí)行分布式程序的，和普通單機(jī)程序不同的一個(gè)特點(diǎn)就是最終的數(shù)據(jù)會(huì)產(chǎn)生多個(gè)子文件，每個(gè)reducer節(jié)點(diǎn)都會(huì)處理partition給自己的那份數(shù)據(jù)產(chǎn)生結(jié)果文件，這導(dǎo)致了在HADOOP環(huán)境下很難對數(shù)據(jù)進(jìn)行全局排序，如果在HADOOP上進(jìn)行order by全排序，會(huì)導(dǎo)致所有的數(shù)據(jù)集中在一臺(tái)reducer節(jié)點(diǎn)上，然后進(jìn)行排序，這樣很可能會(huì)超過單個(gè)節(jié)點(diǎn)的磁盤和內(nèi)存存儲(chǔ)能力導(dǎo)致任務(wù)失敗。

一種替代的方案則是放棄全局有序，而是分組有序，比如不求全百度最高的點(diǎn)擊詞排序，而是求每種產(chǎn)品線的最高點(diǎn)擊詞排序。

使用order by會(huì)引發(fā)全局排序：

select * from baidu_click order by click desc;

使用distribute和sort進(jìn)行分組排序：

select * from baidu_click distribute by product_line sort by click desc;