2023-02-03
閱讀量:
2979
數(shù)據(jù)傾斜是什么?
數(shù)據(jù)傾斜是開發(fā)畫像過程中常遇到的問題,當(dāng)任務(wù)執(zhí)行一直卡在 map 100%、reduce 99%,最后的1%花了幾個小時都沒執(zhí)行完 時,這時一般是遇到了數(shù)據(jù)傾斜。 問題出現(xiàn)的原因是當(dāng)進行分布式計算時,由于某些節(jié)點需要計算 的數(shù)據(jù)較多,導(dǎo)致其他節(jié)點的reduce階段任務(wù)執(zhí)行完成時,該節(jié)點的 任務(wù)還沒有執(zhí)行完成,造成其他節(jié)點等待該節(jié)點執(zhí)行完成的情況。比 如兩張大表在join的時候大部分key對應(yīng)10條數(shù)據(jù),但是個別幾個key 對應(yīng)了100萬條數(shù)據(jù),對應(yīng)10條數(shù)據(jù)的task很快執(zhí)行完成了,但對應(yīng) 了100萬數(shù)據(jù)的key則要執(zhí)行幾個小時。






評論(0)


暫無數(shù)據(jù)
推薦帖子
0條評論
1條評論
0條評論