2018-11-17
閱讀量:
900
Hadoop的MapReduce框架原理
在Hadoop上面進(jìn)行并行計(jì)算需要按照MapReduce計(jì)算框架開(kāi)發(fā)代碼。
MapReduce計(jì)算過(guò)程主要分為map 、shuffle、reduce三個(gè)階段,其中用戶要實(shí)現(xiàn) 的只有map和reduce兩個(gè)階段,其他階段框架自動(dòng)完成。
Map階段:當(dāng)向MapReduce 框架提交一個(gè)計(jì)算作業(yè)時(shí),它首先把計(jì)算作業(yè)拆分成若干個(gè)Map 任務(wù),然后分配到不同的節(jié)點(diǎn)上去并行執(zhí)行,每一個(gè)Map 任務(wù)處理輸入數(shù)據(jù)中的一部分,Map處理完數(shù)據(jù)之后
shuffle階段:當(dāng)Map任務(wù)完成后,它會(huì)生成一些中間文件,對(duì)Map階段的輸出結(jié)果整理,將相同key的數(shù)據(jù)放到同一分區(qū)或節(jié)點(diǎn),便于后面的Reduce任務(wù)。
reduce階段:對(duì)shuffle后的數(shù)據(jù)聚合到一起并輸出。






評(píng)論(0)


暫無(wú)數(shù)據(jù)
CDA考試動(dòng)態(tài)
CDA報(bào)考指南
推薦帖子
0條評(píng)論
1條評(píng)論
0條評(píng)論
0條評(píng)論