2018-10-21
閱讀量:
1101
處理離線數(shù)據(jù)的流程?

一般來(lái)說(shuō)離線分析都是這個(gè)流程。
各流程概述:
1. 數(shù)據(jù)采集:定制開(kāi)發(fā)采集程序,或使用開(kāi)源框架FLUME
2. 數(shù)據(jù)預(yù)處理:定制開(kāi)發(fā)mapreduce程序運(yùn)行于hadoop集群
3. 數(shù)據(jù)倉(cāng)庫(kù)技術(shù):基于hadoop之上的Hive
4. 數(shù)據(jù)導(dǎo)出:基于hadoop的sqoop數(shù)據(jù)導(dǎo)入導(dǎo)出工具
5. 數(shù)據(jù)可視化:定制開(kāi)發(fā)web程序或使用kettle等產(chǎn)品
6. 整個(gè)過(guò)程的流程調(diào)度:hadoop生態(tài)圈中的oozie工具或其他類(lèi)似開(kāi)源產(chǎn)品
數(shù)據(jù)收集完成后,因?yàn)閿?shù)據(jù)量非常大,后續(xù)的操作都是使用分布式程序進(jìn)行處理。






評(píng)論(0)


暫無(wú)數(shù)據(jù)
CDA考試動(dòng)態(tài)
CDA報(bào)考指南
推薦帖子
0條評(píng)論
0條評(píng)論
0條評(píng)論