2018-10-21
閱讀量:
1051
處理離線數(shù)據(jù)的流程?

一般來說離線分析都是這個流程。
各流程概述:
1. 數(shù)據(jù)采集:定制開發(fā)采集程序,或使用開源框架FLUME
2. 數(shù)據(jù)預(yù)處理:定制開發(fā)mapreduce程序運行于hadoop集群
3. 數(shù)據(jù)倉庫技術(shù):基于hadoop之上的Hive
4. 數(shù)據(jù)導(dǎo)出:基于hadoop的sqoop數(shù)據(jù)導(dǎo)入導(dǎo)出工具
5. 數(shù)據(jù)可視化:定制開發(fā)web程序或使用kettle等產(chǎn)品
6. 整個過程的流程調(diào)度:hadoop生態(tài)圈中的oozie工具或其他類似開源產(chǎn)品
數(shù)據(jù)收集完成后,因為數(shù)據(jù)量非常大,后續(xù)的操作都是使用分布式程序進(jìn)行處理。






評論(0)


暫無數(shù)據(jù)
推薦帖子
0條評論
1條評論
0條評論
0條評論