1、石器時(shí)代
大數(shù)據(jù)技術(shù)剛起步時(shí)平臺(tái)架構(gòu)很簡單,數(shù)據(jù)流從日志通過RSYNC(linux系統(tǒng)下的數(shù)據(jù)鏡像備份工具)流入到Hive,然后通過Hive SQL語句統(tǒng)計(jì)分析,結(jié)果導(dǎo)入到MySQL,最后形成報(bào)表展示。整個(gè)流程的驅(qū)動(dòng)基于Shell腳本完成,報(bào)表系統(tǒng)和數(shù)據(jù)處理是利用Java實(shí)現(xiàn)。所有業(yè)務(wù)需求都是手工處理,所有報(bào)表都要寫Java代碼開發(fā),這個(gè)給開發(fā)人員造成了很大的工作量,并且用戶獲取數(shù)據(jù)周期長,速度慢。
2、鐵器時(shí)代
整合了所有數(shù)據(jù)、所有計(jì)算資源和服務(wù)框架,重新構(gòu)建形成一個(gè)大數(shù)據(jù)平臺(tái)框架。底層是大數(shù)據(jù)平臺(tái)所用的計(jì)算資源,離線計(jì)算主要是Hive、Spark,流式計(jì)算主要是Spark Streaming和Flink;OLAP主要是Impala和Kylin。數(shù)據(jù)方面Pingback是用戶行為日志,機(jī)器日志就是程序產(chǎn)生的相關(guān)日志。線上數(shù)據(jù)庫主要是MySQL、MongoDB等,大數(shù)據(jù)存儲(chǔ)主要是HDFS、HBase、Kudu,Kudu主要是支持實(shí)時(shí),分布式存儲(chǔ)主要是HBase、HDFS。再往上層是開發(fā)平臺(tái)層,主要負(fù)責(zé)工作流開發(fā)。流計(jì)算通過專門的開發(fā)工具進(jìn)行管理,就是將任務(wù)開發(fā)進(jìn)行重新構(gòu)建。數(shù)據(jù)開發(fā)針對(duì)于系統(tǒng)數(shù)據(jù)進(jìn)行血緣管理,提供數(shù)據(jù)集成管理,實(shí)現(xiàn)數(shù)據(jù)在不同集群、引擎間的同步。如機(jī)房中有很多機(jī)器分成3-4個(gè)集群,相互之間要進(jìn)行數(shù)據(jù)同步,先前主要是手寫程序完成,現(xiàn)在可以通過數(shù)據(jù)集成來進(jìn)行跨DC的數(shù)據(jù)同步。數(shù)倉管理主要是埋點(diǎn)投遞管理、指標(biāo)維度管理、數(shù)倉模型管理。最上層就是直接面向用戶的分析報(bào)表平臺(tái),自助分析工具有漏斗分析、畫像分析、路徑分析,還有自助查詢工具、BI報(bào)表工具等。








暫無數(shù)據(jù)