數(shù)據(jù)匯聚,首先必然要有數(shù)據(jù)來源,有了數(shù)據(jù)來源之后,需要確定采集工具,有了采集工具之后你還要確定存儲位置。
數(shù)據(jù)來源
數(shù)據(jù)是數(shù)據(jù)中臺的核心,所以數(shù)據(jù)匯聚無疑是數(shù)據(jù)中臺的入口。企業(yè)中的數(shù)據(jù)來源極其多,但大都都離不開這幾個方面:數(shù)據(jù)庫,日志,前端埋點(diǎn),爬蟲系統(tǒng)等。
數(shù)據(jù)庫我們不用多說,例如通常用mysql作為業(yè)務(wù)庫,存儲業(yè)務(wù)一些關(guān)鍵指標(biāo),比如用戶信息、訂單信息。也會用到一些Nosql數(shù)據(jù)庫,一般用于存儲一些不那么重要的數(shù)據(jù)。
日志也是重要數(shù)據(jù)來源,因?yàn)槿罩居涗浟顺绦蚋鞣N執(zhí)行情況,其中也包括用戶的業(yè)務(wù)處理軌跡,根據(jù)日志我們可以分析出程序的異常情況,也可以統(tǒng)計(jì)關(guān)鍵業(yè)務(wù)指標(biāo)比如PV,UV。
前端埋點(diǎn)同樣是非常重要的來源,用戶很多前端請求并不會產(chǎn)生后端請求,比如點(diǎn)擊,但這些對分析用戶行為具有重要的價值,例如分析用戶流失率,是在哪個界面,哪個環(huán)節(jié)用戶流失了,這都要靠埋點(diǎn)數(shù)據(jù)。
爬蟲系統(tǒng)大家應(yīng)該也不陌生了,雖然現(xiàn)在很多企業(yè)都聲明禁止爬蟲,但往往禁止爬取的數(shù)據(jù)才是有價值的數(shù)據(jù),有些管理和決策就是需要競爭對手的數(shù)據(jù)作為對比,而這些數(shù)據(jù)就可以通過爬蟲獲取。
這些數(shù)據(jù)分散在不同的網(wǎng)絡(luò)環(huán)境和存儲平臺中,另外不同的項(xiàng)目組可能還要重復(fù)去收集同樣的數(shù)據(jù),因此數(shù)據(jù)難以利用,難以復(fù)用、難以產(chǎn)生價值。數(shù)據(jù)匯聚就是使得各種異構(gòu)網(wǎng)絡(luò)、異構(gòu)數(shù)據(jù)源的數(shù)據(jù),方便統(tǒng)一采集到數(shù)據(jù)中臺進(jìn)行集中存儲,為后續(xù)的加工建模做準(zhǔn)備。
數(shù)據(jù)匯聚可以是實(shí)時接入,比如實(shí)時消費(fèi)mysql的binlog進(jìn)行數(shù)據(jù)同步,也可以是離線同步,比如使用sqoop離線同步mysql數(shù)據(jù)到hive。
技術(shù)選型
數(shù)據(jù)匯聚一般用到的技術(shù)包括:
Flume
Sqoop
Datax
Canal
數(shù)據(jù)落地
采集之后必然需要將數(shù)據(jù)落地,即存儲層,常見的有:
MYSQL、Oracle、Tidb
Hive、Hdfs、HBase
Redis
ElasticSearch








暫無數(shù)據(jù)