圖1-4所示是用戶畫像數(shù)倉架構(gòu)圖
圖1-4下方虛線框中為常見的數(shù)據(jù)倉庫ETL加工流程,也就是將每日的業(yè)務(wù)數(shù)據(jù)、日志數(shù)據(jù)、埋點數(shù)據(jù)等經(jīng)過ETL過程,加工到數(shù)據(jù)倉庫 對應(yīng)的ODS層、DW層、DM層中。
中間的虛線框即為用戶畫像建模的主要環(huán)節(jié),用戶畫像不是產(chǎn)生 數(shù)據(jù)的源頭,而是對基于數(shù)據(jù)倉庫ODS層、DW層、DM層中與用戶相 關(guān)數(shù)據(jù)的二次建模加工。在ETL過程中將用戶標簽計算結(jié)果寫入 Hive,由于不同數(shù)據(jù)庫有不同的應(yīng)用場景,后續(xù)需要進一步將數(shù)據(jù)同 步到MySQL、HBase、Elasticsearch等數(shù)據(jù)庫中。
·Hive:存儲用戶標簽計算結(jié)果、用戶人群計算結(jié)果、用戶特征庫 計算結(jié)果。
·MySQL:存儲標簽元數(shù)據(jù),監(jiān)控相關(guān)數(shù)據(jù),導(dǎo)出到業(yè)務(wù)系統(tǒng)的數(shù) 據(jù)。 ·HBase:存儲線上接口實時調(diào)用類數(shù)據(jù)。
·Elasticserch:支持海量數(shù)據(jù)的實時查詢分析,用于存儲用戶人 群計算、用戶群透視分析所需的用戶標簽數(shù)據(jù)(由于用戶人群計算、 用戶群透視分析的條件轉(zhuǎn)化成的SQL語句多條件嵌套較為復(fù)雜,使用 Impala執(zhí)行也需花費大量時間)。
用戶標簽數(shù)據(jù)在Hive中加工完成后,部分標簽通過Sqoop同步到 MySQL數(shù)據(jù)庫,提供用于BI報表展示的數(shù)據(jù)、多維透視分析數(shù)據(jù)、圈 人服務(wù)數(shù)據(jù);另一部分標簽同步到HBase數(shù)據(jù)庫用于產(chǎn)品的線上個性化推薦.








暫無數(shù)據(jù)