數(shù)據(jù)質(zhì)量和安全在很多架構(gòu)圖中歸屬于資產(chǎn)管理模塊,但是筆者認為數(shù)據(jù)質(zhì)量和安全應(yīng)該是貫穿整個數(shù)據(jù)中臺的。數(shù)據(jù)匯聚和數(shù)據(jù)開發(fā)的時候顯然也應(yīng)該考慮質(zhì)量和安全問題,所以筆者傾向于將數(shù)據(jù)質(zhì)量單獨拿出來作為一個模塊。
數(shù)據(jù)質(zhì)量
我們會遇到無處不在的數(shù)據(jù)質(zhì)量問題,包括業(yè)務(wù)系統(tǒng)臟數(shù)據(jù)、數(shù)據(jù)不一致不準(zhǔn)確等。影響數(shù)據(jù)使用和上層決策。
為什么會出現(xiàn)數(shù)據(jù)質(zhì)量問題呢?大部分是如下幾個原因
開發(fā)代碼的BUG
數(shù)據(jù)源變更:比如由于MYSQL表結(jié)構(gòu)變更,導(dǎo)致HIVE同步MYSQL任務(wù)失敗。
基礎(chǔ)設(shè)施和服務(wù)不穩(wěn)定或資源不足:比如流量猛增的情況導(dǎo)致OOM
由于這些原因,會導(dǎo)致數(shù)據(jù)不符合以下"四性",因此存在數(shù)據(jù)質(zhì)量問題:
完整性:指的是數(shù)據(jù)信息是否存在缺失的狀況,可能是整個數(shù)據(jù)記錄缺失,也可能是數(shù)據(jù)中某個字段信息的記錄缺失。
一致性:是指數(shù)據(jù)是否遵守了統(tǒng)一的規(guī)范,數(shù)據(jù)集合是否保持了統(tǒng)一的格式。比如商品購買率=商品購買用戶數(shù) / 商品訪問量,如果在不同的模型中,商品購買用戶數(shù)是1W、商品訪問量10W,商品購買率20%,那這三個指標(biāo)就存在不一致。
準(zhǔn)確性:是指數(shù)據(jù)記錄的信息是否存在異?;蝈e誤。比如數(shù)據(jù)格式是否為正確的ip。
及時性:是指數(shù)據(jù)從產(chǎn)生到可以查詢的時間間隔,也叫數(shù)據(jù)的延時時長。
而數(shù)據(jù)質(zhì)量無疑是非常重要的一部分,就算你數(shù)據(jù)再多再快,不準(zhǔn)也無用。因此數(shù)據(jù)質(zhì)量管理平臺尤為重要。數(shù)據(jù)質(zhì)量管理是支持多種異構(gòu)數(shù)據(jù)源的質(zhì)量校驗、通知、管理服務(wù)的一站式平臺。包括數(shù)據(jù)探查、對比、質(zhì)量監(jiān)控、SQL掃描和智能報警等功能。數(shù)據(jù)質(zhì)量監(jiān)控可以全程監(jiān)控數(shù)據(jù)加工流水線,根據(jù)質(zhì)量規(guī)則及時發(fā)現(xiàn)問題,并通過報警通知負責(zé)人及時處理。
在實際生產(chǎn)中,可從以下幾個方面做好數(shù)據(jù)質(zhì)量工作:
離線數(shù)據(jù):數(shù)據(jù)是否完整、一致和準(zhǔn)確,比如HIVE離線同步業(yè)務(wù)庫MYSQL數(shù)據(jù),同步完需要對比數(shù)據(jù)條數(shù)。
實時數(shù)據(jù):除了數(shù)據(jù)是否完整、一致和準(zhǔn)確,還需要檢測數(shù)據(jù)是否斷流、數(shù)據(jù)是否延遲。
報警監(jiān)控:支持短信、微信告警到對應(yīng)負責(zé)人。
數(shù)據(jù)安全
數(shù)據(jù)安全的重要性不用多說,如果你把用戶信息泄露了,嚴(yán)重會導(dǎo)致整個公司都倒閉。因此對于全鏈路的數(shù)據(jù),都應(yīng)該做好數(shù)據(jù)安全工作。比如應(yīng)該把業(yè)務(wù)庫/日志的敏感數(shù)據(jù)進行脫敏,為身份證、銀行卡等常用的數(shù)據(jù)類型提供掩蓋脫敏策略。以及日志審計等。
數(shù)據(jù)生命周期安全可以分為以下幾個部分:
數(shù)據(jù)采集安全:包括數(shù)據(jù)源鑒別以及記錄等
數(shù)據(jù)傳輸安全:包括數(shù)據(jù)傳輸加密等
數(shù)據(jù)存儲安全:包括存儲介質(zhì)安全、數(shù)據(jù)備份恢復(fù)等
數(shù)據(jù)處理安全:包括數(shù)據(jù)脫敏等
數(shù)據(jù)交換安全:包括數(shù)據(jù)共享安全、導(dǎo)入導(dǎo)出安全等
數(shù)據(jù)銷毀安全:包括數(shù)據(jù)銷毀和介質(zhì)銷毀等








暫無數(shù)據(jù)