
大數(shù)據(jù)時代下需要新一代的數(shù)據(jù)治理能力
一、大數(shù)據(jù)時代還需要數(shù)據(jù)治理嗎?
數(shù)據(jù)平臺發(fā)展過程中隨處可見的數(shù)據(jù)問題
大數(shù)據(jù)不是憑空而來,1981年第一個數(shù)據(jù)倉庫誕生,到現(xiàn)在已經有了近40年的歷史,相對數(shù)據(jù)倉庫來說我還是個年輕人。而國內企業(yè)數(shù)據(jù)平臺的建設大概從90年代末就開始了,從第一代架構出現(xiàn)到現(xiàn)在已經經歷了近20年的時間。
在這20年的時間里,國內數(shù)據(jù)平臺實施者可以說是受盡折磨,數(shù)據(jù)項目一直不受待見,是出了名的臟活累活。
可以說,忽視數(shù)據(jù)治理給數(shù)據(jù)平臺建設帶來了不少問題。隨處可見的數(shù)據(jù)不統(tǒng)一,難以提升的數(shù)據(jù)質量,難以完成的數(shù)據(jù)模型梳理等源源不斷的基礎性數(shù)據(jù)問題,限制了數(shù)據(jù)平臺發(fā)展,導致數(shù)據(jù)應用不能在商業(yè)上快速展示效果。
舉一個典型商業(yè)智能應用的例子,管理駕駛艙可能很多朋友都聽說過,很多企業(yè)建設了管理駕駛艙,但是建設完之后往往成為擺設,只有當領導需要看的時候,大家才去拼命改數(shù)據(jù)。
為什么數(shù)據(jù)平臺的建設遇到這么多“坎”,而且難以真正發(fā)揮其商業(yè)價值?其實核心問題還是數(shù)據(jù)本身不統(tǒng)一,數(shù)據(jù)內容準確度不高。
數(shù)據(jù)治理逐漸受到各行業(yè)認識
我國最早意識到數(shù)據(jù)治理重要性的行業(yè)銀行是金融行業(yè)。由于對數(shù)據(jù)的強依賴,金融業(yè)一直非常重視數(shù)據(jù)平臺的建設,經過幾代數(shù)據(jù)平臺的驗證,發(fā)現(xiàn)數(shù)據(jù)治理是平臺建設的主要限制因素,而且隨著投資和建設的投入增加,對數(shù)據(jù)治理的重要性的認識也越來越深刻。
人民銀行與銀監(jiān)會也非常重視數(shù)據(jù)治理,從08年開始,在全國銀行業(yè)推行統(tǒng)一的數(shù)據(jù)標準,控制行業(yè)的數(shù)據(jù)質量。工行、建行、國開等大型銀行,對數(shù)據(jù)治理都非常重視。08年前,我們與國開一起開始了數(shù)據(jù)治理的建設,下圖展示的就是國開銀行針對數(shù)據(jù)全生命周期的數(shù)據(jù)管控。
如今各行業(yè)都開始了大數(shù)據(jù)平臺的建設,希望利用大數(shù)據(jù)的能力,來實現(xiàn)數(shù)字化轉型。大數(shù)據(jù)平臺的建設本質上還是數(shù)據(jù)的建設,傳統(tǒng)數(shù)據(jù)平臺碰到的所有問題大數(shù)據(jù)平臺都有可能碰到,由于數(shù)據(jù)量級的變化,大數(shù)據(jù)平臺必然還會產生新的問題。
大數(shù)據(jù)時代下需要新一代的數(shù)據(jù)治理能力
目前大數(shù)據(jù)平臺的突出問題主要體現(xiàn)在以下四方面:
數(shù)據(jù)不可知:用戶不知道大數(shù)據(jù)平臺中有哪些數(shù)據(jù),也不知道這些數(shù)據(jù)和業(yè)務的關系是什么,雖然意識到了大數(shù)據(jù)的重要性,但平臺中有沒有能解決自己所面臨業(yè)務問題的關鍵數(shù)據(jù)?該到哪里尋找這些數(shù)據(jù)?
數(shù)據(jù)不可控:數(shù)據(jù)不可控是從傳統(tǒng)數(shù)據(jù)平臺開始就一直存在的問題,在大數(shù)據(jù)時代表現(xiàn)得更為明顯。沒有統(tǒng)一的數(shù)據(jù)標準導致數(shù)據(jù)難以集成和統(tǒng)一,沒有質量控制導致海量數(shù)據(jù)因質量過低而難以被利用,沒有能有效管理整個大數(shù)據(jù)平臺的管理流程。
數(shù)據(jù)不可?。河脩艏词怪雷约簶I(yè)務所需要的是哪些數(shù)據(jù),也不能便捷自助地拿到數(shù)據(jù),相反,獲取數(shù)據(jù)需要很長的開發(fā)過程,導致業(yè)務分析的需求難以被快速滿足,而在大數(shù)據(jù)時代,業(yè)務追求的是針對某個業(yè)務問題的快速分析,這樣漫長的需求響應時間是難以滿足業(yè)務需求的。
數(shù)據(jù)不可聯(lián):大數(shù)據(jù)時代,企業(yè)擁有著海量數(shù)據(jù),但企業(yè)數(shù)據(jù)知識之間的關聯(lián)還比較弱,沒有把數(shù)據(jù)和知識體系關聯(lián)起來,企業(yè)員工難以做到數(shù)據(jù)與知識之間的快速轉換,不能對數(shù)據(jù)進行自助的的探索和挖掘,數(shù)據(jù)的深層價值難以體現(xiàn)。
通過分析以上四類問題,我們發(fā)現(xiàn)傳統(tǒng)數(shù)據(jù)平臺面臨的問題,在大數(shù)據(jù)時代不僅沒有消失,還不斷涌現(xiàn)出新的問題,傳統(tǒng)的數(shù)據(jù)治理需要提升能力,來解決大數(shù)據(jù)平臺建設過程中的這些問題。
在傳統(tǒng)數(shù)據(jù)平臺階段,數(shù)據(jù)治理的目標主要是做管控,為數(shù)據(jù)部門建立一個的治理工作環(huán)境,包括標準、質量等。在大數(shù)據(jù)平臺階段,用戶對數(shù)據(jù)的需求持續(xù)增長,用戶范圍從數(shù)據(jù)部門擴展到全企業(yè),數(shù)據(jù)治理不能再只是面向數(shù)據(jù)部門了,需要成為面向全企業(yè)用戶的工作環(huán)境,需要以全企業(yè)用戶為中心,從給用戶提供服務的角度,管理好數(shù)據(jù)的同時為用戶提供自助獲得大數(shù)據(jù)的能力,幫助企業(yè)完成數(shù)字化轉型。
二、如何面向用戶開展大數(shù)據(jù)治理
面向用戶的大數(shù)據(jù)治理實踐案例
很多企業(yè)經過一段時間的摸索,已經看到了用戶對大數(shù)據(jù)治理的這種需求,大數(shù)據(jù)治理也持續(xù)在各行業(yè)的大數(shù)據(jù)平臺建設中得到關注。
在我參與過的項目中給大家舉個例子。最近普元主導了某電力公司的新一代數(shù)據(jù)治理平臺建設,我們融合該電力公司現(xiàn)有的數(shù)據(jù)管理工具建設成果,以元數(shù)據(jù)為基礎,實現(xiàn)了貫穿數(shù)據(jù)設計、產生、存儲、遷移、使用、歸檔等環(huán)節(jié)的數(shù)據(jù)全生命周期管理,以及數(shù)據(jù)從源端到數(shù)據(jù)中心,再到應用端的全過程的管理,做到了以用戶為中心,通過大數(shù)據(jù)治理,為用戶提供了更便捷、更靈活、更準確地獲得企業(yè)大數(shù)據(jù)資產的能力。
該電力公司的大數(shù)據(jù)治理的起點是先以元數(shù)據(jù)為基礎,構建數(shù)據(jù)資產管理體系。從用戶的視角說明白企業(yè)數(shù)據(jù)有哪些,哪些用戶能夠使用。在該電力公司的數(shù)據(jù)資產定義過程中,我們選擇了貼近業(yè)務用戶的數(shù)據(jù)分類方案,梳理和識別企業(yè)運營數(shù)據(jù)資源。
我們又基于第一步形成的數(shù)據(jù)分類管理體系框架,梳理、整合各級各類數(shù)據(jù)資源,建立了數(shù)據(jù)資產樹,按照不同數(shù)據(jù)細類制定相應的工作模板,對指標數(shù)據(jù)和明細數(shù)據(jù)進行梳理和歸并。
所有資產梳理和控制的最終目標都是為了用戶能夠使用數(shù)據(jù),我們通過 L0–L1–L2 三個層次的定義,以業(yè)務驅動為導向提高數(shù)據(jù)查詢的實用性。
L0:按照電網(wǎng)業(yè)務域–業(yè)務主題–業(yè)務活動的結構化方法,對查詢進行分類導航。
L1:依據(jù)業(yè)務和數(shù)據(jù)源中數(shù)據(jù)資源情況,按業(yè)務主題對數(shù)據(jù)進行預處理和定義。
L2:將數(shù)據(jù)庫表字段等技術元數(shù)據(jù)轉換為業(yè)務人員可以理解的業(yè)務元數(shù)據(jù)。
我們通過梳理數(shù)據(jù)、管理數(shù)據(jù)、提供數(shù)據(jù)、關聯(lián)業(yè)務,形成了一整套以用戶為中心的大數(shù)據(jù)治理能力,最終為用戶直接使用數(shù)據(jù)提供了幫助,從而使數(shù)據(jù)治理完成了從以管控為中心到以業(yè)務為中心的轉變。由于受限于篇幅這里不過多描述。
面向用戶的大數(shù)據(jù)治理的四個階段
面向用戶的大數(shù)據(jù)治理該如何做,我們總結了四個階段。
(1)第一階段:全面梳理企業(yè)信息,自動化構建企業(yè)的數(shù)據(jù)資產庫
在第一階段,主要是對企業(yè)大數(shù)據(jù)的梳理,從而全面掌握企業(yè)大數(shù)據(jù)的情況,主要有以下三個方面。
梳理全企業(yè)數(shù)據(jù)架構,對企業(yè)的數(shù)據(jù)模型、數(shù)據(jù)關系、數(shù)據(jù)處理有清晰化的認識。
對數(shù)據(jù)資產形成統(tǒng)一的自動化管理,形成企業(yè)的元數(shù)據(jù)庫。
對企業(yè)數(shù)據(jù)資產形成多種視圖,使數(shù)據(jù)資產能夠讓不同用戶,有不同視角的展示。
(2)第二階段:建立管理流程,落地數(shù)據(jù)標準,提升數(shù)據(jù)質量
在第二階段,需要建立大數(shù)據(jù)管控能力,包括從業(yè)務的角度梳理企業(yè)數(shù)據(jù)質量問題,形成質量控制能力,形成核心數(shù)據(jù)標準,并抓標準落地。針對關鍵問題,建立數(shù)據(jù)的管理流程,少而精,控制核心問題。
在這個階段主要是為數(shù)據(jù)部門形成一套管理大數(shù)據(jù)的能力,同時為數(shù)據(jù)部門形成數(shù)據(jù)管理的工作環(huán)境。
(3)第三階段:直接為用戶提供價值,向用戶提供數(shù)據(jù)微服務
通過前兩個階段,企業(yè)能夠建立基本的數(shù)據(jù)治理的能力,在此基礎上,還需要以用戶為中心,為用戶提供直接獲取數(shù)據(jù)的能力。第三階段依賴于前兩個階段能力的建設,在這個階段的目標是向用戶提供自助化的數(shù)據(jù)服務,使用戶能夠自助地獲取和使用數(shù)據(jù),并且在用戶的使用過程中再反過去進一步落地標準、控制質量。
(4)第四階段:智能化企業(yè)知識圖譜,為全企業(yè)提供數(shù)據(jù)價值
最后一個階段是將數(shù)據(jù)沉淀成為知識,形成企業(yè)的知識圖譜,提供從“關系”的角度去分析問題的能力。
人進行數(shù)據(jù)搜索是通過業(yè)務術語(知識)來搜索的,而知識之間是有相互聯(lián)系的,例如水果和西紅柿是上下位關系(后者是前者的具體體現(xiàn)),好的搜索除了要列出直接結果,還需要顯示與之關聯(lián)的知識,這就要建立知識圖譜。
簡單說知識圖譜就是概念、屬性以及概念之間的關聯(lián)關系,這個關系可以手工建立,也能通過自然語言處理等方法,對政策、法規(guī)、需求、數(shù)據(jù)庫 comments、界面等多種來源進行分析,自動化建立起企業(yè)知識圖譜。從而使數(shù)據(jù)治理成為整個企業(yè)的數(shù)據(jù)工作環(huán)境,強化企業(yè)數(shù)據(jù)與知識體系之間的關聯(lián),加快企業(yè)員工數(shù)據(jù)與知識之間的轉換效率,讓數(shù)據(jù)的深層價值得以體現(xiàn)。
通過這四個階段的建設,使數(shù)據(jù)治理平臺由數(shù)據(jù)部門的工作環(huán)境,轉變成為全企業(yè)的數(shù)據(jù)工作環(huán)境,以用戶為中心,讓用戶能夠直接使用大數(shù)據(jù),并通過用戶的使用來管理數(shù)據(jù),持續(xù)優(yōu)化數(shù)據(jù)質量,在達到治理數(shù)據(jù)目標的同時,也最大限度發(fā)揮了數(shù)據(jù)的價值。
三、面向用戶的自服務大數(shù)據(jù)治理架構
自服務大數(shù)據(jù)治理架構
以用戶為中心的自服務大數(shù)據(jù)治理技術架構包括五部分:數(shù)據(jù)資產管理、數(shù)據(jù)監(jiān)控管理、數(shù)據(jù)準備平臺、數(shù)據(jù)服務總線,消息與流數(shù)據(jù)管理。
整個平臺分為五塊核心能力:數(shù)據(jù)資產、數(shù)據(jù)準備、數(shù)據(jù)服務總線、消息&流數(shù)據(jù)管理、數(shù)據(jù)監(jiān)控管理。
數(shù)據(jù)資產管理是對企業(yè)數(shù)據(jù)信息統(tǒng)一管理也是整個平臺的基礎,數(shù)據(jù)準備平臺是資產服務化的加工廠,它不但能將原始數(shù)據(jù)通過服務形式以用戶能看懂的方式提供,也可以通過在線數(shù)據(jù)模型設計實現(xiàn)最終數(shù)據(jù)產品的發(fā)布,起到承上啟下的作用。
數(shù)據(jù)服務總線和消息&流數(shù)據(jù)管理的價值層次是一致的,只是從數(shù)據(jù)時效性上面對數(shù)據(jù)進行了區(qū)分,去適應用戶不同的管理和應用訴求。起到數(shù)據(jù)通道和安全管理兩個核心內容。
數(shù)據(jù)監(jiān)控管理有別于大數(shù)據(jù)中的數(shù)據(jù)節(jié)點管理,而是從數(shù)據(jù)管理的視角切入對數(shù)據(jù)的結構的變化、關系的變化進行管理和控制,它是數(shù)據(jù)持續(xù)發(fā)揮價值的監(jiān)管者。
自服務大數(shù)據(jù)治理的關鍵技術
(1)人工智能的知識圖譜構建
主要有三個步驟
a、基于企業(yè)元數(shù)據(jù)信息,通過自然語言處理、機器學習、模式識別等算法,以及業(yè)務規(guī)則過濾,實現(xiàn)知識提??;
b、以本體形式表示和存儲知識,自動構建成起資產知識圖譜;
c、通過知識圖譜關系,利用智能搜索、關聯(lián)查詢手段,為最終用戶提供更加精確的數(shù)據(jù);
(2)細粒度的敏感信息控制
數(shù)據(jù)內容安全管理包括對 IT 系統(tǒng)和數(shù)據(jù)進行敏感度等級劃分的定義、瀏覽、檢核,輔助安全規(guī)則在業(yè)務、技術領域的應用。從功能上包括數(shù)據(jù)敏感性分級、系統(tǒng)敏感性分級,數(shù)據(jù)安全策略定義管理,安全策略輸出,安全管理報告,數(shù)據(jù)安全檢核,敏感數(shù)據(jù)角色管理,敏感數(shù)據(jù)權鑒管理及相關電子審批流程。
(3)自助化的大數(shù)據(jù)服務生產線
這里有4個關鍵點:
a、自助的查詢到想要的數(shù)據(jù);
b、自動的生成數(shù)據(jù)服務;
c、及時穩(wěn)定的獲得數(shù)據(jù)通道;
d、數(shù)據(jù)安全有保證;
通過自助化的數(shù)據(jù)生產線,數(shù)據(jù)使用方(業(yè)務人員)大大減少了對開發(fā)人員依賴,80%以上的數(shù)據(jù)需求,都能通過自己進行整合開發(fā),最終獲取數(shù)據(jù)。讓所有用數(shù)據(jù)的人能方便得到想要的數(shù)據(jù)。
(4)多維度實時的數(shù)據(jù)資產信息的展示
數(shù)據(jù)治理平臺提供實時、全面的數(shù)據(jù)監(jiān)控,不僅能從作業(yè)、模型、物理資源等各方面進行全面的數(shù)據(jù)資產盤點,還能對數(shù)據(jù)及時性、問題數(shù)據(jù)量等方面的數(shù)據(jù)健康環(huán)境進行全面的預警。
(5)以業(yè)務元模型為核心的數(shù)據(jù)微服務
數(shù)據(jù)需要以服務的形式提供給最終用戶,在服務的提供上不能再采用傳統(tǒng)的方式,而需要用微服務的方式提供,每個單獨數(shù)據(jù)微服務自己對所提供數(shù)據(jù)做緩存,在其中利用元數(shù)據(jù)能力,把知識(業(yè)務模型)與技術(數(shù)據(jù)模型)相結合,從而向最終數(shù)據(jù)用戶提供多種數(shù)據(jù)能力,使用戶能夠以多種方式使用數(shù)據(jù)。
四、總結
大數(shù)據(jù)時代,企業(yè)急需建立以用戶為中心的自服務大數(shù)據(jù)治理,信息梳理、數(shù)據(jù)管控、連接用戶、智能化是實現(xiàn)自服務大數(shù)據(jù)治理的四個主要階段,掌握一系列關鍵技術和技術原則,是實現(xiàn)自服務大數(shù)據(jù)治理的重要基礎。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結構數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結構數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 表結構數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結構化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結構數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結構數(shù)據(jù)(以 “行 - 列” 存儲的結構化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結構數(shù)據(jù)價值的核心操盤手 表格結構數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到決策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10