
數(shù)據(jù)模型梳理:一個(gè)自下而上的數(shù)據(jù)治理方法
一、數(shù)據(jù)模型梳理背景
我們?cè)趥鹘y(tǒng)企業(yè)(如電信、航空、電力、政府等)實(shí)施一個(gè)個(gè)數(shù)據(jù)治理項(xiàng)目的時(shí)候,總會(huì)發(fā)現(xiàn)基本類(lèi)似的問(wèn)題:
●企業(yè)內(nèi)IT系統(tǒng)越來(lái)越多,其復(fù)雜度也越來(lái)越高,沒(méi)有人能說(shuō)明清楚整個(gè)系統(tǒng)的數(shù)據(jù)架構(gòu)和數(shù)據(jù)流向,數(shù)據(jù)架構(gòu)與業(yè)務(wù)流程 、應(yīng)用架構(gòu)之間的關(guān)系不清晰?!昂诎怠睌?shù)據(jù)(指存在于系統(tǒng)中但無(wú)法說(shuō)明與業(yè)務(wù)間的關(guān)系,后續(xù)亦無(wú)法對(duì)數(shù)據(jù)進(jìn)行分析和應(yīng)用)現(xiàn)象非常明顯。
●數(shù)據(jù)模型管理能力自身在不斷減弱;開(kāi)發(fā)團(tuán)隊(duì)出于現(xiàn)實(shí)壓力,以實(shí)現(xiàn)功能為主,對(duì)非功能性需求不太在意,導(dǎo)致模型設(shè)計(jì)質(zhì)量不高。IT系統(tǒng)出現(xiàn)先實(shí)現(xiàn)后優(yōu)化的現(xiàn)象,優(yōu)化效果滯后。
●數(shù)據(jù)模型變更失控,大多數(shù)系統(tǒng)都處于積術(shù)式疊代開(kāi)發(fā),新需求就加一堆表,系統(tǒng)數(shù)據(jù)模型越來(lái)越雍腫;數(shù)據(jù)模型變更長(zhǎng)期缺少基線化,大量已經(jīng)廢棄業(yè)務(wù)以及相關(guān)數(shù)據(jù)模型仍然存在于數(shù)據(jù)庫(kù),無(wú)人敢動(dòng)。
●數(shù)據(jù)無(wú)序增長(zhǎng),企業(yè)核心業(yè)務(wù)系統(tǒng)數(shù)據(jù)無(wú)有效的退出機(jī)制,業(yè)務(wù)系統(tǒng)容量無(wú)序增長(zhǎng),長(zhǎng)期處于“系統(tǒng)擴(kuò)容-數(shù)據(jù)膨脹-性能低下-系統(tǒng)擴(kuò)容”的怪圈之中。
●數(shù)據(jù)標(biāo)準(zhǔn)缺失,缺少企業(yè)級(jí)別統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),數(shù)據(jù)模型相關(guān)含義令開(kāi)發(fā)和運(yùn)維人員難以理解;同時(shí),亦使得企業(yè)不同應(yīng)用間的數(shù)據(jù)集成和數(shù)據(jù)共享困難。
●數(shù)據(jù)安全突出,對(duì)企業(yè)的敏感數(shù)據(jù)、用戶、訪問(wèn)權(quán)限仍然缺少認(rèn)識(shí)和控制,數(shù)據(jù)敏感數(shù)據(jù)泄漏的安全事件屢見(jiàn)不鮮。
●數(shù)據(jù)質(zhì)量參差,數(shù)據(jù)處理環(huán)節(jié)中產(chǎn)生大量的錯(cuò)誤和質(zhì)量差的數(shù)據(jù),數(shù)據(jù)錯(cuò)誤發(fā)現(xiàn)和處理流程不及時(shí),導(dǎo)致更多的后續(xù)錯(cuò)誤。
從這些問(wèn)題之中亦反映了一個(gè)現(xiàn)實(shí):在當(dāng)今,數(shù)據(jù)作為一種企業(yè)的重要資產(chǎn)而被人們廣泛接納的時(shí)候,對(duì)于廣大的傳統(tǒng)企業(yè),正是由于企業(yè)在觀念和技術(shù)上的缺少而導(dǎo)致數(shù)據(jù)模型管理方面的缺失,使企業(yè)連讀懂自身的數(shù)據(jù)都是如此困難的一件事,更難以談得上后續(xù)的數(shù)據(jù)分析和應(yīng)用。
二、一種自下而上的數(shù)據(jù)治理
由上面問(wèn)題的分析和歸納,在數(shù)據(jù)治理這個(gè)范疇上,我們應(yīng)該首先解決的是企業(yè)對(duì)其數(shù)據(jù)的了解和認(rèn)知。
由于IT系統(tǒng)數(shù)據(jù)模型反映了應(yīng)用關(guān)系型數(shù)據(jù)庫(kù)在數(shù)據(jù)存儲(chǔ)及數(shù)據(jù)結(jié)構(gòu),是元數(shù)據(jù)的主要組成部分。在今天關(guān)系型數(shù)據(jù)庫(kù)仍然大行其道的當(dāng)下,一種清晰并且與系統(tǒng)應(yīng)用實(shí)踐高度一致的數(shù)據(jù)模型可以促進(jìn)了各種應(yīng)用數(shù)據(jù)的管理、基于角色的有價(jià)值數(shù)據(jù)資產(chǎn)訪問(wèn)以及持續(xù)的數(shù)據(jù)集成。并且強(qiáng)化了元數(shù)據(jù)管理,使組織理解它們所擁有的數(shù)據(jù),以及數(shù)據(jù)與業(yè)務(wù)流程之間的關(guān)系,不管數(shù)據(jù)來(lái)自于什么數(shù)據(jù),什么樣的產(chǎn)品平臺(tái)以及任何地方。
因此,數(shù)據(jù)模型梳理,也正是傳統(tǒng)企業(yè)必需一個(gè)自下而上的數(shù)據(jù)治理方法之一。
經(jīng)過(guò)完整數(shù)據(jù)模型梳理可以預(yù)期可以達(dá)到什么樣的效果:
●克服黑暗數(shù)據(jù)現(xiàn)象,通過(guò)清晰的元數(shù)據(jù)和數(shù)據(jù)模型管理讓企業(yè)可以真正理解和運(yùn)用自身的數(shù)據(jù),并不斷擴(kuò)大應(yīng)用和分析數(shù)據(jù)的范圍和規(guī)模。
●明確數(shù)據(jù)含義,了解數(shù)據(jù)訪問(wèn)與業(yè)務(wù)流程之間的關(guān)系,幫助企業(yè)業(yè)務(wù)使用者(不僅包括IT)可以使用數(shù)據(jù)和應(yīng)用數(shù)據(jù)幫助他們更好完成工作,推動(dòng)全面數(shù)據(jù)化運(yùn)營(yíng)。
●連接和映射更多數(shù)據(jù),充分發(fā)掘現(xiàn)有的數(shù)據(jù)之間的關(guān)系,擴(kuò)大數(shù)據(jù)規(guī)模效應(yīng),讓數(shù)據(jù)可以充分發(fā)揮其作用和價(jià)值。
●為其他的數(shù)據(jù)資產(chǎn)管理活動(dòng),包括數(shù)據(jù)質(zhì)量、數(shù)據(jù)生命周期管理、數(shù)據(jù)操作、數(shù)據(jù)安全、主數(shù)據(jù)管理等提供一個(gè)高質(zhì)量的基礎(chǔ)。
其實(shí),在數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域中,元數(shù)據(jù)管理正是用來(lái)解決這個(gè)問(wèn)題的但由于種種原因,實(shí)際上傳統(tǒng)企業(yè)中元數(shù)據(jù)管理也不盡如人意,出現(xiàn)元數(shù)據(jù)與實(shí)際環(huán)境嚴(yán)重脫節(jié),不能反映其真實(shí)數(shù)據(jù)架構(gòu)等現(xiàn)象。我們?cè)谀畴娦胚\(yùn)營(yíng)商實(shí)現(xiàn)數(shù)據(jù)治理項(xiàng)目時(shí),曾經(jīng)遇到的最真實(shí)情況是,大多數(shù)的系統(tǒng)(或者項(xiàng)目)沒(méi)有數(shù)據(jù)模型設(shè)計(jì)文檔,而其中最核心的業(yè)務(wù)系統(tǒng)之一的數(shù)據(jù)模型最新版本是2年前的,進(jìn)行初步稽核之后,數(shù)據(jù)模型與實(shí)際生產(chǎn)環(huán)境對(duì)得上的只有40%左右。
三、數(shù)據(jù)模型梳理實(shí)施方法
一般而言,數(shù)據(jù)模型梳理的實(shí)施步驟大致分為三個(gè)步驟:
1.物理模型梳理和優(yōu)化
物理模型梳理的實(shí)質(zhì)在于數(shù)據(jù)模型從關(guān)系數(shù)據(jù)庫(kù),形成一份穩(wěn)定的物理模型設(shè)計(jì)。但它也不等同于單純應(yīng)用PowerDesigner等工具從數(shù)據(jù)庫(kù)中進(jìn)行反向工程(reverse engeering)的結(jié)果,或者可以這樣講,反向工程只是其中的初始步驟。初始反向工程出來(lái)的結(jié)果,經(jīng)過(guò)層層的篩選、過(guò)濾、合并和優(yōu)化以后,最終經(jīng)各方確認(rèn)后形成物理模型基線,供后續(xù)邏輯模型梳理的基礎(chǔ),以及作為后續(xù)數(shù)據(jù)模型變更作為基線。
2.邏輯模型梳理
邏輯模型梳理的實(shí)質(zhì),就是在在數(shù)據(jù)物理模型的基礎(chǔ)上,通過(guò)實(shí)體關(guān)系分析、字段含義梳理,字段取值梳理等手段,形成企業(yè)IT系統(tǒng)邏輯模型。在這個(gè)階段,需要引入數(shù)據(jù)架構(gòu)師,業(yè)務(wù)專(zhuān)家,DBA,業(yè)務(wù)人員等不同角色的人員共同努力實(shí)現(xiàn)數(shù)據(jù)邏輯模型的梳理。在相應(yīng)工具的支持下,以應(yīng)用系統(tǒng)核心實(shí)體和關(guān)鍵實(shí)體為突破點(diǎn),逐步展開(kāi)和梳理邏輯模型梳理的步驟。
由于完全的邏輯模型梳理往往會(huì)引發(fā)大量的工作量,一般而言,可以因應(yīng)不同的系統(tǒng)、系統(tǒng)中不同的業(yè)務(wù)有重點(diǎn)地(分不同層次地)進(jìn)行邏輯模型梳理。
3.業(yè)務(wù)數(shù)據(jù)地圖梳理
最后,在自動(dòng)化的手段下,以業(yè)務(wù)專(zhuān)家為主梳理和形成業(yè)務(wù)與數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,并以圖形化、可視化方式展現(xiàn)出來(lái)。業(yè)務(wù)數(shù)據(jù)地圖,著重體現(xiàn)業(yè)務(wù)-應(yīng)用-數(shù)據(jù)之間的關(guān)系和影響。
四、小結(jié)
企業(yè)進(jìn)行數(shù)據(jù)治理的目的在于為企業(yè)數(shù)據(jù)化運(yùn)營(yíng)提供一個(gè)高質(zhì)量的數(shù)據(jù)環(huán)境,包括數(shù)據(jù)完整性,數(shù)據(jù)安全性,數(shù)據(jù)一致性,數(shù)據(jù)標(biāo)準(zhǔn)化,數(shù)據(jù)準(zhǔn)確和及時(shí)等。其中,數(shù)據(jù)模型梳理作為一種有效的自下而上的數(shù)據(jù)治理方式,可以提供一個(gè)關(guān)鍵手段來(lái)控制表面上變得日益復(fù)雜的數(shù)據(jù)管理環(huán)境,使人們可以驅(qū)動(dòng)數(shù)據(jù):更有效地管理他們的數(shù)據(jù),可以更有效的使用分析,讓數(shù)據(jù)發(fā)揮和創(chuàng)造更大的價(jià)值,真正指引企業(yè)的整體運(yùn)營(yíng)。
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱(chēng) BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢(xún)到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢(xún)結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢(xún)結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專(zhuān)注于從單 ...
2025-07-09year_month數(shù)據(jù)類(lèi)型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類(lèi)型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門(mén)控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專(zhuān)業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03