
關(guān)于大數(shù)據(jù)治理的研究與分析
1數(shù)據(jù)治理的背景和現(xiàn)狀
1.1數(shù)據(jù)治理背景
隨著網(wǎng)絡(luò)和信息技術(shù)的不斷普及,人類(lèi)產(chǎn)生的數(shù)據(jù)量正在呈指數(shù)級(jí)增長(zhǎng)。大約每?jī)赡攴环?,根?jù)監(jiān)測(cè),這個(gè)速度在2020 年之前會(huì)繼續(xù)保持下去。這意味著人類(lèi)在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量。
大量新數(shù)據(jù)源的出現(xiàn)則導(dǎo)致了非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)爆發(fā)式的增長(zhǎng)。信息數(shù)據(jù)的單位由TB-PB-EB-ZB的級(jí)別暴增。這些由我們創(chuàng)造的信息背后產(chǎn)生的這些數(shù)據(jù)早已經(jīng)遠(yuǎn)遠(yuǎn)超越了目前人力所能處理的范疇。如何管理和使用這些數(shù)據(jù),逐漸成為一個(gè)新的領(lǐng)域,于是大數(shù)據(jù)的概念應(yīng)運(yùn)而生。
圖1 數(shù)據(jù)治理背景圖
1.2數(shù)據(jù)治理現(xiàn)狀
大數(shù)據(jù)的快速發(fā)展,使它成為IT領(lǐng)域的又一大新興產(chǎn)業(yè)。據(jù)中央財(cái)經(jīng)大學(xué)中國(guó)經(jīng)濟(jì)管理研究院博士張永力估算,國(guó)外大數(shù)據(jù)行業(yè)約有1000億美元的市場(chǎng),而且每年都以10%的速度在增長(zhǎng),增速是軟件行業(yè)的兩倍。我國(guó)2012年大數(shù)據(jù)市場(chǎng)規(guī)模大約4.7億元,2013年增速將達(dá)到138%,達(dá)到11.2億元,產(chǎn)業(yè)發(fā)展?jié)摿Ψ浅>薮蟆N覈?guó)大數(shù)據(jù)飛速發(fā)展的背后存在諸多的問(wèn)題:相關(guān)利益交織,協(xié)調(diào)難;方案規(guī)劃容易,落地困難;過(guò)度依賴技術(shù)工具;對(duì)于數(shù)據(jù)沒(méi)有明確區(qū)分。
圖2 數(shù)據(jù)現(xiàn)狀分析圖
2數(shù)據(jù)治理策略
2.1數(shù)據(jù)治理要素
圖3 數(shù)據(jù)治理要素分析圖
2.2數(shù)據(jù)治理策略
第一步:落實(shí)合適的人員負(fù)責(zé)治理。
任何成功的數(shù)據(jù)治理計(jì)劃的第一個(gè)步驟就是,要在本企業(yè)找到CEO可以授權(quán)的人,然后讓該人負(fù)責(zé)項(xiàng)目的具體實(shí)施。沒(méi)有什么能取代強(qiáng)有力的領(lǐng)導(dǎo)人。
數(shù)據(jù)治理是涉及人事的一個(gè)難題,這需要在許多不同的利益相關(guān)者之間達(dá)成共識(shí)。因而,在本企業(yè)里面選定這樣的領(lǐng)導(dǎo)人是一項(xiàng)重要工作。治理官員一旦選定下來(lái),就要成立由企業(yè)的利益相關(guān)者組成的治理委員會(huì),制訂監(jiān)管政策、向CEO及董事會(huì)報(bào)告進(jìn)度。
第二步:調(diào)查清楚所處環(huán)境。
一旦選定了領(lǐng)導(dǎo)小組,就要調(diào)查當(dāng)前情形,并清查不同部門(mén)在不同領(lǐng)域的當(dāng)前最佳實(shí)踐。領(lǐng)導(dǎo)小組需要越過(guò)獨(dú)立系統(tǒng)看待問(wèn)題,而企業(yè)數(shù)據(jù)治理評(píng)估方法對(duì)這項(xiàng)工作來(lái)說(shuō)必不可少。這有助于比較本企業(yè)的數(shù)據(jù)治理計(jì)劃目前處于什么狀態(tài),并且提供了一份路線圖以便確定以后的目標(biāo)。
第三步:制訂數(shù)據(jù)治理策略。
數(shù)據(jù)治理評(píng)估之后,治理委員會(huì)就應(yīng)當(dāng)考慮制訂遠(yuǎn)景,希望公司的數(shù)據(jù)治理實(shí)踐在接下來(lái)的幾年達(dá)到何種目標(biāo),根據(jù)這種需求為未來(lái)制訂遠(yuǎn)景。委員會(huì)應(yīng)當(dāng)向后規(guī)劃,并且制訂切合實(shí)際的里程碑和項(xiàng)目計(jì)劃來(lái)填補(bǔ)相關(guān)的缺口。具體辦法就是制訂關(guān)鍵績(jī)效指標(biāo)來(lái)跟蹤進(jìn)度,并且向CEO和董事會(huì)提交年度報(bào)告來(lái)證實(shí)成果。
第四步:算出數(shù)據(jù)價(jià)值。
估算數(shù)據(jù)價(jià)值。要是公司不知道數(shù)據(jù)的價(jià)值,它們就無(wú)法提高、保護(hù)或者評(píng)估數(shù)據(jù)對(duì)賬本底線的價(jià)值。數(shù)據(jù)不是一種普通商品,而是像水龍頭里出來(lái)的水--對(duì)生命至關(guān)重要,又往往被人們認(rèn)為是理所當(dāng)然的。你要是不知道某物的價(jià)格,就無(wú)法算出它的價(jià)值。
如果你想算出數(shù)據(jù)的價(jià)值,就要根據(jù)用戶權(quán)限和IT服務(wù)的效用,為數(shù)據(jù)建立內(nèi)部市場(chǎng)。當(dāng)本企業(yè)的每個(gè)人都在直接付費(fèi)獲取IT服務(wù)和數(shù)據(jù)時(shí),數(shù)據(jù)的價(jià)值就成了公司價(jià)目表上的一部分。
第五步:算出風(fēng)險(xiǎn)概率。
知道數(shù)據(jù)在過(guò)去是如何使用和濫用的,這有助于了解數(shù)據(jù)在將來(lái)會(huì)如何被危及和披露。每家企業(yè)都有一些原因,如一些事件和損失在獨(dú)立系統(tǒng)、層次體系和商業(yè)報(bào)告中消失。這些數(shù)據(jù)已經(jīng)可供使用,卻沒(méi)有被大多數(shù)企業(yè)所使用。收集這些數(shù)據(jù),與其意義聯(lián)系起來(lái),并研究長(zhǎng)期的損失趨勢(shì),這可以幫助任何企業(yè)把風(fēng)險(xiǎn)管理轉(zhuǎn)變成基于事實(shí)的商業(yè)智能方法,從而可分析過(guò)去事件,預(yù)測(cè)未來(lái)?yè)p失,改變當(dāng)前的政策要求,成為未來(lái)改善風(fēng)險(xiǎn)緩解策略。
第六步:密切關(guān)注控制措施的效果。
數(shù)據(jù)治理在很大程度上涉及企業(yè)的組織行為。企業(yè)每天在變化,因而它們的數(shù)據(jù)、價(jià)值及風(fēng)險(xiǎn)也在迅速變化。遺憾的是,大多數(shù)企業(yè)每年對(duì)自己只評(píng)估一次。要是公司無(wú)法改變組織控制措施來(lái)滿足每天或者每周出現(xiàn)的需求,也就談不上變化治理。
圖4 數(shù)據(jù)治理實(shí)施建議圖
3.1元數(shù)據(jù)的定義
技術(shù)元數(shù)據(jù)是存儲(chǔ)關(guān)于數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)技術(shù)細(xì)節(jié)的數(shù)據(jù),是用于開(kāi)發(fā)和管理數(shù)據(jù)倉(cāng)庫(kù)使用的數(shù)據(jù),它主要包括以下信息:數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)的描述,包括倉(cāng)庫(kù)模式、視圖、維、層次結(jié)構(gòu)和導(dǎo)出數(shù)據(jù)的定義,以及數(shù)據(jù)集市的位置和內(nèi)容;業(yè)務(wù)系統(tǒng)、數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市的體系結(jié)構(gòu)和模式;
業(yè)務(wù)元數(shù)據(jù)從業(yè)務(wù)角度描述了數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),它提供了介于使用者和實(shí)際系統(tǒng)之間的語(yǔ)義層,使得不懂計(jì)算機(jī)技術(shù)的業(yè)務(wù)人員也能夠“讀懂”數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)。業(yè)務(wù)元數(shù)據(jù)主要包括以下信息:使用者的業(yè)務(wù)術(shù)語(yǔ)所表達(dá)的數(shù)據(jù)模型、對(duì)象名和屬性名;訪問(wèn)數(shù)據(jù)的原則和數(shù)據(jù)的來(lái)源;系統(tǒng)所提供的分析方法以及公式和報(bào)表的信息;具體包括以下信息:企業(yè)概念模型:這是業(yè)務(wù)元數(shù)據(jù)所應(yīng)提供的重要的信息,它表示企業(yè)數(shù)據(jù)模型的高層信息、整個(gè)企業(yè)的業(yè)務(wù)概念和相互關(guān)系。
3.2為什么要進(jìn)行元數(shù)據(jù)管理
圖5 數(shù)據(jù)管理分析圖
3.3數(shù)據(jù)模型標(biāo)準(zhǔn)化
圖6 數(shù)據(jù)模型示意圖
3.4標(biāo)準(zhǔn)化體系(數(shù)據(jù)定義&模型設(shè)計(jì))
標(biāo)準(zhǔn)化體系:一定范圍內(nèi)的標(biāo)準(zhǔn)按其內(nèi)在聯(lián)系形成的科學(xué)的有機(jī)整體。標(biāo)準(zhǔn)化體系它規(guī)定了質(zhì)量方針、目標(biāo)、職責(zé)和程序,并通過(guò)建立相關(guān)體系進(jìn)行過(guò)程管理、質(zhì)量策劃、質(zhì)量控制、質(zhì)量保證和質(zhì)量改進(jìn)。
圖7 標(biāo)準(zhǔn)化體系示意圖
4主數(shù)據(jù)
4.1主數(shù)據(jù)的定義
企業(yè)主數(shù)據(jù)分散存儲(chǔ)在企業(yè)各系統(tǒng)內(nèi),是對(duì)企業(yè)至關(guān)重要的核心業(yè)務(wù)實(shí)體的數(shù)據(jù),比如客戶、合作伙伴、員工等。
4.2為什么要作主數(shù)據(jù)管理
主數(shù)據(jù)管理(MDM Master Data Management)描述了一組規(guī)程、技術(shù)和解決方案,這些規(guī)程、技術(shù)和解決方案用于為所有利益相關(guān)方(如用戶、應(yīng)用程序、數(shù)據(jù)倉(cāng)庫(kù)、流程以及貿(mào)易伙伴)創(chuàng)建并維護(hù)業(yè)務(wù)數(shù)據(jù)的一致性、完整性、相關(guān)性和精確性。
主數(shù)據(jù)管理的關(guān)鍵就是“管理”。主數(shù)據(jù)管理不會(huì)創(chuàng)建新的數(shù)據(jù)或新的數(shù)據(jù)縱向結(jié)構(gòu)。相反,它提供了一種方法,使企業(yè)能夠有效地管理存儲(chǔ)在分布系統(tǒng)中的數(shù)據(jù)。主數(shù)據(jù)管理使用現(xiàn)有的系統(tǒng),它從這些系統(tǒng)中獲取最新信息,并提供了先進(jìn)的技術(shù)和流程,用于自動(dòng)、準(zhǔn)確、及時(shí)地分發(fā)和分析整個(gè)企業(yè)中的數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行驗(yàn)證。
圖8 數(shù)據(jù)管理原因分析圖
4.3如何做好主數(shù)據(jù)管理
通過(guò)單一平臺(tái)上成熟的多領(lǐng)域MDM集中主數(shù)據(jù)的管理,從而消除點(diǎn)對(duì)點(diǎn)集成,簡(jiǎn)化您的結(jié)構(gòu),降低維護(hù)成本,改進(jìn)數(shù)據(jù)治理。Informatica MDM(主數(shù)據(jù)管理)能夠通過(guò)以下步驟幫助企業(yè)成功進(jìn)行多領(lǐng)域主數(shù)據(jù)管理:
1. 建模:用靈活的數(shù)據(jù)模型定義任意類(lèi)型的主數(shù)據(jù)
2. 識(shí)別:快速匹配和準(zhǔn)確識(shí)別重復(fù)項(xiàng)目
3. 解決:合并以創(chuàng)建可靠、唯一的真實(shí)來(lái)源
4. 聯(lián)系:揭示各類(lèi)主數(shù)據(jù)之間的關(guān)系
5. 治理:創(chuàng)建、使用、管理和監(jiān)控主數(shù)據(jù)
4.4主數(shù)據(jù)實(shí)施流程
圖9 數(shù)據(jù)管理實(shí)施流程圖
4.5主數(shù)據(jù)管理體系
圖10 主數(shù)據(jù)管理體系流程圖
5數(shù)據(jù)質(zhì)量管理
5.1數(shù)據(jù)質(zhì)量問(wèn)題
·數(shù)據(jù)的值域
·數(shù)據(jù)的定義
·數(shù)據(jù)的完整性
·數(shù)據(jù)的有效性
·業(yè)務(wù)規(guī)則
·結(jié)構(gòu)完整性
·數(shù)據(jù)轉(zhuǎn)換
·數(shù)據(jù)流
5.2組織架構(gòu)設(shè)計(jì)
圖11 架構(gòu)分析圖
5.3數(shù)據(jù)質(zhì)量治理流程
圖12 數(shù)據(jù)質(zhì)量治理流程圖
5.4數(shù)據(jù)治理管理方法
建立合理的數(shù)據(jù)管理機(jī)構(gòu)、制定數(shù)據(jù)質(zhì)量管理機(jī)制、落實(shí)人員執(zhí)行責(zé)任、保障組織間高效的溝通、持續(xù)監(jiān)控?cái)?shù)據(jù)應(yīng)用過(guò)程和領(lǐng)導(dǎo)強(qiáng)有力的督促是保障企業(yè)數(shù)據(jù)質(zhì)量的關(guān)鍵。
圖13 策略與方法分析圖
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類(lèi)型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專(zhuān)業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專(zhuān)業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷(xiāo)案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷(xiāo)成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類(lèi)分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類(lèi)分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10CDA 數(shù)據(jù)分析師:商業(yè)數(shù)據(jù)分析實(shí)踐的落地者與價(jià)值創(chuàng)造者 商業(yè)數(shù)據(jù)分析的價(jià)值,最終要在 “實(shí)踐” 中體現(xiàn) —— 脫離業(yè)務(wù)場(chǎng)景的分 ...
2025-09-10