
關(guān)于大數(shù)據(jù)治理的研究與分析
1數(shù)據(jù)治理的背景和現(xiàn)狀
1.1數(shù)據(jù)治理背景
隨著網(wǎng)絡(luò)和信息技術(shù)的不斷普及,人類產(chǎn)生的數(shù)據(jù)量正在呈指數(shù)級(jí)增長。大約每兩年翻一番,根據(jù)監(jiān)測(cè),這個(gè)速度在2020 年之前會(huì)繼續(xù)保持下去。這意味著人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量。
大量新數(shù)據(jù)源的出現(xiàn)則導(dǎo)致了非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)爆發(fā)式的增長。信息數(shù)據(jù)的單位由TB-PB-EB-ZB的級(jí)別暴增。這些由我們創(chuàng)造的信息背后產(chǎn)生的這些數(shù)據(jù)早已經(jīng)遠(yuǎn)遠(yuǎn)超越了目前人力所能處理的范疇。如何管理和使用這些數(shù)據(jù),逐漸成為一個(gè)新的領(lǐng)域,于是大數(shù)據(jù)的概念應(yīng)運(yùn)而生。
圖1 數(shù)據(jù)治理背景圖
1.2數(shù)據(jù)治理現(xiàn)狀
大數(shù)據(jù)的快速發(fā)展,使它成為IT領(lǐng)域的又一大新興產(chǎn)業(yè)。據(jù)中央財(cái)經(jīng)大學(xué)中國經(jīng)濟(jì)管理研究院博士張永力估算,國外大數(shù)據(jù)行業(yè)約有1000億美元的市場(chǎng),而且每年都以10%的速度在增長,增速是軟件行業(yè)的兩倍。我國2012年大數(shù)據(jù)市場(chǎng)規(guī)模大約4.7億元,2013年增速將達(dá)到138%,達(dá)到11.2億元,產(chǎn)業(yè)發(fā)展?jié)摿Ψ浅>薮?。我國大?shù)據(jù)飛速發(fā)展的背后存在諸多的問題:相關(guān)利益交織,協(xié)調(diào)難;方案規(guī)劃容易,落地困難;過度依賴技術(shù)工具;對(duì)于數(shù)據(jù)沒有明確區(qū)分。
圖2 數(shù)據(jù)現(xiàn)狀分析圖
2數(shù)據(jù)治理策略
2.1數(shù)據(jù)治理要素
圖3 數(shù)據(jù)治理要素分析圖
2.2數(shù)據(jù)治理策略
第一步:落實(shí)合適的人員負(fù)責(zé)治理。
任何成功的數(shù)據(jù)治理計(jì)劃的第一個(gè)步驟就是,要在本企業(yè)找到CEO可以授權(quán)的人,然后讓該人負(fù)責(zé)項(xiàng)目的具體實(shí)施。沒有什么能取代強(qiáng)有力的領(lǐng)導(dǎo)人。
數(shù)據(jù)治理是涉及人事的一個(gè)難題,這需要在許多不同的利益相關(guān)者之間達(dá)成共識(shí)。因而,在本企業(yè)里面選定這樣的領(lǐng)導(dǎo)人是一項(xiàng)重要工作。治理官員一旦選定下來,就要成立由企業(yè)的利益相關(guān)者組成的治理委員會(huì),制訂監(jiān)管政策、向CEO及董事會(huì)報(bào)告進(jìn)度。
第二步:調(diào)查清楚所處環(huán)境。
一旦選定了領(lǐng)導(dǎo)小組,就要調(diào)查當(dāng)前情形,并清查不同部門在不同領(lǐng)域的當(dāng)前最佳實(shí)踐。領(lǐng)導(dǎo)小組需要越過獨(dú)立系統(tǒng)看待問題,而企業(yè)數(shù)據(jù)治理評(píng)估方法對(duì)這項(xiàng)工作來說必不可少。這有助于比較本企業(yè)的數(shù)據(jù)治理計(jì)劃目前處于什么狀態(tài),并且提供了一份路線圖以便確定以后的目標(biāo)。
第三步:制訂數(shù)據(jù)治理策略。
數(shù)據(jù)治理評(píng)估之后,治理委員會(huì)就應(yīng)當(dāng)考慮制訂遠(yuǎn)景,希望公司的數(shù)據(jù)治理實(shí)踐在接下來的幾年達(dá)到何種目標(biāo),根據(jù)這種需求為未來制訂遠(yuǎn)景。委員會(huì)應(yīng)當(dāng)向后規(guī)劃,并且制訂切合實(shí)際的里程碑和項(xiàng)目計(jì)劃來填補(bǔ)相關(guān)的缺口。具體辦法就是制訂關(guān)鍵績效指標(biāo)來跟蹤進(jìn)度,并且向CEO和董事會(huì)提交年度報(bào)告來證實(shí)成果。
第四步:算出數(shù)據(jù)價(jià)值。
估算數(shù)據(jù)價(jià)值。要是公司不知道數(shù)據(jù)的價(jià)值,它們就無法提高、保護(hù)或者評(píng)估數(shù)據(jù)對(duì)賬本底線的價(jià)值。數(shù)據(jù)不是一種普通商品,而是像水龍頭里出來的水--對(duì)生命至關(guān)重要,又往往被人們認(rèn)為是理所當(dāng)然的。你要是不知道某物的價(jià)格,就無法算出它的價(jià)值。
如果你想算出數(shù)據(jù)的價(jià)值,就要根據(jù)用戶權(quán)限和IT服務(wù)的效用,為數(shù)據(jù)建立內(nèi)部市場(chǎng)。當(dāng)本企業(yè)的每個(gè)人都在直接付費(fèi)獲取IT服務(wù)和數(shù)據(jù)時(shí),數(shù)據(jù)的價(jià)值就成了公司價(jià)目表上的一部分。
第五步:算出風(fēng)險(xiǎn)概率。
知道數(shù)據(jù)在過去是如何使用和濫用的,這有助于了解數(shù)據(jù)在將來會(huì)如何被危及和披露。每家企業(yè)都有一些原因,如一些事件和損失在獨(dú)立系統(tǒng)、層次體系和商業(yè)報(bào)告中消失。這些數(shù)據(jù)已經(jīng)可供使用,卻沒有被大多數(shù)企業(yè)所使用。收集這些數(shù)據(jù),與其意義聯(lián)系起來,并研究長期的損失趨勢(shì),這可以幫助任何企業(yè)把風(fēng)險(xiǎn)管理轉(zhuǎn)變成基于事實(shí)的商業(yè)智能方法,從而可分析過去事件,預(yù)測(cè)未來損失,改變當(dāng)前的政策要求,成為未來改善風(fēng)險(xiǎn)緩解策略。
第六步:密切關(guān)注控制措施的效果。
數(shù)據(jù)治理在很大程度上涉及企業(yè)的組織行為。企業(yè)每天在變化,因而它們的數(shù)據(jù)、價(jià)值及風(fēng)險(xiǎn)也在迅速變化。遺憾的是,大多數(shù)企業(yè)每年對(duì)自己只評(píng)估一次。要是公司無法改變組織控制措施來滿足每天或者每周出現(xiàn)的需求,也就談不上變化治理。
圖4 數(shù)據(jù)治理實(shí)施建議圖
3.1元數(shù)據(jù)的定義
技術(shù)元數(shù)據(jù)是存儲(chǔ)關(guān)于數(shù)據(jù)倉庫系統(tǒng)技術(shù)細(xì)節(jié)的數(shù)據(jù),是用于開發(fā)和管理數(shù)據(jù)倉庫使用的數(shù)據(jù),它主要包括以下信息:數(shù)據(jù)倉庫結(jié)構(gòu)的描述,包括倉庫模式、視圖、維、層次結(jié)構(gòu)和導(dǎo)出數(shù)據(jù)的定義,以及數(shù)據(jù)集市的位置和內(nèi)容;業(yè)務(wù)系統(tǒng)、數(shù)據(jù)倉庫和數(shù)據(jù)集市的體系結(jié)構(gòu)和模式;
業(yè)務(wù)元數(shù)據(jù)從業(yè)務(wù)角度描述了數(shù)據(jù)倉庫中的數(shù)據(jù),它提供了介于使用者和實(shí)際系統(tǒng)之間的語義層,使得不懂計(jì)算機(jī)技術(shù)的業(yè)務(wù)人員也能夠“讀懂”數(shù)據(jù)倉庫中的數(shù)據(jù)。業(yè)務(wù)元數(shù)據(jù)主要包括以下信息:使用者的業(yè)務(wù)術(shù)語所表達(dá)的數(shù)據(jù)模型、對(duì)象名和屬性名;訪問數(shù)據(jù)的原則和數(shù)據(jù)的來源;系統(tǒng)所提供的分析方法以及公式和報(bào)表的信息;具體包括以下信息:企業(yè)概念模型:這是業(yè)務(wù)元數(shù)據(jù)所應(yīng)提供的重要的信息,它表示企業(yè)數(shù)據(jù)模型的高層信息、整個(gè)企業(yè)的業(yè)務(wù)概念和相互關(guān)系。
3.2為什么要進(jìn)行元數(shù)據(jù)管理
圖5 數(shù)據(jù)管理分析圖
3.3數(shù)據(jù)模型標(biāo)準(zhǔn)化
圖6 數(shù)據(jù)模型示意圖
3.4標(biāo)準(zhǔn)化體系(數(shù)據(jù)定義&模型設(shè)計(jì))
標(biāo)準(zhǔn)化體系:一定范圍內(nèi)的標(biāo)準(zhǔn)按其內(nèi)在聯(lián)系形成的科學(xué)的有機(jī)整體。標(biāo)準(zhǔn)化體系它規(guī)定了質(zhì)量方針、目標(biāo)、職責(zé)和程序,并通過建立相關(guān)體系進(jìn)行過程管理、質(zhì)量策劃、質(zhì)量控制、質(zhì)量保證和質(zhì)量改進(jìn)。
圖7 標(biāo)準(zhǔn)化體系示意圖
4主數(shù)據(jù)
4.1主數(shù)據(jù)的定義
企業(yè)主數(shù)據(jù)分散存儲(chǔ)在企業(yè)各系統(tǒng)內(nèi),是對(duì)企業(yè)至關(guān)重要的核心業(yè)務(wù)實(shí)體的數(shù)據(jù),比如客戶、合作伙伴、員工等。
4.2為什么要作主數(shù)據(jù)管理
主數(shù)據(jù)管理(MDM Master Data Management)描述了一組規(guī)程、技術(shù)和解決方案,這些規(guī)程、技術(shù)和解決方案用于為所有利益相關(guān)方(如用戶、應(yīng)用程序、數(shù)據(jù)倉庫、流程以及貿(mào)易伙伴)創(chuàng)建并維護(hù)業(yè)務(wù)數(shù)據(jù)的一致性、完整性、相關(guān)性和精確性。
主數(shù)據(jù)管理的關(guān)鍵就是“管理”。主數(shù)據(jù)管理不會(huì)創(chuàng)建新的數(shù)據(jù)或新的數(shù)據(jù)縱向結(jié)構(gòu)。相反,它提供了一種方法,使企業(yè)能夠有效地管理存儲(chǔ)在分布系統(tǒng)中的數(shù)據(jù)。主數(shù)據(jù)管理使用現(xiàn)有的系統(tǒng),它從這些系統(tǒng)中獲取最新信息,并提供了先進(jìn)的技術(shù)和流程,用于自動(dòng)、準(zhǔn)確、及時(shí)地分發(fā)和分析整個(gè)企業(yè)中的數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行驗(yàn)證。
圖8 數(shù)據(jù)管理原因分析圖
4.3如何做好主數(shù)據(jù)管理
通過單一平臺(tái)上成熟的多領(lǐng)域MDM集中主數(shù)據(jù)的管理,從而消除點(diǎn)對(duì)點(diǎn)集成,簡(jiǎn)化您的結(jié)構(gòu),降低維護(hù)成本,改進(jìn)數(shù)據(jù)治理。Informatica MDM(主數(shù)據(jù)管理)能夠通過以下步驟幫助企業(yè)成功進(jìn)行多領(lǐng)域主數(shù)據(jù)管理:
1. 建模:用靈活的數(shù)據(jù)模型定義任意類型的主數(shù)據(jù)
2. 識(shí)別:快速匹配和準(zhǔn)確識(shí)別重復(fù)項(xiàng)目
3. 解決:合并以創(chuàng)建可靠、唯一的真實(shí)來源
4. 聯(lián)系:揭示各類主數(shù)據(jù)之間的關(guān)系
5. 治理:創(chuàng)建、使用、管理和監(jiān)控主數(shù)據(jù)
4.4主數(shù)據(jù)實(shí)施流程
圖9 數(shù)據(jù)管理實(shí)施流程圖
4.5主數(shù)據(jù)管理體系
圖10 主數(shù)據(jù)管理體系流程圖
5數(shù)據(jù)質(zhì)量管理
5.1數(shù)據(jù)質(zhì)量問題
·數(shù)據(jù)的值域
·數(shù)據(jù)的定義
·數(shù)據(jù)的完整性
·數(shù)據(jù)的有效性
·業(yè)務(wù)規(guī)則
·結(jié)構(gòu)完整性
·數(shù)據(jù)轉(zhuǎn)換
·數(shù)據(jù)流
5.2組織架構(gòu)設(shè)計(jì)
圖11 架構(gòu)分析圖
5.3數(shù)據(jù)質(zhì)量治理流程
圖12 數(shù)據(jù)質(zhì)量治理流程圖
5.4數(shù)據(jù)治理管理方法
建立合理的數(shù)據(jù)管理機(jī)構(gòu)、制定數(shù)據(jù)質(zhì)量管理機(jī)制、落實(shí)人員執(zhí)行責(zé)任、保障組織間高效的溝通、持續(xù)監(jiān)控?cái)?shù)據(jù)應(yīng)用過程和領(lǐng)導(dǎo)強(qiáng)有力的督促是保障企業(yè)數(shù)據(jù)質(zhì)量的關(guān)鍵。
圖13 策略與方法分析圖
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03