
大數(shù)據(jù)時(shí)代帶來了海量、多樣、非結(jié)構(gòu)化的數(shù)據(jù),我們得以進(jìn)行更加廣泛且深入的分析,但這必須建立在高質(zhì)量的數(shù)據(jù)上才有意義。本期以企業(yè)級的視角,介紹數(shù)據(jù)質(zhì)量的評價(jià)、提升與監(jiān)控。
大數(shù)據(jù)的時(shí)代,數(shù)據(jù)資產(chǎn)及其價(jià)值利用能力逐漸成為構(gòu)成企業(yè)核心競爭力的關(guān)鍵要素;然而,大數(shù)據(jù)應(yīng)用必須建立在質(zhì)量可靠的數(shù)據(jù)之上才有意義,建立在低質(zhì)量甚至錯(cuò)誤數(shù)據(jù)之上的應(yīng)用有可能與其初心南轅北轍背道而馳。因此,數(shù)據(jù)質(zhì)量正是企業(yè)應(yīng)用數(shù)據(jù)的瓶頸,高質(zhì)量的數(shù)據(jù)可以決定數(shù)據(jù)應(yīng)用的上限,而低質(zhì)量的數(shù)據(jù)則必然拉低數(shù)據(jù)應(yīng)用的下限。
數(shù)據(jù)質(zhì)量一般指數(shù)據(jù)能夠真實(shí)、完整反映經(jīng)營管理實(shí)際情況的程度,通??稍谝韵聨讉€(gè)方面衡量和評價(jià):
準(zhǔn)確性:數(shù)據(jù)在系統(tǒng)中的值與真實(shí)值相比的符合情況,數(shù)據(jù)應(yīng)符合業(yè)務(wù)規(guī)則和統(tǒng)計(jì)口徑。常見數(shù)據(jù)準(zhǔn)確性問題如:
與實(shí)際情況不符:數(shù)據(jù)來源存在錯(cuò)誤,難以通過規(guī)范進(jìn)行判斷與約束;
與業(yè)務(wù)規(guī)范不符:在數(shù)據(jù)的采集、使用、管理、維護(hù)過程中,業(yè)務(wù)規(guī)范缺乏或執(zhí)行不力,導(dǎo)致數(shù)據(jù)缺乏準(zhǔn)確性。
完整性:數(shù)據(jù)的完備程度。常見數(shù)據(jù)完整性問題如:
系統(tǒng)已設(shè)定字段,但在實(shí)際業(yè)務(wù)操作中并未完整采集該字段數(shù)據(jù),導(dǎo)致數(shù)據(jù)缺失或不完整;
系統(tǒng)未設(shè)定字段:存在數(shù)據(jù)需求,但未在系統(tǒng)中設(shè)定對應(yīng)的取數(shù)字段。
一致性:系統(tǒng)內(nèi)外部數(shù)據(jù)源之間的數(shù)據(jù)一致程度,數(shù)據(jù)是否遵循了統(tǒng)一的規(guī)范,數(shù)據(jù)集合是否保持了統(tǒng)一的格式。常見一致性問題如:
缺乏系統(tǒng)聯(lián)動(dòng)或聯(lián)動(dòng)出錯(cuò):系統(tǒng)間應(yīng)該相同的數(shù)據(jù)卻不一致,缺乏必要的聯(lián)動(dòng)和核對。
及時(shí)性:數(shù)據(jù)在采集、傳送、處理等環(huán)節(jié)快速支持應(yīng)用的程度,考察數(shù)據(jù)的時(shí)間特性對應(yīng)用的滿足程度。及時(shí)性關(guān)系到系統(tǒng)能否在規(guī)定的時(shí)間內(nèi)獲取到系統(tǒng)需要的特定時(shí)間產(chǎn)生的數(shù)據(jù),以完成系統(tǒng)功能。常見及時(shí)性問題如:
缺乏時(shí)效性:未按照規(guī)定的數(shù)據(jù)更新時(shí)間要求對數(shù)據(jù)進(jìn)行更新。
可用性:用來衡量數(shù)據(jù)項(xiàng)整合和應(yīng)用的可用程度。常見可用性問題如:
缺乏應(yīng)用功能,沒有相關(guān)的數(shù)據(jù)處理、加工規(guī)則或數(shù)據(jù)模型的應(yīng)用功能,獲取目標(biāo)數(shù)據(jù);
缺乏整合共享,數(shù)據(jù)分散,不易有效整合和共享。
其他衡量標(biāo)準(zhǔn)再如有效性可考慮對數(shù)據(jù)格式、類型、標(biāo)準(zhǔn)的遵從程度,合理性可考慮數(shù)據(jù)符合邏輯約束的程度。此前一項(xiàng)對某企業(yè)數(shù)據(jù)質(zhì)量問題進(jìn)行的調(diào)研顯示常見數(shù)據(jù)質(zhì)量問題中準(zhǔn)確性問題占33%,完整性問題占28%,可用性問題占24%,一致性問題占8%,在一定程度上代表了國內(nèi)企業(yè)面臨的數(shù)據(jù)問題。
提高數(shù)據(jù)質(zhì)量的首要任務(wù)是定義一套標(biāo)準(zhǔn)化的數(shù)據(jù)規(guī)范,對具體數(shù)據(jù)項(xiàng)的定義、口徑、格式、取值、單位等進(jìn)行規(guī)范說明,形成對該數(shù)據(jù)項(xiàng)的具體質(zhì)量要求。依托這套規(guī)范作為衡量和提高數(shù)據(jù)質(zhì)量的標(biāo)尺,可在數(shù)據(jù)采集、加工和應(yīng)用的各環(huán)節(jié)對關(guān)鍵數(shù)據(jù)項(xiàng)進(jìn)行預(yù)防性或監(jiān)測性的核檢。廣義的企業(yè)級數(shù)據(jù)字典可以作為數(shù)據(jù)標(biāo)準(zhǔn)化規(guī)范的載體,對企業(yè)運(yùn)營過程中涉及的數(shù)據(jù)項(xiàng)名稱、業(yè)務(wù)定義和規(guī)則等要素進(jìn)行收錄、規(guī)范和編制,對數(shù)據(jù)項(xiàng)描述信息進(jìn)行標(biāo)準(zhǔn)化處理,統(tǒng)一定義對安全性和數(shù)據(jù)質(zhì)量的要求,進(jìn)而為業(yè)務(wù)運(yùn)營提供可靠的數(shù)據(jù)服務(wù)、提高整體數(shù)據(jù)質(zhì)量奠定基礎(chǔ)。理想情況下廣義的企業(yè)級數(shù)據(jù)字典是完備的,企業(yè)各系統(tǒng)全部數(shù)據(jù)項(xiàng)都被數(shù)據(jù)字典收錄,不存在同名不同義或同義不同名的情況。與此相對,狹義的數(shù)據(jù)字典通常是針對單一系統(tǒng)的技術(shù)屬性標(biāo)準(zhǔn),為單一系統(tǒng)的開發(fā)和應(yīng)用服務(wù)。
企業(yè)級數(shù)據(jù)字典通常分為三層:數(shù)據(jù)項(xiàng)、值域和域取值。數(shù)據(jù)項(xiàng)層面的規(guī)范主要包括名稱、業(yè)務(wù)規(guī)則定義、數(shù)據(jù)安全要求和數(shù)據(jù)質(zhì)量要求等。
數(shù)據(jù)項(xiàng)名稱:包括數(shù)據(jù)項(xiàng)的中文名稱、英文名稱和英文簡稱,含義不同的數(shù)據(jù)項(xiàng)名稱不同,物理數(shù)據(jù)庫應(yīng)沿用數(shù)據(jù)字典定義的全局唯一的英文簡稱對字段命名
業(yè)務(wù)規(guī)則定義:包括數(shù)據(jù)的業(yè)務(wù)含義、轉(zhuǎn)換規(guī)則、加工規(guī)則等安全元數(shù)據(jù):包含數(shù)據(jù)來源、所有者和訪問權(quán)限等安全要求的定義
數(shù)據(jù)質(zhì)量要求:在數(shù)據(jù)規(guī)范定義基礎(chǔ)之上,提出滿足業(yè)務(wù)需要的數(shù)據(jù)長度、格式、取值、數(shù)據(jù)處理、勾稽關(guān)系等要求,以此作為數(shù)據(jù)質(zhì)量管理的落腳點(diǎn)
值域可細(xì)分為代碼域、編碼域、文本域、金額域、數(shù)值域、時(shí)間域等。例如“出生地”數(shù)據(jù)項(xiàng)對應(yīng)值域?yàn)椤靶姓^(qū)劃”代碼域,引用國家標(biāo)準(zhǔn)GB-T2260-2016《中華人民共和國行政區(qū)劃代碼》,對應(yīng)的域取值為該國標(biāo)定義的代碼表。再如“借記卡號”數(shù)據(jù)項(xiàng)對應(yīng)值域?yàn)椤?9位卡號”編碼域,定義16位卡號和19位卡號兩種編碼方式,不需列舉對應(yīng)具體的域取值。
數(shù)據(jù)質(zhì)量管理是指在數(shù)據(jù)創(chuàng)建、加工、使用和遷移等過程中,通過開展數(shù)據(jù)質(zhì)量定義、過程控制、監(jiān)測、問題分析和整改、評估與考核等一系列管理活動(dòng),提高數(shù)據(jù)質(zhì)量以滿足業(yè)務(wù)要求。數(shù)據(jù)質(zhì)量管理工作遵循業(yè)務(wù)引領(lǐng)的原則,確定重點(diǎn)質(zhì)量管控范圍,并動(dòng)態(tài)調(diào)整階段性管控重點(diǎn),持續(xù)優(yōu)化??砂凑铡罢l創(chuàng)建、誰負(fù)責(zé);誰加工、誰負(fù)責(zé);誰提供、誰負(fù)責(zé)”的原則界定數(shù)據(jù)質(zhì)量管理責(zé)任,由數(shù)據(jù)流轉(zhuǎn)環(huán)節(jié)的各責(zé)任方對管轄范圍內(nèi)的數(shù)據(jù)質(zhì)量負(fù)責(zé)。對數(shù)據(jù)質(zhì)量規(guī)則優(yōu)先采取系統(tǒng)程序的自動(dòng)化控制措施,并盡可能前移管控點(diǎn),從源頭上控制數(shù)據(jù)質(zhì)量。
數(shù)據(jù)質(zhì)量監(jiān)控點(diǎn)通常針對關(guān)鍵數(shù)據(jù)項(xiàng)設(shè)置實(shí)施,定義數(shù)據(jù)質(zhì)量監(jiān)控規(guī)則,生成監(jiān)控報(bào)警,按嚴(yán)重性等級分級報(bào)告,由相應(yīng)層級進(jìn)行處理和響應(yīng)。關(guān)鍵數(shù)據(jù)項(xiàng)根據(jù)經(jīng)驗(yàn)判斷,一般影響較廣如涉及多業(yè)務(wù)條線,或應(yīng)用于關(guān)鍵業(yè)務(wù)環(huán)節(jié)如合約簽訂、會(huì)計(jì)核算、績效分析、產(chǎn)品定價(jià)、資金收付等,或應(yīng)用于內(nèi)部經(jīng)營管理、對外信息披露和行業(yè)監(jiān)管要求,例如財(cái)務(wù)報(bào)告數(shù)據(jù)和新資本協(xié)議實(shí)施中明確提出的重要指標(biāo)項(xiàng)。
數(shù)據(jù)質(zhì)量監(jiān)控點(diǎn)的控制手段分為預(yù)防型和監(jiān)測型:
預(yù)防性控制防止錯(cuò)誤數(shù)據(jù)的產(chǎn)生,一般部署在數(shù)據(jù)采集點(diǎn),用于控制手工輸入的源數(shù)據(jù),以及批量導(dǎo)入的源數(shù)據(jù)校驗(yàn):
數(shù)據(jù)輸入校驗(yàn):例如貸款利率的輸入校驗(yàn);
數(shù)據(jù)閾值:例如數(shù)據(jù)非空,數(shù)據(jù)取值超出值域定義合理范圍,數(shù)據(jù)格式不符合標(biāo)準(zhǔn)等;
質(zhì)量控制方式:系統(tǒng)自動(dòng)校驗(yàn)/雙人手工復(fù)核;
系統(tǒng)校驗(yàn)方式:強(qiáng)制,如不符合規(guī)則無法通過。
監(jiān)測型控制監(jiān)測錯(cuò)誤數(shù)據(jù),發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題進(jìn)行報(bào)警。一般部署在數(shù)據(jù)加工和應(yīng)用環(huán)節(jié),驗(yàn)證數(shù)據(jù)完整性、一致性和準(zhǔn)確性等:
數(shù)據(jù)輸出校驗(yàn):例如貸款余額總分核對
數(shù)據(jù)一致性:例如交易頭寸與總帳系統(tǒng)記錄的交易頭寸一致
質(zhì)量控制方式:系統(tǒng)自動(dòng)校驗(yàn)
系統(tǒng)校驗(yàn)方式:非強(qiáng)制,錯(cuò)誤及差異提示
對選定的關(guān)鍵數(shù)據(jù)項(xiàng),需定義數(shù)據(jù)質(zhì)量規(guī)則以及數(shù)據(jù)質(zhì)量等級。數(shù)據(jù)質(zhì)量等級可利用“閾值”和“容忍度”進(jìn)行分級:
良好:數(shù)據(jù)項(xiàng)質(zhì)量評分高于“閾值”
可容忍:數(shù)據(jù)項(xiàng)質(zhì)量評分低于“閾值”,但高于“容忍度”
報(bào)警:數(shù)據(jù)項(xiàng)質(zhì)量評分低于“容忍度”
嚴(yán)重報(bào)警:數(shù)據(jù)項(xiàng)的質(zhì)量問題將帶來非常嚴(yán)重的影響,人工經(jīng)驗(yàn)判斷
關(guān)鍵數(shù)據(jù)項(xiàng)監(jiān)控點(diǎn)的詳細(xì)信息應(yīng)在企業(yè)級數(shù)據(jù)字典中維護(hù)更新,與其開發(fā)、實(shí)施和測試情況保持同步。
在進(jìn)行數(shù)據(jù)質(zhì)量分等級報(bào)告及響應(yīng)糾錯(cuò)時(shí)應(yīng)遵守如下原則:
及時(shí)性。對導(dǎo)致數(shù)據(jù)質(zhì)量等級進(jìn)入“可容忍”、“報(bào)警”和“嚴(yán)重報(bào)警”狀態(tài)的數(shù)據(jù)質(zhì)量事件能夠及時(shí)發(fā)現(xiàn)、報(bào)告和處理;
規(guī)范性:針對分級別的數(shù)據(jù)質(zhì)量問題,匯報(bào)至利益相關(guān)方,配置相應(yīng)資源;
高效性:數(shù)據(jù)質(zhì)量問題,在分級別規(guī)定時(shí)間內(nèi)被解決。應(yīng)按照“可容忍”、“報(bào)警”和“嚴(yán)重報(bào)警”酌情規(guī)定響應(yīng)時(shí)間;
有序性。在開展數(shù)據(jù)質(zhì)量分等級報(bào)告工作時(shí),應(yīng)有序上報(bào)、統(tǒng)一領(lǐng)導(dǎo)、分級負(fù)責(zé)。
部署在UDP層面的數(shù)據(jù)質(zhì)量監(jiān)控程序?qū)崟r(shí)或定期監(jiān)測關(guān)鍵數(shù)據(jù)項(xiàng)的質(zhì)量,對其數(shù)據(jù)質(zhì)量進(jìn)行評分,通過比較該監(jiān)控點(diǎn)的“閾值”和“容忍度”,將數(shù)據(jù)質(zhì)量進(jìn)行分級,對于非“良好”的評價(jià)結(jié)果,數(shù)據(jù)質(zhì)量監(jiān)控程序?qū)l(fā)送報(bào)警消息通知數(shù)據(jù)質(zhì)量管理人員。報(bào)警消息內(nèi)容包括問題定位頭文件和具體描述。數(shù)據(jù)質(zhì)量管理人員根據(jù)報(bào)警信息調(diào)查問題數(shù)據(jù)項(xiàng),驗(yàn)證報(bào)警內(nèi)容,生成預(yù)警信息通知下游用戶,同時(shí)填制糾錯(cuò)工單通知相關(guān)責(zé)任人員。相關(guān)責(zé)任人員依據(jù)糾錯(cuò)通知提示的具體內(nèi)容,開展數(shù)據(jù)質(zhì)量問題調(diào)查,提出數(shù)據(jù)質(zhì)量改進(jìn)需求和解決方案,由實(shí)施運(yùn)維團(tuán)隊(duì)在數(shù)據(jù)應(yīng)用層面修正,或在數(shù)據(jù)采集和集成層面修正。若糾錯(cuò)告警問題由數(shù)據(jù)質(zhì)量要求過于嚴(yán)苛或控制規(guī)則錯(cuò)誤引起,應(yīng)修改關(guān)鍵數(shù)據(jù)項(xiàng)清單及其相關(guān)監(jiān)控規(guī)則,并由實(shí)施運(yùn)維團(tuán)隊(duì)修改或取消已部署的對應(yīng)監(jiān)控點(diǎn)。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10CDA 數(shù)據(jù)分析師:商業(yè)數(shù)據(jù)分析實(shí)踐的落地者與價(jià)值創(chuàng)造者 商業(yè)數(shù)據(jù)分析的價(jià)值,最終要在 “實(shí)踐” 中體現(xiàn) —— 脫離業(yè)務(wù)場景的分 ...
2025-09-10機(jī)器學(xué)習(xí)解決實(shí)際問題的核心關(guān)鍵:從業(yè)務(wù)到落地的全流程解析 在人工智能技術(shù)落地的浪潮中,機(jī)器學(xué)習(xí)作為核心工具,已廣泛應(yīng)用于 ...
2025-09-09SPSS 編碼狀態(tài)區(qū)域中 Unicode 的功能與價(jià)值解析 在 SPSS(Statistical Product and Service Solutions,統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案 ...
2025-09-09