
數(shù)據(jù)分析前提:數(shù)據(jù)質(zhì)量管理四要素
數(shù)據(jù)質(zhì)量控制作為數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)環(huán)節(jié),是保障上層數(shù)據(jù)應(yīng)用的基礎(chǔ)。數(shù)據(jù)質(zhì)量保證主要包括數(shù)據(jù)概要分析(Data Profiling)、數(shù)據(jù)審核(Data Auditing)和數(shù)據(jù)修正(Data Correcting)三個(gè)部分,前一篇文章介紹了Data Profiling的相關(guān)內(nèi)容,從Data Profiling的過程中獲得了數(shù)據(jù)的概要統(tǒng)計(jì)信息,所以下面就要用這些數(shù)據(jù)統(tǒng)計(jì)信息來審核數(shù)據(jù)的質(zhì)量,檢查數(shù)據(jù)中是否存在臟數(shù)據(jù),所以這一篇主要介紹數(shù)據(jù)審核(Data Auditing)的內(nèi)容。
數(shù)據(jù)質(zhì)量的基本要素
首先,如何評(píng)估數(shù)據(jù)的質(zhì)量,或者說怎么樣的數(shù)據(jù)才是符合要求的數(shù)據(jù)?可以從4個(gè)方面去考慮,這4個(gè)方面共同構(gòu)成了數(shù)據(jù)質(zhì)量的4個(gè)基本要素。
完整性
數(shù)據(jù)的記錄和信息是否完整,是否存在缺失的情況。
數(shù)據(jù)的缺失主要有記錄的缺失和記錄中某個(gè)字段信息的缺失,兩者都會(huì)造成統(tǒng)計(jì)結(jié)果的不準(zhǔn)確,所以完整性是數(shù)據(jù)質(zhì)量最基礎(chǔ)的保障,而對(duì)完整性的評(píng)估相對(duì)比較容易。
一致性
數(shù)據(jù)的記錄是否符合規(guī)范,是否與前后及其他數(shù)據(jù)集合保持統(tǒng)一。
數(shù)據(jù)的一致性主要包括數(shù)據(jù)記錄的規(guī)范和數(shù)據(jù)邏輯的一致性。數(shù)據(jù)記錄的規(guī)范主要是數(shù)據(jù)編碼和格式的問題,比如網(wǎng)站的用戶ID是15位的數(shù)字、商品ID是10位數(shù)字,商品包括20個(gè)類目、IP地址一定是用”.”分隔的4個(gè)0-255的數(shù)字組成,及一些定義的數(shù)據(jù)約束,比如完整性的非空約束、唯一值約束等;數(shù)據(jù)邏輯性主要是指標(biāo)統(tǒng)計(jì)和計(jì)算的一致性,比如PV>=UV,新用戶比例在0-1之間等。數(shù)據(jù)的一致性審核是數(shù)據(jù)質(zhì)量審核中比較重要也是比較復(fù)雜的一塊。
準(zhǔn)確性
數(shù)據(jù)中記錄的信息和數(shù)據(jù)是否準(zhǔn)確,是否存在異?;蛘咤e(cuò)誤的信息。
導(dǎo)致一致性問題的原因可能是數(shù)據(jù)記錄的規(guī)則不一,但不一定存在錯(cuò)誤;而準(zhǔn)確性關(guān)注的是數(shù)據(jù)記錄中存在的錯(cuò)誤,比如字符型數(shù)據(jù)的亂碼現(xiàn)象也應(yīng)該歸到準(zhǔn)確性的考核范疇,另外就是異常的數(shù)值,異常大或者異常小的數(shù)值,不符合有效性要求的數(shù)值,如訪問量Visits一定是整數(shù)、年齡一般在1-100之間、轉(zhuǎn)化率一定是介于0到1的值等。對(duì)數(shù)據(jù)準(zhǔn)確性的審核有時(shí)會(huì)遇到困難,因?yàn)閷?duì)于沒有明顯異常的錯(cuò)誤值我們很難發(fā)現(xiàn)。
及時(shí)性
數(shù)據(jù)從產(chǎn)生到可以查看的時(shí)間間隔,也叫數(shù)據(jù)的延時(shí)時(shí)長(zhǎng)。
雖然說分析型數(shù)據(jù)的實(shí)時(shí)性要求并不是太高,但并不意味了就沒有要求,分析師可以接受當(dāng)天的數(shù)據(jù)要第二天才能查看,但如果數(shù)據(jù)要延時(shí)兩三天才能出來,或者每周的數(shù)據(jù)分析報(bào)告要兩周后才能出來,那么分析的結(jié)論可能已經(jīng)失去時(shí)效性,分析師的工作只是徒勞;同時(shí),某些實(shí)時(shí)分析和決策需要用到小時(shí)或者分鐘級(jí)的數(shù)據(jù),這些需求對(duì)數(shù)據(jù)的時(shí)效性要求極高。所以及時(shí)性也是數(shù)據(jù)質(zhì)量的組成要素之一。
Data Auditing
基于數(shù)據(jù)質(zhì)量的4個(gè)要素,可以對(duì)數(shù)據(jù)進(jìn)行審核,以評(píng)估數(shù)據(jù)是否滿足完整性、一致性、準(zhǔn)確性和及時(shí)性這4方面的要求,其中數(shù)據(jù)的及時(shí)性主要跟數(shù)據(jù)的同步和處理過程的效率相關(guān),更多的是通過監(jiān)控ETL任務(wù)的方式來保證數(shù)據(jù)的及時(shí)性,所以這里的數(shù)據(jù)審核主要指的是評(píng)估數(shù)據(jù)的完整性、一致性和準(zhǔn)確性。
完整性
我們從Data Profiling得到的數(shù)據(jù)統(tǒng)計(jì)信息里面看看哪些可以用來審核數(shù)據(jù)的完整性。首先是記錄的完整性,一般使用統(tǒng)計(jì)的記錄數(shù)和唯一值個(gè)數(shù)。比如網(wǎng)站每天的日志記錄數(shù)是相對(duì)恒定的,大概在1000萬上下波動(dòng),如果某天的日志記錄數(shù)下降到了只有100萬,那很有可能記錄缺失了;或者網(wǎng)站的訪問記錄應(yīng)該在一天的24小時(shí)均有分布,如果某個(gè)整點(diǎn)完全沒有用戶訪問記錄,那么很有可能網(wǎng)站在當(dāng)時(shí)出了問題或者那個(gè)時(shí)刻的日志記錄傳輸出現(xiàn)了問題;再如統(tǒng)計(jì)訪客的地域分布時(shí),一般會(huì)包括全國(guó)的32個(gè)省份直轄市,如果統(tǒng)計(jì)的省份唯一值個(gè)數(shù)少于32,那么很有可能數(shù)據(jù)也存在缺失。
完整性的另一方面,記錄中某個(gè)字段的數(shù)據(jù)缺失,可以使用統(tǒng)計(jì)信息中的空值(NULL)的個(gè)數(shù)進(jìn)行審核。如果某個(gè)字段的信息理論上必然存在,比如訪問的頁(yè)面地址、購(gòu)買的商品ID等,那么這些字段的空值個(gè)數(shù)的統(tǒng)計(jì)就應(yīng)該是0,這些字段我們可以使用非空(NOT NULL)約束來保證數(shù)據(jù)的完整性;對(duì)于某些允許空的字段,比如用戶的cookie信息不一定存在(用戶禁用cookie),但空值的占比基本恒定,比如cookie為空的用戶比例通常在2%-3%,我們同樣可以使用統(tǒng)計(jì)的空值個(gè)數(shù)來計(jì)算空值占比,如果空值的占比明顯增大,很有可能這個(gè)字段的記錄出現(xiàn)了問題,信息出現(xiàn)缺失。
一致性
如果數(shù)據(jù)記錄格式有標(biāo)準(zhǔn)的編碼規(guī)則,那么對(duì)數(shù)據(jù)記錄的一致性檢驗(yàn)比較簡(jiǎn)單,只要驗(yàn)證所有的記錄是否滿足這個(gè)編碼規(guī)則就可以,最簡(jiǎn)單的就是使用字段的長(zhǎng)度、唯一值個(gè)數(shù)這些統(tǒng)計(jì)量。比如對(duì)用戶ID的編碼是15位數(shù)字,那么字段的最長(zhǎng)和最短字符數(shù)都應(yīng)該是15;或者商品ID是P開始后面跟10位數(shù)字,可以用同樣的方法檢驗(yàn);如果字段必須保證唯一,那么字段的唯一值個(gè)數(shù)跟記錄數(shù)應(yīng)該是一致的,比如用戶的注冊(cè)郵箱;再如地域的省份直轄市一定是統(tǒng)一編碼的,記錄的一定是“上?!倍皇恰吧虾J小薄ⅰ罢憬倍皇恰罢憬 ?,可以把這些唯一值映射到有效的32個(gè)省市的列表,如果無法映射,那么字段通不過一致性檢驗(yàn)。
一致性中邏輯規(guī)則的驗(yàn)證相對(duì)比較復(fù)雜,很多時(shí)候指標(biāo)的統(tǒng)計(jì)邏輯的一致性需要底層數(shù)據(jù)質(zhì)量的保證,同時(shí)也要有非常規(guī)范和標(biāo)準(zhǔn)的統(tǒng)計(jì)邏輯的定義,所有指標(biāo)的計(jì)算規(guī)則必須保證一致。我們經(jīng)常犯的錯(cuò)誤就是匯總數(shù)據(jù)和細(xì)分?jǐn)?shù)據(jù)加起來的結(jié)果對(duì)不上,導(dǎo)致這個(gè)問題很有可能的原因就是數(shù)據(jù)在細(xì)分的時(shí)候把那些無法明確歸到某個(gè)細(xì)分項(xiàng)的數(shù)據(jù)給排除了,比如在細(xì)分訪問來源的時(shí)候,如果我們無法將某些非直接進(jìn)入的來源明確地歸到外部鏈接、搜索引擎、廣告等這些既定的來源分類,但也不應(yīng)該直接過濾掉這些數(shù)據(jù),而應(yīng)該給一個(gè)“未知來源”的分類,以保證根據(jù)來源細(xì)分之后的數(shù)據(jù)加起來還是可以與總體的數(shù)據(jù)保持一致。如果需要審核這些數(shù)據(jù)邏輯的一致性,我們可以建立一些“有效性規(guī)則”,比如A>=B,如果C=B/A,那么C的值應(yīng)該在[0,1]的范圍內(nèi)等,數(shù)據(jù)無法滿足這些規(guī)則就無法通過一致性檢驗(yàn)。
準(zhǔn)確性
數(shù)據(jù)的準(zhǔn)確性可能存在于個(gè)別記錄,也可能存在于整個(gè)數(shù)據(jù)集。如果整個(gè)數(shù)據(jù)集的某個(gè)字段的數(shù)據(jù)存在錯(cuò)誤,比如常見的數(shù)量級(jí)的記錄錯(cuò)誤,這種錯(cuò)誤很容易發(fā)現(xiàn),利用Data Profiling的平均數(shù)和中位數(shù)也可以發(fā)現(xiàn)這類問題。當(dāng)數(shù)據(jù)集中存在個(gè)別的異常值時(shí),可以使用最大值和最小值的統(tǒng)計(jì)量去審核,或者使用箱線圖也可以讓異常記錄一目了然。
還有幾個(gè)準(zhǔn)確性的審核問題,字符亂碼的問題或者字符被截?cái)嗟膯栴},可以使用分布來發(fā)現(xiàn)這類問題,一般的數(shù)據(jù)記錄基本符合正態(tài)分布或者類正態(tài)分布,那么那些占比異常小的數(shù)據(jù)項(xiàng)很可能存在問題,比如某個(gè)字符記錄占總體的占比只有0.1%,而其他的占比都在3%以上,那么很有可能這個(gè)字符記錄有異常,一些ETL工具的數(shù)據(jù)質(zhì)量審核會(huì)標(biāo)識(shí)出這類占比異常小的記錄值。對(duì)于數(shù)值范圍既定的數(shù)據(jù),也可以有效性的限制,超過數(shù)據(jù)有效的值域定義數(shù)據(jù)記錄就是錯(cuò)誤的。
如果數(shù)據(jù)并沒有顯著異常,但仍然可能記錄的值是錯(cuò)誤的,只是這些值與正常的值比較接近而已,這類準(zhǔn)確性檢驗(yàn)最困難,一般只能與其他來源或者統(tǒng)計(jì)結(jié)果進(jìn)行比對(duì)來發(fā)現(xiàn)問題,如果使用超過一套數(shù)據(jù)收集系統(tǒng)或者網(wǎng)站分析工具,那么通過不同數(shù)據(jù)來源的數(shù)據(jù)比對(duì)可以發(fā)現(xiàn)一些數(shù)據(jù)記錄的準(zhǔn)確性問題。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10