
做數(shù)據(jù)分析,首先解決這兩類數(shù)據(jù)質(zhì)量問(wèn)題
為了能夠系統(tǒng)化地、高效地解決出現(xiàn)的任何問(wèn)題,我們必須學(xué)會(huì)將這些問(wèn)題分而治之。畢竟,知己知彼方是解決問(wèn)題的首重至要。由此,我們才會(huì)發(fā)現(xiàn)解決之道就在其中。而對(duì)于提高數(shù)據(jù)質(zhì)量同樣適用:每一個(gè)解決問(wèn)題的方法都有不同的階段與角度。
當(dāng)一個(gè)數(shù)據(jù)質(zhì)量改進(jìn)程序在啟動(dòng)時(shí),僅知道數(shù)據(jù)庫(kù)中有多少錯(cuò)誤計(jì)算或重復(fù)錄入是遠(yuǎn)遠(yuǎn)不夠的。不止于此,我們還需要知道不同類型的錯(cuò)誤在收集的資源中是如何分配的。
據(jù) Jim barker 一篇很有意思的博客所述,數(shù)據(jù)質(zhì)量被分解成兩種不同類型。而在本文中,我會(huì)帶領(lǐng)大家仔細(xì)區(qū)分這些“類型”有何不同,并且如何利用這些“類型”在開發(fā)預(yù)算中確保我們的優(yōu)勢(shì)資源放在何處。
數(shù)據(jù)類型
被譽(yù)為“數(shù)據(jù)博士”的Jim barker,借用了一個(gè)簡(jiǎn)單的醫(yī)學(xué)概念來(lái)定義數(shù)據(jù)質(zhì)量問(wèn)題。 在他的博客中介紹了如何將這兩種“類型”組合在一起,并且成功激發(fā)了那些一直糾結(jié)于找到在數(shù)據(jù)庫(kù)中拉低數(shù)據(jù)質(zhì)量的幺蛾子的數(shù)據(jù)分析師們的興趣。
I型數(shù)據(jù)質(zhì)量問(wèn)題我們可以使用自動(dòng)化工具檢測(cè)到。II型數(shù)據(jù)質(zhì)量問(wèn)題就非常隱秘了。大家都知道它是存在的,但它看不見(jiàn)摸不著,更處理不了,因?yàn)樗枰旁谔厥馇榫巢拍鼙粰z測(cè)到。
它們之間的區(qū)別簡(jiǎn)而言之可歸納為如下幾點(diǎn):
型數(shù)據(jù)質(zhì)量問(wèn)題首先需要“知其然”才能來(lái)檢測(cè)數(shù)據(jù)的完整性、一致性、唯一性和有效性。這些屬性靠數(shù)據(jù)質(zhì)量軟件甚至手動(dòng)很好地找到。你不需要有很多的背景知識(shí),或者數(shù)據(jù)分析經(jīng)驗(yàn)。只要按照4個(gè)屬性驗(yàn)證它的存在,就可以判定它錯(cuò)誤的。例如,如果我們?cè)谛詣e領(lǐng)域插入一個(gè)3,我們就可以判定它到底是不是一個(gè)有效值。
型數(shù)據(jù)質(zhì)量問(wèn)題需要“知其所以然”來(lái)檢測(cè)時(shí)效性、一致性和準(zhǔn)確性屬性。需要研究能力、洞察力和經(jīng)驗(yàn),而不是簡(jiǎn)簡(jiǎn)單單就可以找得出來(lái)的。這些數(shù)據(jù)集經(jīng)常從表面上看起來(lái)沒(méi)有問(wèn)題。但幺蛾子往往存在于細(xì)節(jié)中,需要時(shí)間去發(fā)現(xiàn)。Jim舉的例子就是一份退休人員的雇傭記錄。如果我們不知道他們?cè)缫淹诵莸脑?,是看不出?lái)這個(gè)數(shù)據(jù)是錯(cuò)的。
所以,解決這些數(shù)據(jù)質(zhì)量問(wèn)題的關(guān)鍵就是需要一個(gè)復(fù)雜的、戰(zhàn)略化的方法,而非孤立的、片面的來(lái)看問(wèn)題。一旦數(shù)據(jù)質(zhì)量不好,我們就需要尋求自動(dòng)化與人工的方式才能解決這個(gè)問(wèn)題了,真可謂是“屋漏偏逢連夜雨”啊。
成本調(diào)整
所以,我們?nèi)绾谓鉀QI型和II型數(shù)據(jù)質(zhì)量問(wèn)題呢?處理它們所花費(fèi)的費(fèi)用是可比的,還是完全不同的?
要記住重要的一點(diǎn)是,I型數(shù)據(jù)的驗(yàn)證問(wèn)題可以在邏輯上定義,這意味著我們可以靠編寫軟件來(lái)查找并顯示它。軟件自動(dòng)修復(fù)的速度快、成本低,甚至配合手動(dòng)審查就可以完成??紤]到I型數(shù)據(jù)質(zhì)量問(wèn)題實(shí)際上是作為表格內(nèi)字段型的驗(yàn)證,一旦解決了表格字段的問(wèn)題,I型數(shù)據(jù)質(zhì)量問(wèn)題實(shí)際上也就解決了。
根據(jù)我們以往的經(jīng)驗(yàn):I型數(shù)據(jù)基本涵蓋了80%的數(shù)據(jù)質(zhì)量問(wèn)題,但消耗了我們20%的經(jīng)費(fèi)成本。
第二類數(shù)據(jù)問(wèn)題往往需要多方的輸入,以便發(fā)現(xiàn)、標(biāo)記和根除。雖然我們客戶關(guān)系管理系統(tǒng)中的每個(gè)人都有購(gòu)買日期,但購(gòu)買日期可能不正確,或者與發(fā)票或發(fā)貨清單不符。只有專家才能通過(guò)仔細(xì)核查其內(nèi)容來(lái)解決問(wèn)題并手動(dòng)改進(jìn)客戶關(guān)系管理系統(tǒng)。
通常情況下,企業(yè)很難做到資源的合理分配,原因有二,特別是企業(yè)處于快速增長(zhǎng)階段;或者處于人才流失的時(shí)候。你別看這些II類問(wèn)題較少,可能僅占數(shù)據(jù)問(wèn)題剩余的20%,但它們很有可能需要消耗超過(guò)80%的成本預(yù)算。所以,如果當(dāng)企業(yè)處于人才大量流失,卻又對(duì)此無(wú)能為力的時(shí)候。你會(huì)發(fā)現(xiàn)第二類數(shù)據(jù)問(wèn)題更難處理,因?yàn)槿斯そ鉀Q的途徑已不復(fù)存在了。
提高精確程度
為了提高數(shù)據(jù)的準(zhǔn)確性,我們必須將I型和II型數(shù)據(jù)問(wèn)題作為單獨(dú)的,但同時(shí)存在的問(wèn)題進(jìn)行研究。I類型數(shù)據(jù)質(zhì)量的挑戰(zhàn)可以呈現(xiàn)快速獲勝,但第II類問(wèn)題提出了一個(gè)挑戰(zhàn),必須依靠人類的專業(yè)知識(shí)才可以解決。
隨著時(shí)間的推移,數(shù)據(jù)庫(kù)會(huì)超過(guò)使用期限。為保其時(shí)效性,這需要持續(xù)不斷的努力。數(shù)據(jù)可以在數(shù)據(jù)庫(kù)中進(jìn)行清洗,或在使用階段進(jìn)行清理,但由于如導(dǎo)入/導(dǎo)出、損壞、手動(dòng)編輯、人為導(dǎo)致錯(cuò)誤等多種原因,仍然要注意I型錯(cuò)誤的發(fā)生。第II類數(shù)據(jù)問(wèn)題在這階段自然而然地發(fā)生,因?yàn)榫退銛?shù)據(jù)經(jīng)過(guò)驗(yàn)證和審查之后看起來(lái)正確,但對(duì)于現(xiàn)在來(lái)說(shuō)仍有可能是不正確的,因?yàn)榇藭r(shí)已非彼時(shí),數(shù)據(jù)的使用環(huán)境改變了。
確保數(shù)據(jù)的完整
數(shù)據(jù)的完整會(huì)有助于我們觀察整個(gè)事物的全貌并推動(dòng)其對(duì)事物的決策。正如我們前面所說(shuō),發(fā)現(xiàn)I型數(shù)據(jù)質(zhì)量問(wèn)題是比較簡(jiǎn)單、廉價(jià)和快速的。但如果企業(yè)的工作業(yè)務(wù)還沒(méi)有采用某種數(shù)據(jù)質(zhì)量軟件來(lái)解決I型數(shù)據(jù)質(zhì)量問(wèn)題的話,那現(xiàn)在也應(yīng)該著手考慮了,因?yàn)檫@樣才可能避免將來(lái)出現(xiàn)的資源浪費(fèi)、損害品牌效應(yīng)和來(lái)自大眾的誤解。
而對(duì)于第II類數(shù)據(jù)問(wèn)題,關(guān)鍵是要理解它為什么會(huì)發(fā)生,并采取措施以防止它的發(fā)生。從日常工作中,處事的變通以及員工疏忽常導(dǎo)致數(shù)據(jù)的質(zhì)量不佳。隨著時(shí)間的推移,資源分配失當(dāng)也會(huì)增加II型數(shù)據(jù)問(wèn)題的增加。而改善它的費(fèi)用也會(huì)成倍增加,因?yàn)槟阈枰邆鋵<业难酃夥侥茉诿C5臄?shù)據(jù)中找到它的存在。
其實(shí),發(fā)現(xiàn)并解決這兩類問(wèn)題在當(dāng)下已不是不可能的事了。會(huì)變得越來(lái)越容易。很多數(shù)據(jù)質(zhì)量供應(yīng)商們也在不斷尋找新的方法,相信在不遠(yuǎn)的將來(lái),得到高質(zhì)量的數(shù)據(jù)會(huì)變得越來(lái)輕松,越來(lái)越簡(jiǎn)單。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03