99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁(yè)精彩閱讀做數(shù)據(jù)分析,首先解決這兩類數(shù)據(jù)質(zhì)量問(wèn)題
做數(shù)據(jù)分析,首先解決這兩類數(shù)據(jù)質(zhì)量問(wèn)題
2017-12-04
收藏

做數(shù)據(jù)分析,首先解決這兩類數(shù)據(jù)質(zhì)量問(wèn)題

為了能夠系統(tǒng)化地、高效地解決出現(xiàn)的任何問(wèn)題,我們必須學(xué)會(huì)將這些問(wèn)題分而治之。畢竟,知己知彼方是解決問(wèn)題的首重至要。由此,我們才會(huì)發(fā)現(xiàn)解決之道就在其中。而對(duì)于提高數(shù)據(jù)質(zhì)量同樣適用:每一個(gè)解決問(wèn)題的方法都有不同的階段與角度。

當(dāng)一個(gè)數(shù)據(jù)質(zhì)量改進(jìn)程序在啟動(dòng)時(shí),僅知道數(shù)據(jù)庫(kù)中有多少錯(cuò)誤計(jì)算或重復(fù)錄入是遠(yuǎn)遠(yuǎn)不夠的。不止于此,我們還需要知道不同類型的錯(cuò)誤在收集的資源中是如何分配的。

據(jù) Jim barker 一篇很有意思的博客所述,數(shù)據(jù)質(zhì)量被分解成兩種不同類型。而在本文中,我會(huì)帶領(lǐng)大家仔細(xì)區(qū)分這些“類型”有何不同,并且如何利用這些“類型”在開發(fā)預(yù)算中確保我們的優(yōu)勢(shì)資源放在何處。

數(shù)據(jù)類型

被譽(yù)為“數(shù)據(jù)博士”的Jim barker,借用了一個(gè)簡(jiǎn)單的醫(yī)學(xué)概念來(lái)定義數(shù)據(jù)質(zhì)量問(wèn)題。 在他的博客中介紹了如何將這兩種“類型”組合在一起,并且成功激發(fā)了那些一直糾結(jié)于找到在數(shù)據(jù)庫(kù)中拉低數(shù)據(jù)質(zhì)量的幺蛾子的數(shù)據(jù)分析師們的興趣。

I型數(shù)據(jù)質(zhì)量問(wèn)題我們可以使用自動(dòng)化工具檢測(cè)到。II型數(shù)據(jù)質(zhì)量問(wèn)題就非常隱秘了。大家都知道它是存在的,但它看不見(jiàn)摸不著,更處理不了,因?yàn)樗枰旁谔厥馇榫巢拍鼙粰z測(cè)到。

它們之間的區(qū)別簡(jiǎn)而言之可歸納為如下幾點(diǎn):

型數(shù)據(jù)質(zhì)量問(wèn)題首先需要“知其然”才能來(lái)檢測(cè)數(shù)據(jù)的完整性、一致性、唯一性和有效性。這些屬性靠數(shù)據(jù)質(zhì)量軟件甚至手動(dòng)很好地找到。你不需要有很多的背景知識(shí),或者數(shù)據(jù)分析經(jīng)驗(yàn)。只要按照4個(gè)屬性驗(yàn)證它的存在,就可以判定它錯(cuò)誤的。例如,如果我們?cè)谛詣e領(lǐng)域插入一個(gè)3,我們就可以判定它到底是不是一個(gè)有效值。

型數(shù)據(jù)質(zhì)量問(wèn)題需要“知其所以然”來(lái)檢測(cè)時(shí)效性、一致性和準(zhǔn)確性屬性。需要研究能力、洞察力和經(jīng)驗(yàn),而不是簡(jiǎn)簡(jiǎn)單單就可以找得出來(lái)的。這些數(shù)據(jù)集經(jīng)常從表面上看起來(lái)沒(méi)有問(wèn)題。但幺蛾子往往存在于細(xì)節(jié)中,需要時(shí)間去發(fā)現(xiàn)。Jim舉的例子就是一份退休人員的雇傭記錄。如果我們不知道他們?cè)缫淹诵莸脑?,是看不出?lái)這個(gè)數(shù)據(jù)是錯(cuò)的。

所以,解決這些數(shù)據(jù)質(zhì)量問(wèn)題的關(guān)鍵就是需要一個(gè)復(fù)雜的、戰(zhàn)略化的方法,而非孤立的、片面的來(lái)看問(wèn)題。一旦數(shù)據(jù)質(zhì)量不好,我們就需要尋求自動(dòng)化與人工的方式才能解決這個(gè)問(wèn)題了,真可謂是“屋漏偏逢連夜雨”啊。

成本調(diào)整

所以,我們?nèi)绾谓鉀QI型和II型數(shù)據(jù)質(zhì)量問(wèn)題呢?處理它們所花費(fèi)的費(fèi)用是可比的,還是完全不同的?

要記住重要的一點(diǎn)是,I型數(shù)據(jù)的驗(yàn)證問(wèn)題可以在邏輯上定義,這意味著我們可以靠編寫軟件來(lái)查找并顯示它。軟件自動(dòng)修復(fù)的速度快、成本低,甚至配合手動(dòng)審查就可以完成??紤]到I型數(shù)據(jù)質(zhì)量問(wèn)題實(shí)際上是作為表格內(nèi)字段型的驗(yàn)證,一旦解決了表格字段的問(wèn)題,I型數(shù)據(jù)質(zhì)量問(wèn)題實(shí)際上也就解決了。

根據(jù)我們以往的經(jīng)驗(yàn):I型數(shù)據(jù)基本涵蓋了80%的數(shù)據(jù)質(zhì)量問(wèn)題,但消耗了我們20%的經(jīng)費(fèi)成本。

第二類數(shù)據(jù)問(wèn)題往往需要多方的輸入,以便發(fā)現(xiàn)、標(biāo)記和根除。雖然我們客戶關(guān)系管理系統(tǒng)中的每個(gè)人都有購(gòu)買日期,但購(gòu)買日期可能不正確,或者與發(fā)票或發(fā)貨清單不符。只有專家才能通過(guò)仔細(xì)核查其內(nèi)容來(lái)解決問(wèn)題并手動(dòng)改進(jìn)客戶關(guān)系管理系統(tǒng)。

通常情況下,企業(yè)很難做到資源的合理分配,原因有二,特別是企業(yè)處于快速增長(zhǎng)階段;或者處于人才流失的時(shí)候。你別看這些II類問(wèn)題較少,可能僅占數(shù)據(jù)問(wèn)題剩余的20%,但它們很有可能需要消耗超過(guò)80%的成本預(yù)算。所以,如果當(dāng)企業(yè)處于人才大量流失,卻又對(duì)此無(wú)能為力的時(shí)候。你會(huì)發(fā)現(xiàn)第二類數(shù)據(jù)問(wèn)題更難處理,因?yàn)槿斯そ鉀Q的途徑已不復(fù)存在了。

提高精確程度

為了提高數(shù)據(jù)的準(zhǔn)確性,我們必須將I型和II型數(shù)據(jù)問(wèn)題作為單獨(dú)的,但同時(shí)存在的問(wèn)題進(jìn)行研究。I類型數(shù)據(jù)質(zhì)量的挑戰(zhàn)可以呈現(xiàn)快速獲勝,但第II類問(wèn)題提出了一個(gè)挑戰(zhàn),必須依靠人類的專業(yè)知識(shí)才可以解決。

隨著時(shí)間的推移,數(shù)據(jù)庫(kù)會(huì)超過(guò)使用期限。為保其時(shí)效性,這需要持續(xù)不斷的努力。數(shù)據(jù)可以在數(shù)據(jù)庫(kù)中進(jìn)行清洗,或在使用階段進(jìn)行清理,但由于如導(dǎo)入/導(dǎo)出、損壞、手動(dòng)編輯、人為導(dǎo)致錯(cuò)誤等多種原因,仍然要注意I型錯(cuò)誤的發(fā)生。第II類數(shù)據(jù)問(wèn)題在這階段自然而然地發(fā)生,因?yàn)榫退銛?shù)據(jù)經(jīng)過(guò)驗(yàn)證和審查之后看起來(lái)正確,但對(duì)于現(xiàn)在來(lái)說(shuō)仍有可能是不正確的,因?yàn)榇藭r(shí)已非彼時(shí),數(shù)據(jù)的使用環(huán)境改變了。

確保數(shù)據(jù)的完整

數(shù)據(jù)的完整會(huì)有助于我們觀察整個(gè)事物的全貌并推動(dòng)其對(duì)事物的決策。正如我們前面所說(shuō),發(fā)現(xiàn)I型數(shù)據(jù)質(zhì)量問(wèn)題是比較簡(jiǎn)單、廉價(jià)和快速的。但如果企業(yè)的工作業(yè)務(wù)還沒(méi)有采用某種數(shù)據(jù)質(zhì)量軟件來(lái)解決I型數(shù)據(jù)質(zhì)量問(wèn)題的話,那現(xiàn)在也應(yīng)該著手考慮了,因?yàn)檫@樣才可能避免將來(lái)出現(xiàn)的資源浪費(fèi)、損害品牌效應(yīng)和來(lái)自大眾的誤解。

而對(duì)于第II類數(shù)據(jù)問(wèn)題,關(guān)鍵是要理解它為什么會(huì)發(fā)生,并采取措施以防止它的發(fā)生。從日常工作中,處事的變通以及員工疏忽常導(dǎo)致數(shù)據(jù)的質(zhì)量不佳。隨著時(shí)間的推移,資源分配失當(dāng)也會(huì)增加II型數(shù)據(jù)問(wèn)題的增加。而改善它的費(fèi)用也會(huì)成倍增加,因?yàn)槟阈枰邆鋵<业难酃夥侥茉诿C5臄?shù)據(jù)中找到它的存在。

其實(shí),發(fā)現(xiàn)并解決這兩類問(wèn)題在當(dāng)下已不是不可能的事了。會(huì)變得越來(lái)越容易。很多數(shù)據(jù)質(zhì)量供應(yīng)商們也在不斷尋找新的方法,相信在不遠(yuǎn)的將來(lái),得到高質(zhì)量的數(shù)據(jù)會(huì)變得越來(lái)輕松,越來(lái)越簡(jiǎn)單。


數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說(shuō)明請(qǐng)參見(jiàn):http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }