99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀數(shù)據(jù)質(zhì)量分析
數(shù)據(jù)質(zhì)量分析
2017-07-16
收藏

數(shù)據(jù)質(zhì)量分析

數(shù)據(jù)分析數(shù)據(jù)挖掘之前,我們首先要做的就是對數(shù)據(jù)進行預(yù)處理,將那些所謂的“臟數(shù)據(jù)”給去除掉,提高數(shù)據(jù)分析和挖掘的準(zhǔn)確性和有效性。也就是說數(shù)據(jù)質(zhì)量分析是數(shù)據(jù)挖掘和數(shù)據(jù)分析的重要開頭。只有正確有效的數(shù)據(jù)才能挖掘出真正隱藏的信息。否則則會導(dǎo)致很嚴(yán)重的損失。說到數(shù)據(jù)預(yù)處理,他有多種方法,比如:數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)變換,數(shù)據(jù)歸約等。。其中數(shù)據(jù)清理主要指的是對原始數(shù)據(jù)集中的無關(guān)數(shù)據(jù),重復(fù)數(shù)據(jù),平滑噪音數(shù)據(jù),篩選掉與挖掘主題無關(guān)的數(shù)據(jù),處理缺省值,異常值等。這些數(shù)據(jù)處理技術(shù)在數(shù)據(jù)挖掘之前使用,大大提高了數(shù)據(jù)挖掘模式的質(zhì)量,降低實際挖掘所需要的時間。

我們再處理缺失值的時候,一般有三種方法:

①刪除記錄

②數(shù)據(jù)插補

③不處理
  其中刪除記錄這種方法最有效,但有很大的局限性,它以減少了歷史數(shù)據(jù)為代價來換取數(shù)據(jù)的完備,這樣會造成資源的大量浪費,也可能丟棄了大量隱藏在這些記錄里面的信息,特別是在數(shù)據(jù)集本來就少的情況下,這種方法會嚴(yán)重影響到分析的客觀性和正確性,失去了數(shù)據(jù)挖掘的意義。因此在大多數(shù)情況下,我們一般要使用算法對原始數(shù)據(jù)集中的那些缺失值進行插補,常用算法有拉格朗日插值和牛頓插值法。但在一般情況,有一些模型可以將缺失值視為一種特殊的取值,允許直接在含義缺失值的數(shù)據(jù)上面進行建模。
      在處理異常值的時候,最簡單粗暴易行的方法就是直接刪除異常值的紀(jì)律,但同時缺點也很明顯,在數(shù)據(jù)集本來就少的情況下,不但會嚴(yán)重造成數(shù)據(jù)樣本量不足,影響到分析的客觀性和正確性,也很有可能改變變量的原有分布,對分析結(jié)果產(chǎn)生一定誤差。比較好的方法就是利用現(xiàn)有變量的信息,對異常值進行填報,我應(yīng)該首先分析異常值出現(xiàn)的原因,再判斷異常值是否應(yīng)該丟棄,如果是正確的數(shù)據(jù),那么我們就可以直接在這些異常值的數(shù)據(jù)值上進行挖掘建模。

其中那些“臟數(shù)據(jù)”有

1.缺失值

2.不一致的值

3.重復(fù)數(shù)據(jù),以及含有特殊符號(如#,*,¥等)的數(shù)據(jù)

4.異常值

5.高維度

產(chǎn)生“臟數(shù)據(jù)”的原因:

來源比較多,比如數(shù)據(jù)采集設(shè)備出現(xiàn)故障,存儲介質(zhì),傳輸媒體等的故障,人為的輸入錯誤或理解錯誤導(dǎo)致的。

異常值分析:

異常值也稱為離群點,異常值分析也稱為離群點分析,這個有的時候和我們以前說的極值類似,他會嚴(yán)重影響我們分析,比如平均值。

(1)簡單統(tǒng)計量分析
           首先對變量做一個描述性分析,查看那些不合理的數(shù)據(jù)。這個時候我們可以通過最大值,和最小值來大體判斷,也就是極值。比如說一個人的      身高是450cm,這個肯定就是異常值。

(2)3σ原則
           這種方法,多是該數(shù)據(jù)服從正態(tài)分布,在該原則下,異常值被定義為一組測定值中與平均值的偏差超過三倍標(biāo)準(zhǔn)差的值。在正態(tài)分布下,距離          平均值3σ之外的值出現(xiàn)的概率為
       P(|x-μ|>3σ)<=0.003,屬于極個別的小概率事件。

(3)箱形圖分析
        箱形圖又稱盒須圖,盒式圖,或箱線圖,是一種用作顯示一組數(shù)據(jù)分散情況資料的統(tǒng)計圖,常用于品質(zhì)管理。箱形圖提供了識別異常值的標(biāo) 準(zhǔn):異常值通常被定義為小于QL—1.5IQR或大于QU+1.5IQR的值。其中QL稱為下四分位數(shù),表示全部觀察值中有四分之一的數(shù)據(jù)比它小;QU稱 為上 四分位數(shù),表示全部觀察值中有四分之一的數(shù)據(jù)值比他大;IQR稱為四分位數(shù)間距,是四分位數(shù)QU和QL的差值,期間包含了全部觀察值          的一半。

數(shù)據(jù)特征分析:

我們可以通過對數(shù)據(jù)進行質(zhì)量分析后,繪圖制表,計算特征值等手段進行數(shù)據(jù)的特征分析。分布分析能夠揭示數(shù)據(jù)的分布特征和分別類型。如果我們想了解一些定量的數(shù)據(jù)的分布形式是對稱的還是非對稱的,存在一些極值,我們就可以做頻率分別直方圖,頻率分布表,繪制莖葉圖等進行直觀分析。對于那些定性數(shù)據(jù),可以做扇形圖(餅形圖)和條形圖來直觀的顯示分別情況,通過圖表可以很方便的觀察出來。

定量數(shù)據(jù)的分布分析方法:

步驟:

(1)求出極值,計算極差

(2)決定組距和組數(shù)(繪制頻率分析時的關(guān)鍵)

(3)決定分點

(4)制出頻率分別表

(5)繪制頻率分布直方圖

遵循原則:

(1) 各組之間必須是相互排斥的

(2) 各組必須將所有的數(shù)據(jù)包含在內(nèi)(不包含“臟數(shù)據(jù)”)

(3) 各組的組寬最好相等,這樣便于觀察。

對比分析

顧名思義,對比分析就是把兩個相互聯(lián)系的指標(biāo)進行比較,比較適合用于指標(biāo)間的橫縱向比較,時間序列的比較分析。對比分析有一下兩種分析形式:

(1)絕對值比較

(2)相對數(shù)比較

第一種是利用絕對數(shù)(通常反映了一定時間,地點條件下的規(guī)模,水平,帶有各種單位,比如某個區(qū)域的糧食總產(chǎn)量,,社會消費品零售總額等)進行對比,從而尋找差異的一種方法。第二種利用相對數(shù)(通常是指以增幅,增長速度,指數(shù),倍數(shù)等表現(xiàn)形式出現(xiàn),比如各類價格的指數(shù),GDP增長率,相對數(shù)一般都是對絕對數(shù)進行加工后取得的)比較,用來反映客觀現(xiàn)象之間數(shù)量聯(lián)系程度的綜合指標(biāo)。相對數(shù)有可以分為以下幾種:(1)結(jié)構(gòu)相對數(shù)(2)比例相對數(shù)(3)比較相對數(shù)(4)強度相對數(shù)(5)計劃完成相對數(shù)(6)動態(tài)相對數(shù))

集中趨勢度量

(1)均值 (2)中位數(shù) (3)眾數(shù)

離中趨勢度量

(1) 極差

(2) 標(biāo)準(zhǔn)差

(3) 變異系數(shù)

它是度量 標(biāo)準(zhǔn)差相對于均值的離中趨勢,主要用來比較兩個或多個具有不同單位或不同波動幅度的數(shù)據(jù)集的離中趨勢。

(4)四分位數(shù)間距

四分位數(shù)中間包含了全部觀察值的一半,其值越大,說明數(shù)據(jù)的變異程度越大,反之變異程度越小。

周期性分析

周期性分析是探索某個變量是否隨著時間變化而呈現(xiàn)出某種規(guī)律性變化。比如對用電量的預(yù)測。這個時間尺度有長,有短。長的有季節(jié)性周期性趨勢,短的有周度周期性趨勢等。

貢獻(xiàn)度分析

貢獻(xiàn)度分析又稱為帕累托分析,他的原理是帕累托法則又稱20/80定律,為什么稱為20/80定律,因為對于一個公司來說,80%的利潤來自20%最暢銷的產(chǎn)品,而其他80%的產(chǎn)品只產(chǎn)生了20%的利潤,表示把相同的投入成本放在不同的對象就會產(chǎn)生不同的效益。

相關(guān)性分析

(1) 直接繪制散點圖

(2) 繪制散點圖矩陣

計算相關(guān)系數(shù)

(1) Person相關(guān)系數(shù)

(2) Spearman秩相關(guān)系數(shù)

Person線性相關(guān)系數(shù)要求連續(xù)變量的取值服從正態(tài)分布,不服從正態(tài)分布的變量,分類或等級變量之間的關(guān)聯(lián)性可采用Spearman秩相關(guān)系數(shù),也可以成為等級相關(guān)系數(shù)來描述。
Ri代表xi的秩次,Qi代表yi的秩次。

(3) 只要兩個變量具有嚴(yán)格單調(diào)的函數(shù)關(guān)系,那么他們一定是完全Spearman相關(guān),Person相關(guān)只有在變量具有線性關(guān)系時才完全相關(guān)的。在正態(tài)分布下Person相關(guān)系數(shù)和Spearman秩相關(guān)系數(shù)在效率上面是等價的,但對于連續(xù)測量的數(shù)據(jù),更適合Person相關(guān)系數(shù)進行分析。

判定系數(shù)

判定系數(shù)是相關(guān)系數(shù)的平方,r^2 來表示,一般用來衡量回歸方程對y的解釋程度,它的取值范圍是0<=r^2<=1,當(dāng)它越接近1表明x與y的相關(guān)性越高,接近0的話表示兩個變量之間幾乎沒有相關(guān)性。


數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務(wù)器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }