99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀利用SPSS箱線圖與Z分數(shù)法判別異常值的比較
利用SPSS箱線圖與Z分數(shù)法判別異常值的比較
2017-10-24
收藏

利用SPSS箱線圖與Z分數(shù)法判別異常值的比較

箱線圖前提不要求正態(tài)分布,而Z分數(shù)法前提要求正態(tài)分布


箱線圖(Boxplot)也稱箱須圖(Box-whisker Plot),是利用數(shù)據(jù)中的五個統(tǒng)計量:最小值、第一四分位數(shù)、中位數(shù)、第三四分位數(shù)與最大值來描述數(shù)據(jù)的一種方法,它也可以粗略地看出數(shù)據(jù)是否具有有對稱性,分布的分散程度等信息,特別可以用于對幾個樣本的比較。


簡單箱線圖由五部分組成,分別是最小值、中位數(shù)、最大值和兩個四分位數(shù)。

第一四分位數(shù)Q1:又稱“下四分位數(shù)”,等于該樣本中所有數(shù)值由小到大排列后第25%的數(shù)字。

中位數(shù)F:又稱第二四分位數(shù)(Q2),又稱“中位數(shù)”,等于該樣本中所有數(shù)值由小到大排列后第50%的數(shù)字。

第三四分位數(shù):又稱“上四分位數(shù)”,等于該樣本中所有數(shù)值由小到大排列后第75%的數(shù)字。


箱線圖判斷異常值的標準以四分位數(shù)和四分位距為基礎。
   四分位距(QR, Quartile range):上四分位數(shù)與下四分位數(shù)之間的間距,即上四分位數(shù)減去下四分位數(shù)。

F代表中位數(shù),QR代表四分位距。

在Q3+1.5QR(四分位距)和Q1-1.5QR處畫兩條與中位線一樣的線段,這兩條線段為異常值截斷點,稱其為內限。

在F(中位數(shù))+3QR和F-3QR處畫兩條線段,稱其為外限。


箱線圖功能:

1.直觀明了地識別數(shù)據(jù)批中的異常值

箱線圖為我們提供了識別異常值的一個標準:異常值被定義為小于Q1-1.5IQR或大于Q3+1.5IQR的值。雖然這種標準有點任意性,但它來源于經(jīng)驗判斷,經(jīng)驗表明它在處理需要特別注意的數(shù)據(jù)方面表現(xiàn)不錯。這與識別異常值的經(jīng)典方法有些不同。眾所周知,基于正態(tài)分布的3σ法則或z分數(shù)方法是以假定數(shù)據(jù)服從正態(tài)分布為前提的,但實際數(shù)據(jù)往往并不嚴格服從正態(tài)分布。它們判斷異常值的標準是以計算數(shù)據(jù)批的均值和標準差為基礎的,而均值和標準差的耐抗性極小,異常值本身會對它們產(chǎn)生較大影響,這樣產(chǎn)生的異常值個數(shù)不會多于總數(shù)0.7%。顯然,應用這種方法于非正態(tài)分布數(shù)據(jù)中判斷異常值,其有效性是有限的。箱線圖的繪制依靠實際數(shù)據(jù),不需要事先假定數(shù)據(jù)服從特定的分布形式,沒有對數(shù)據(jù)作任何限制性要求,它只是真實直觀地表現(xiàn)數(shù)據(jù)形狀的本來面貌;另一方面,箱線圖判斷異常值的標準以四分位數(shù)和四分位距為基礎,四分位數(shù)具有一定的耐抗性,多達25%的數(shù)據(jù)可以變得任意遠而不會很大地擾動四分位數(shù),所以異常值不能對這個標準施加影響,箱線圖識別異常值的結果比較客觀。由此可見,箱線圖在識別異常值方面有一定的優(yōu)越性。

2.利用箱線圖判斷數(shù)據(jù)批的偏態(tài)和尾重

比較標準正態(tài)分布、不同自由度的t分布和非對稱分布數(shù)據(jù)的箱線圖的特征,可以發(fā)現(xiàn):對于標準正態(tài)分布的大樣本,只有 0.7%的值是異常值,中位數(shù)位于上下四分位數(shù)的中央,箱線圖的方盒關于中位線對稱。選取不同自由度的t分布的大樣本,代表對稱重尾分布,當t分布的自由度越小,尾部越重,就有越大的概率觀察到異常值。以卡方分布作為非對稱分布的例子進行分析,發(fā)現(xiàn)當卡方分布的自由度越小,異常值出現(xiàn)于一側的概率越大,中位數(shù)也越偏離上下四分位數(shù)的中心位置,分布偏態(tài)性越強。異常值集中在較小值一側,則分布呈現(xiàn)左偏態(tài);;異常值集中在較大值一側,則分布呈現(xiàn)右偏態(tài)。下表列出了幾種分布的樣本數(shù)據(jù)箱線圖的特征(樣本數(shù)據(jù)由SAS的隨機數(shù)生成函數(shù)自動生成),驗證了上述規(guī)律。這個規(guī)律揭示了數(shù)據(jù)批分布偏態(tài)和尾重的部分信息,盡管它們不能給出偏態(tài)和尾重程度的精確度量,但可作為我們粗略估計的依據(jù)。

3.利用箱線圖比較幾批數(shù)據(jù)的形狀

同一數(shù)軸上,幾批數(shù)據(jù)的箱線圖并行排列,幾批數(shù)據(jù)的中位數(shù)、尾長、異常值、分布區(qū)間等形狀信息便昭然若揭。在一批數(shù)據(jù)中,哪幾個數(shù)據(jù)點出類拔萃,哪些數(shù)據(jù)點表現(xiàn)不及一般,這些數(shù)據(jù)點放在同類其它群體中處于什么位置,可以通過比較各箱線圖的異常值看出。各批數(shù)據(jù)的四分位距大小,正常值的分布是集中還是分散,觀察各方盒和線段的長短便可明了。每批數(shù)據(jù)分布的偏態(tài)如何,分析中位線和異常值的位置也可估計出來。還有一些箱線圖的變種,使數(shù)據(jù)批間的比較更加直觀明白。例如有一種可變寬度的箱線圖,使箱的寬度正比于批量的平方根,從而使批量大的數(shù)據(jù)批有面積大的箱,面積大的箱有適當?shù)囊曈X效果。如果對同類群體的幾批數(shù)據(jù)的箱線圖進行比較,分析評價,便是常模參照解釋方法的可視圖示;如果把受測者數(shù)據(jù)批的箱線圖與外在效標數(shù)據(jù)批的箱線圖比較分析,便是效標參照解釋的可視圖示。箱線圖結合這些分析方法用于質量管理、人事測評、探索性數(shù)據(jù)分析等統(tǒng)計分析活動中去,有助于分析過程的簡便快捷,其作用顯而易見。


箱線圖應用舉例:

現(xiàn)有某直銷中心30名員工的工資測算數(shù)據(jù)兩批,第一批為工資調整前的數(shù)據(jù),第二批為工資調整后的數(shù)據(jù),繪出它們的箱線圖(如下圖),進行比較,可以很容易地得出:工資調整前,總體水平在 752元左右,四分位距為307.5,沒有異常值。經(jīng)過調整后,箱線圖顯示,第2、29、10、24、27號為溫和的異常值,第26、30、28號為極端的異常值。為什么會出現(xiàn)異常值呢?經(jīng)過進一步分析知道,第2、29、10、24號員工由于技能強、工齡長、積累貢獻大、表現(xiàn)較好,勞苦功高,理應得到較高的報酬;第27、26、30、28號職工則因為技能偏低、工齡短、積累貢獻小且表現(xiàn)較差,得到的工資較低,甚至連一般水平也難以達到。這體現(xiàn)了工資調整的獎優(yōu)罰劣原則。另外,調整后工資總體水平比調整前高出270元,四分位距為106,工資分布比調整前更加集中,在合適的范圍內既拉開了差距,又不至于差距太懸殊,還針對特殊情況進行了特殊處理。這種工資分布具有激勵作用,可以說工資調整達到預期目的。

箱線圖美中不足之處在于它不能提供關于數(shù)據(jù)分布偏態(tài)和尾重程度的精確度量;對于批量較大的數(shù)據(jù)批,箱線圖反映的形狀信息更加模糊;用中位數(shù)代表總體平均水平有一定的局限性等等。所以,應用箱線圖最好結合其它描述統(tǒng)計工具如均值、標準差、偏度、分布函數(shù)等來描述數(shù)據(jù)批的分布形狀。

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師考試動態(tài)
數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調用 initGeetest 進行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調,回調的第一個參數(shù)驗證碼對象,之后可以使用它調用相應的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }