
利用SPSS箱線(xiàn)圖與Z分?jǐn)?shù)法判別異常值的比較
箱線(xiàn)圖前提不要求正態(tài)分布,而Z分?jǐn)?shù)法前提要求正態(tài)分布。
箱線(xiàn)圖(Boxplot)也稱(chēng)箱須圖(Box-whisker Plot),是利用數(shù)據(jù)中的五個(gè)統(tǒng)計(jì)量:最小值、第一四分位數(shù)、中位數(shù)、第三四分位數(shù)與最大值來(lái)描述數(shù)據(jù)的一種方法,它也可以粗略地看出數(shù)據(jù)是否具有有對(duì)稱(chēng)性,分布的分散程度等信息,特別可以用于對(duì)幾個(gè)樣本的比較。
簡(jiǎn)單箱線(xiàn)圖由五部分組成,分別是最小值、中位數(shù)、最大值和兩個(gè)四分位數(shù)。
第一四分位數(shù)Q1:又稱(chēng)“下四分位數(shù)”,等于該樣本中所有數(shù)值由小到大排列后第25%的數(shù)字。
中位數(shù)F:又稱(chēng)第二四分位數(shù)(Q2),又稱(chēng)“中位數(shù)”,等于該樣本中所有數(shù)值由小到大排列后第50%的數(shù)字。
第三四分位數(shù):又稱(chēng)“上四分位數(shù)”,等于該樣本中所有數(shù)值由小到大排列后第75%的數(shù)字。
箱線(xiàn)圖判斷異常值的標(biāo)準(zhǔn)以四分位數(shù)和四分位距為基礎(chǔ)。
四分位距(QR, Quartile range):上四分位數(shù)與下四分位數(shù)之間的間距,即上四分位數(shù)減去下四分位數(shù)。
F代表中位數(shù),QR代表四分位距。
在Q3+1.5QR(四分位距)和Q1-1.5QR處畫(huà)兩條與中位線(xiàn)一樣的線(xiàn)段,這兩條線(xiàn)段為異常值截?cái)帱c(diǎn),稱(chēng)其為內(nèi)限。
在F(中位數(shù))+3QR和F-3QR處畫(huà)兩條線(xiàn)段,稱(chēng)其為外限。
箱線(xiàn)圖功能:
1.直觀明了地識(shí)別數(shù)據(jù)批中的異常值
箱線(xiàn)圖為我們提供了識(shí)別異常值的一個(gè)標(biāo)準(zhǔn):異常值被定義為小于Q1-1.5IQR或大于Q3+1.5IQR的值。雖然這種標(biāo)準(zhǔn)有點(diǎn)任意性,但它來(lái)源于經(jīng)驗(yàn)判斷,經(jīng)驗(yàn)表明它在處理需要特別注意的數(shù)據(jù)方面表現(xiàn)不錯(cuò)。這與識(shí)別異常值的經(jīng)典方法有些不同。眾所周知,基于正態(tài)分布的3σ法則或z分?jǐn)?shù)方法是以假定數(shù)據(jù)服從正態(tài)分布為前提的,但實(shí)際數(shù)據(jù)往往并不嚴(yán)格服從正態(tài)分布。它們判斷異常值的標(biāo)準(zhǔn)是以計(jì)算數(shù)據(jù)批的均值和標(biāo)準(zhǔn)差為基礎(chǔ)的,而均值和標(biāo)準(zhǔn)差的耐抗性極小,異常值本身會(huì)對(duì)它們產(chǎn)生較大影響,這樣產(chǎn)生的異常值個(gè)數(shù)不會(huì)多于總數(shù)0.7%。顯然,應(yīng)用這種方法于非正態(tài)分布數(shù)據(jù)中判斷異常值,其有效性是有限的。箱線(xiàn)圖的繪制依靠實(shí)際數(shù)據(jù),不需要事先假定數(shù)據(jù)服從特定的分布形式,沒(méi)有對(duì)數(shù)據(jù)作任何限制性要求,它只是真實(shí)直觀地表現(xiàn)數(shù)據(jù)形狀的本來(lái)面貌;另一方面,箱線(xiàn)圖判斷異常值的標(biāo)準(zhǔn)以四分位數(shù)和四分位距為基礎(chǔ),四分位數(shù)具有一定的耐抗性,多達(dá)25%的數(shù)據(jù)可以變得任意遠(yuǎn)而不會(huì)很大地?cái)_動(dòng)四分位數(shù),所以異常值不能對(duì)這個(gè)標(biāo)準(zhǔn)施加影響,箱線(xiàn)圖識(shí)別異常值的結(jié)果比較客觀。由此可見(jiàn),箱線(xiàn)圖在識(shí)別異常值方面有一定的優(yōu)越性。
2.利用箱線(xiàn)圖判斷數(shù)據(jù)批的偏態(tài)和尾重
比較標(biāo)準(zhǔn)正態(tài)分布、不同自由度的t分布和非對(duì)稱(chēng)分布數(shù)據(jù)的箱線(xiàn)圖的特征,可以發(fā)現(xiàn):對(duì)于標(biāo)準(zhǔn)正態(tài)分布的大樣本,只有 0.7%的值是異常值,中位數(shù)位于上下四分位數(shù)的中央,箱線(xiàn)圖的方盒關(guān)于中位線(xiàn)對(duì)稱(chēng)。選取不同自由度的t分布的大樣本,代表對(duì)稱(chēng)重尾分布,當(dāng)t分布的自由度越小,尾部越重,就有越大的概率觀察到異常值。以卡方分布作為非對(duì)稱(chēng)分布的例子進(jìn)行分析,發(fā)現(xiàn)當(dāng)卡方分布的自由度越小,異常值出現(xiàn)于一側(cè)的概率越大,中位數(shù)也越偏離上下四分位數(shù)的中心位置,分布偏態(tài)性越強(qiáng)。異常值集中在較小值一側(cè),則分布呈現(xiàn)左偏態(tài);;異常值集中在較大值一側(cè),則分布呈現(xiàn)右偏態(tài)。下表列出了幾種分布的樣本數(shù)據(jù)箱線(xiàn)圖的特征(樣本數(shù)據(jù)由SAS的隨機(jī)數(shù)生成函數(shù)自動(dòng)生成),驗(yàn)證了上述規(guī)律。這個(gè)規(guī)律揭示了數(shù)據(jù)批分布偏態(tài)和尾重的部分信息,盡管它們不能給出偏態(tài)和尾重程度的精確度量,但可作為我們粗略估計(jì)的依據(jù)。
3.利用箱線(xiàn)圖比較幾批數(shù)據(jù)的形狀
同一數(shù)軸上,幾批數(shù)據(jù)的箱線(xiàn)圖并行排列,幾批數(shù)據(jù)的中位數(shù)、尾長(zhǎng)、異常值、分布區(qū)間等形狀信息便昭然若揭。在一批數(shù)據(jù)中,哪幾個(gè)數(shù)據(jù)點(diǎn)出類(lèi)拔萃,哪些數(shù)據(jù)點(diǎn)表現(xiàn)不及一般,這些數(shù)據(jù)點(diǎn)放在同類(lèi)其它群體中處于什么位置,可以通過(guò)比較各箱線(xiàn)圖的異常值看出。各批數(shù)據(jù)的四分位距大小,正常值的分布是集中還是分散,觀察各方盒和線(xiàn)段的長(zhǎng)短便可明了。每批數(shù)據(jù)分布的偏態(tài)如何,分析中位線(xiàn)和異常值的位置也可估計(jì)出來(lái)。還有一些箱線(xiàn)圖的變種,使數(shù)據(jù)批間的比較更加直觀明白。例如有一種可變寬度的箱線(xiàn)圖,使箱的寬度正比于批量的平方根,從而使批量大的數(shù)據(jù)批有面積大的箱,面積大的箱有適當(dāng)?shù)囊曈X(jué)效果。如果對(duì)同類(lèi)群體的幾批數(shù)據(jù)的箱線(xiàn)圖進(jìn)行比較,分析評(píng)價(jià),便是常模參照解釋方法的可視圖示;如果把受測(cè)者數(shù)據(jù)批的箱線(xiàn)圖與外在效標(biāo)數(shù)據(jù)批的箱線(xiàn)圖比較分析,便是效標(biāo)參照解釋的可視圖示。箱線(xiàn)圖結(jié)合這些分析方法用于質(zhì)量管理、人事測(cè)評(píng)、探索性數(shù)據(jù)分析等統(tǒng)計(jì)分析活動(dòng)中去,有助于分析過(guò)程的簡(jiǎn)便快捷,其作用顯而易見(jiàn)。
箱線(xiàn)圖應(yīng)用舉例:
現(xiàn)有某直銷(xiāo)中心30名員工的工資測(cè)算數(shù)據(jù)兩批,第一批為工資調(diào)整前的數(shù)據(jù),第二批為工資調(diào)整后的數(shù)據(jù),繪出它們的箱線(xiàn)圖(如下圖),進(jìn)行比較,可以很容易地得出:工資調(diào)整前,總體水平在 752元左右,四分位距為307.5,沒(méi)有異常值。經(jīng)過(guò)調(diào)整后,箱線(xiàn)圖顯示,第2、29、10、24、27號(hào)為溫和的異常值,第26、30、28號(hào)為極端的異常值。為什么會(huì)出現(xiàn)異常值呢?經(jīng)過(guò)進(jìn)一步分析知道,第2、29、10、24號(hào)員工由于技能強(qiáng)、工齡長(zhǎng)、積累貢獻(xiàn)大、表現(xiàn)較好,勞苦功高,理應(yīng)得到較高的報(bào)酬;第27、26、30、28號(hào)職工則因?yàn)榧寄芷汀⒐g短、積累貢獻(xiàn)小且表現(xiàn)較差,得到的工資較低,甚至連一般水平也難以達(dá)到。這體現(xiàn)了工資調(diào)整的獎(jiǎng)優(yōu)罰劣原則。另外,調(diào)整后工資總體水平比調(diào)整前高出270元,四分位距為106,工資分布比調(diào)整前更加集中,在合適的范圍內(nèi)既拉開(kāi)了差距,又不至于差距太懸殊,還針對(duì)特殊情況進(jìn)行了特殊處理。這種工資分布具有激勵(lì)作用,可以說(shuō)工資調(diào)整達(dá)到預(yù)期目的。
箱線(xiàn)圖美中不足之處在于它不能提供關(guān)于數(shù)據(jù)分布偏態(tài)和尾重程度的精確度量;對(duì)于批量較大的數(shù)據(jù)批,箱線(xiàn)圖反映的形狀信息更加模糊;用中位數(shù)代表總體平均水平有一定的局限性等等。所以,應(yīng)用箱線(xiàn)圖最好結(jié)合其它描述統(tǒng)計(jì)工具如均值、標(biāo)準(zhǔn)差、偏度、分布函數(shù)等來(lái)描述數(shù)據(jù)批的分布形狀。
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶(hù) ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱(chēng) BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢(xún)到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢(xún)結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢(xún)結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專(zhuān)注于從單 ...
2025-07-09year_month數(shù)據(jù)類(lèi)型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類(lèi)型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門(mén)控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專(zhuān)業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03