
利用SPSS箱線圖與Z分數(shù)法判別異常值的比較
箱線圖前提不要求正態(tài)分布,而Z分數(shù)法前提要求正態(tài)分布。
箱線圖(Boxplot)也稱箱須圖(Box-whisker Plot),是利用數(shù)據(jù)中的五個統(tǒng)計量:最小值、第一四分位數(shù)、中位數(shù)、第三四分位數(shù)與最大值來描述數(shù)據(jù)的一種方法,它也可以粗略地看出數(shù)據(jù)是否具有有對稱性,分布的分散程度等信息,特別可以用于對幾個樣本的比較。
簡單箱線圖由五部分組成,分別是最小值、中位數(shù)、最大值和兩個四分位數(shù)。
第一四分位數(shù)Q1:又稱“下四分位數(shù)”,等于該樣本中所有數(shù)值由小到大排列后第25%的數(shù)字。
中位數(shù)F:又稱第二四分位數(shù)(Q2),又稱“中位數(shù)”,等于該樣本中所有數(shù)值由小到大排列后第50%的數(shù)字。
第三四分位數(shù):又稱“上四分位數(shù)”,等于該樣本中所有數(shù)值由小到大排列后第75%的數(shù)字。
箱線圖判斷異常值的標準以四分位數(shù)和四分位距為基礎。
四分位距(QR, Quartile range):上四分位數(shù)與下四分位數(shù)之間的間距,即上四分位數(shù)減去下四分位數(shù)。
F代表中位數(shù),QR代表四分位距。
在Q3+1.5QR(四分位距)和Q1-1.5QR處畫兩條與中位線一樣的線段,這兩條線段為異常值截斷點,稱其為內限。
在F(中位數(shù))+3QR和F-3QR處畫兩條線段,稱其為外限。
箱線圖功能:
1.直觀明了地識別數(shù)據(jù)批中的異常值
箱線圖為我們提供了識別異常值的一個標準:異常值被定義為小于Q1-1.5IQR或大于Q3+1.5IQR的值。雖然這種標準有點任意性,但它來源于經(jīng)驗判斷,經(jīng)驗表明它在處理需要特別注意的數(shù)據(jù)方面表現(xiàn)不錯。這與識別異常值的經(jīng)典方法有些不同。眾所周知,基于正態(tài)分布的3σ法則或z分數(shù)方法是以假定數(shù)據(jù)服從正態(tài)分布為前提的,但實際數(shù)據(jù)往往并不嚴格服從正態(tài)分布。它們判斷異常值的標準是以計算數(shù)據(jù)批的均值和標準差為基礎的,而均值和標準差的耐抗性極小,異常值本身會對它們產(chǎn)生較大影響,這樣產(chǎn)生的異常值個數(shù)不會多于總數(shù)0.7%。顯然,應用這種方法于非正態(tài)分布數(shù)據(jù)中判斷異常值,其有效性是有限的。箱線圖的繪制依靠實際數(shù)據(jù),不需要事先假定數(shù)據(jù)服從特定的分布形式,沒有對數(shù)據(jù)作任何限制性要求,它只是真實直觀地表現(xiàn)數(shù)據(jù)形狀的本來面貌;另一方面,箱線圖判斷異常值的標準以四分位數(shù)和四分位距為基礎,四分位數(shù)具有一定的耐抗性,多達25%的數(shù)據(jù)可以變得任意遠而不會很大地擾動四分位數(shù),所以異常值不能對這個標準施加影響,箱線圖識別異常值的結果比較客觀。由此可見,箱線圖在識別異常值方面有一定的優(yōu)越性。
2.利用箱線圖判斷數(shù)據(jù)批的偏態(tài)和尾重
比較標準正態(tài)分布、不同自由度的t分布和非對稱分布數(shù)據(jù)的箱線圖的特征,可以發(fā)現(xiàn):對于標準正態(tài)分布的大樣本,只有 0.7%的值是異常值,中位數(shù)位于上下四分位數(shù)的中央,箱線圖的方盒關于中位線對稱。選取不同自由度的t分布的大樣本,代表對稱重尾分布,當t分布的自由度越小,尾部越重,就有越大的概率觀察到異常值。以卡方分布作為非對稱分布的例子進行分析,發(fā)現(xiàn)當卡方分布的自由度越小,異常值出現(xiàn)于一側的概率越大,中位數(shù)也越偏離上下四分位數(shù)的中心位置,分布偏態(tài)性越強。異常值集中在較小值一側,則分布呈現(xiàn)左偏態(tài);;異常值集中在較大值一側,則分布呈現(xiàn)右偏態(tài)。下表列出了幾種分布的樣本數(shù)據(jù)箱線圖的特征(樣本數(shù)據(jù)由SAS的隨機數(shù)生成函數(shù)自動生成),驗證了上述規(guī)律。這個規(guī)律揭示了數(shù)據(jù)批分布偏態(tài)和尾重的部分信息,盡管它們不能給出偏態(tài)和尾重程度的精確度量,但可作為我們粗略估計的依據(jù)。
3.利用箱線圖比較幾批數(shù)據(jù)的形狀
同一數(shù)軸上,幾批數(shù)據(jù)的箱線圖并行排列,幾批數(shù)據(jù)的中位數(shù)、尾長、異常值、分布區(qū)間等形狀信息便昭然若揭。在一批數(shù)據(jù)中,哪幾個數(shù)據(jù)點出類拔萃,哪些數(shù)據(jù)點表現(xiàn)不及一般,這些數(shù)據(jù)點放在同類其它群體中處于什么位置,可以通過比較各箱線圖的異常值看出。各批數(shù)據(jù)的四分位距大小,正常值的分布是集中還是分散,觀察各方盒和線段的長短便可明了。每批數(shù)據(jù)分布的偏態(tài)如何,分析中位線和異常值的位置也可估計出來。還有一些箱線圖的變種,使數(shù)據(jù)批間的比較更加直觀明白。例如有一種可變寬度的箱線圖,使箱的寬度正比于批量的平方根,從而使批量大的數(shù)據(jù)批有面積大的箱,面積大的箱有適當?shù)囊曈X效果。如果對同類群體的幾批數(shù)據(jù)的箱線圖進行比較,分析評價,便是常模參照解釋方法的可視圖示;如果把受測者數(shù)據(jù)批的箱線圖與外在效標數(shù)據(jù)批的箱線圖比較分析,便是效標參照解釋的可視圖示。箱線圖結合這些分析方法用于質量管理、人事測評、探索性數(shù)據(jù)分析等統(tǒng)計分析活動中去,有助于分析過程的簡便快捷,其作用顯而易見。
箱線圖應用舉例:
現(xiàn)有某直銷中心30名員工的工資測算數(shù)據(jù)兩批,第一批為工資調整前的數(shù)據(jù),第二批為工資調整后的數(shù)據(jù),繪出它們的箱線圖(如下圖),進行比較,可以很容易地得出:工資調整前,總體水平在 752元左右,四分位距為307.5,沒有異常值。經(jīng)過調整后,箱線圖顯示,第2、29、10、24、27號為溫和的異常值,第26、30、28號為極端的異常值。為什么會出現(xiàn)異常值呢?經(jīng)過進一步分析知道,第2、29、10、24號員工由于技能強、工齡長、積累貢獻大、表現(xiàn)較好,勞苦功高,理應得到較高的報酬;第27、26、30、28號職工則因為技能偏低、工齡短、積累貢獻小且表現(xiàn)較差,得到的工資較低,甚至連一般水平也難以達到。這體現(xiàn)了工資調整的獎優(yōu)罰劣原則。另外,調整后工資總體水平比調整前高出270元,四分位距為106,工資分布比調整前更加集中,在合適的范圍內既拉開了差距,又不至于差距太懸殊,還針對特殊情況進行了特殊處理。這種工資分布具有激勵作用,可以說工資調整達到預期目的。
箱線圖美中不足之處在于它不能提供關于數(shù)據(jù)分布偏態(tài)和尾重程度的精確度量;對于批量較大的數(shù)據(jù)批,箱線圖反映的形狀信息更加模糊;用中位數(shù)代表總體平均水平有一定的局限性等等。所以,應用箱線圖最好結合其它描述統(tǒng)計工具如均值、標準差、偏度、分布函數(shù)等來描述數(shù)據(jù)批的分布形狀。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結構數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結構數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 表結構數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結構化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結構數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結構數(shù)據(jù)(以 “行 - 列” 存儲的結構化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結構數(shù)據(jù)價值的核心操盤手 表格結構數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10