異常值分析是檢驗數(shù)據(jù)是否有錄入錯誤以及含有不合常理的數(shù)據(jù)。 忽視
異常值的存在是十分危險的, 不加剔除地把異常值包括進數(shù)據(jù)的計算分析過
程中, 會給結(jié)果帶來不良影響; 重視異常值的出現(xiàn), 分析其產(chǎn)生的原因, 常
常成為發(fā)現(xiàn)問題進而改進決策的契機。
異常值是指樣本中的個別值, 其數(shù)值明顯偏離其余的觀測值。 異常值也
稱為離群點, 異常值的分析也稱為離群點分析。
(1) 簡單統(tǒng)計量分析
可以先對變量做一個描述性統(tǒng)計, 進而查看哪些數(shù)據(jù)是不合理的。 最常
用的統(tǒng)計量是最大值和最小值, 用來判斷這個變量的取值是否超出了合理的
范圍。 例如, 客戶年齡的最大值為199歲, 則該變量的取值存在異常。
(2) 3σ原則
如果數(shù)據(jù)服從正態(tài)分布, 在3σ原則下, 異常值被定義為一組測定值中
與平均值的偏差超過三倍標(biāo)準(zhǔn)差的值。 在正態(tài)分布的假設(shè)下, 距離平均值
3σ之外的值出現(xiàn)的概率為P(|x-μ|>3σ) ≤0.003, 屬于極個別的小概率事件。
如果數(shù)據(jù)不服從正態(tài)分布, 也可以用遠(yuǎn)離平均值的多少倍標(biāo)準(zhǔn)差來描
述。
(3) 箱形圖分析
箱形圖提供了識別異常值的一個標(biāo)準(zhǔn): 異常值通常被定義為小于QL-
1.5IQR或大于QU+1.5IQR的值。 QL稱為下四分位數(shù), 表示全部觀察值中有四
分之一的數(shù)據(jù)取值比它?。?QU稱為上四分位數(shù), 表示全部觀察值中有四分
之一的數(shù)據(jù)取值比它大; IQR稱為四分位數(shù)間距, 是上四分位數(shù)QU與下四分
位數(shù)QL之差, 其間包含了全部觀察值的一半。








暫無數(shù)據(jù)