異常值分析是檢驗(yàn)數(shù)據(jù)是否有錄入錯(cuò)誤以及含有不合常理的數(shù)據(jù)。 忽視
異常值的存在是十分危險(xiǎn)的, 不加剔除地把異常值包括進(jìn)數(shù)據(jù)的計(jì)算分析過
程中, 會(huì)給結(jié)果帶來不良影響; 重視異常值的出現(xiàn), 分析其產(chǎn)生的原因, 常
常成為發(fā)現(xiàn)問題進(jìn)而改進(jìn)決策的契機(jī)。
異常值是指樣本中的個(gè)別值, 其數(shù)值明顯偏離其余的觀測(cè)值。 異常值也
稱為離群點(diǎn), 異常值的分析也稱為離群點(diǎn)分析。
(1) 簡單統(tǒng)計(jì)量分析
可以先對(duì)變量做一個(gè)描述性統(tǒng)計(jì), 進(jìn)而查看哪些數(shù)據(jù)是不合理的。 最常
用的統(tǒng)計(jì)量是最大值和最小值, 用來判斷這個(gè)變量的取值是否超出了合理的
范圍。 例如, 客戶年齡的最大值為199歲, 則該變量的取值存在異常。
(2) 3σ原則
如果數(shù)據(jù)服從正態(tài)分布, 在3σ原則下, 異常值被定義為一組測(cè)定值中
與平均值的偏差超過三倍標(biāo)準(zhǔn)差的值。 在正態(tài)分布的假設(shè)下, 距離平均值
3σ之外的值出現(xiàn)的概率為P(|x-μ|>3σ) ≤0.003, 屬于極個(gè)別的小概率事件。
如果數(shù)據(jù)不服從正態(tài)分布, 也可以用遠(yuǎn)離平均值的多少倍標(biāo)準(zhǔn)差來描
述。
(3) 箱形圖分析
箱形圖提供了識(shí)別異常值的一個(gè)標(biāo)準(zhǔn): 異常值通常被定義為小于QL-
1.5IQR或大于QU+1.5IQR的值。 QL稱為下四分位數(shù), 表示全部觀察值中有四
分之一的數(shù)據(jù)取值比它小; QU稱為上四分位數(shù), 表示全部觀察值中有四分
之一的數(shù)據(jù)取值比它大; IQR稱為四分位數(shù)間距, 是上四分位數(shù)QU與下四分
位數(shù)QL之差, 其間包含了全部觀察值的一半。








暫無數(shù)據(jù)