2018-11-26
閱讀量:
920
異常值處理
在異常值處理之前需要對異常值進(jìn)行識別, 一般多采用單變量散點圖或
是箱形圖來達(dá)到目的。 在R中, 使用函數(shù)dotchart() 、 boxplot() 實現(xiàn)繪制
單變量散點圖與箱形圖。
異常值產(chǎn)生最常見的原因是人為輸入的錯誤, 如小數(shù)
點輸入錯誤, 會把123.00g變成12300g。
在數(shù)據(jù)預(yù)處理時, 異常值是否剔除, 需視具體情況而定, 因為有些異常
值可能蘊含著有用的信息。
將含有異常值的記錄直接刪除這種方法簡單易行, 但缺點也很明顯, 在
觀測值很少的情況下, 這種刪除會造成樣本量不足, 可能會改變變量的原有
分布, 從而造成分析結(jié)果的不準(zhǔn)確。 視為缺失值處理的好處是可以利用現(xiàn)有
變量的信息, 對異常值(缺失值) 進(jìn)行填補。
很多情況下, 要先分析異常值出現(xiàn)的可能原因, 再判斷異常值是否應(yīng)該
舍棄, 如果是正確的數(shù)據(jù), 可以直接在具有異常值的數(shù)據(jù)集上進(jìn)行挖掘建
模。






評論(0)


暫無數(shù)據(jù)
推薦帖子
0條評論
0條評論
0條評論