2019-02-25
閱讀量:
1404
異常值、缺失值處理的常見思路?
問題描述:
當(dāng)我們在處理數(shù)據(jù)的時(shí)候,特別是某個(gè)字段的連續(xù)變量,如果存在異常值,例如極大值或極小值,會(huì)對模型產(chǎn)生較大影響,一般有哪些處理思路呢?又如何處理缺失值?
解決思路:
- 對于異常值,可以直接剔除,也可以用平均值填補(bǔ),極大值、極小值可以采用蓋帽法(99%分位點(diǎn)、1%分位點(diǎn))填充;spss中常用箱線圖來觀察,劃出離群點(diǎn)并進(jìn)行異常值處理
- 對于缺失值,可以用平均值、眾數(shù)進(jìn)行填補(bǔ),填補(bǔ)依據(jù)要結(jié)合業(yè)務(wù)理解,不同的缺失值比例,有不同的缺失值處理思路:






評論(0)


暫無數(shù)據(jù)
CDA考試動(dòng)態(tài)
CDA報(bào)考指南
推薦帖子
0條評論
0條評論
0條評論
0條評論