99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
2018-11-26 閱讀量: 1197
缺失值處理

從統(tǒng)計上說, 缺失的數(shù)據(jù)可能會產(chǎn)生有偏估計, 從而使樣本數(shù)據(jù)不能很

好地代表總體, 而現(xiàn)實中絕大部分?jǐn)?shù)據(jù)都包含缺失值, 因此如何處理缺失值

很重要。

一般來說, 缺失值的處理包括兩個步驟, 即缺失數(shù)據(jù)的識別和缺失值處

理。 在R語言中缺失值通常以NA表示, 可以使用函數(shù)is.na() 判斷缺失值是

否存在, 另外函數(shù)complete.cases() 可識別樣本數(shù)據(jù)是否完整從而判斷缺失

情況。 在對是否存在缺失值進(jìn)行判斷之后需要進(jìn)行缺失值處理, 常用的方法

有刪除法、 替換法、 插補法等。

刪除法

刪除法是最簡單的缺失值處理方法, 根據(jù)數(shù)據(jù)處理的不同角度可分為刪

除觀測樣本、 刪除變量兩種。 刪除觀測樣本又稱行刪除法, 在R中可通過

na.omit() 函數(shù)移除所有含有缺失數(shù)據(jù)的行, 這屬于以減少樣本量來換取信

息完整性的方法, 適用于缺失值所占比例較小的情況; 刪除變量適用于變量

有較大缺失且對研究目標(biāo)影響不大的情況, 意味著要刪除整個變量, 這在R

中可通過data[, -p] 來實現(xiàn), 其中data表示目標(biāo)數(shù)據(jù)集, p表示缺失變量所

在的列。

替換法

變量按屬性可分為數(shù)值型和非數(shù)值型, 二者的處理辦法不同: 如果缺失

值所在變量為數(shù)值型的, 一般用該變量在其他所有對象的取值的均值來替換

變量的缺失值; 如果為非數(shù)值型變量, 則使用該變量其他全部有效觀測值的

中位數(shù)或者眾數(shù)進(jìn)行替換。

插補法

刪除法雖然簡單易行, 但會存在信息浪費的問題且數(shù)據(jù)結(jié)構(gòu)會發(fā)生變

動, 以致最后得到有偏的統(tǒng)計結(jié)果, 替換法也有類似問題。 在面對缺失值問

題, 常用的插補法有回歸插補、 多重插補等。 回歸插補法利用回歸模型, 將

需要插值補缺的變量作為因變量, 其他相關(guān)變量作為自變量, 通過回歸函數(shù)

lm() 預(yù)測出因變量的值來對缺失變量進(jìn)行補缺; 多重插補法的原理是從一

個包含缺失值的數(shù)據(jù)集中生成一組完整的數(shù)據(jù), 如此進(jìn)行多次, 從而產(chǎn)生缺

失值的一個隨機樣本, R中的mice函數(shù)包可以用來進(jìn)行多重插補。

0.0000
1
關(guān)注作者
收藏
評論(0)

發(fā)表評論

暫無數(shù)據(jù)
推薦帖子