99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話：13121318867

登錄

R語言中的缺失值處理

2017-02-27

在處理一些真實數(shù)據(jù)時，樣本中往往會包含缺失值（Missing values)。我們需要對缺失值進行適宜的處理，才能建立更為有效的模型，使得后續(xù)預測分析能有更小的偏差。本文將羅列不同的缺失值處理方法，并進行具體應(yīng)用。

數(shù)據(jù)準備和缺失模式設(shè)定

本文使用mlbench包中的BostonHousing數(shù)據(jù)集作為示例來演示不同的缺失值處理方法。由于原始的數(shù)據(jù)集并不包含缺失值，我們需要隨機刪除一些數(shù)據(jù)。通過這種方法，我們不僅可以評估由數(shù)據(jù)缺失帶來的精度損失，也可以比較不同處理方式的效果好壞。讓我們先加載這個數(shù)據(jù)集，并隨機刪除一些數(shù)據(jù)。

# 加載數(shù)據(jù)集
data ("BostonHousing", package="mlbench")
original <- BostonHousing # backup original data

# 引入缺失值
set.seed(100)
BostonHousing[sample(1:nrow(BostonHousing), 40), "rad"] <- NA
BostonHousing[sample(1:nrow(BostonHousing), 40), "ptratio"]

#>      crim zn indus chas   nox    rm age    dis rad tax ptratio      b lstat medv
#> 1 0.00632 18 2.31    0 0.538 6.575 65.2 4.0900   1 296    15.3 396.90 4.98 24.0
#> 2 0.02731 0 7.07    0 0.469 6.421 78.9 4.9671   2 242    17.8 396.90 9.14 21.6
#> 3 0.02729 0 7.07    0 0.469 7.185 61.1 4.9671   2 242    17.8 392.83 4.03 34.7
#> 4 0.03237 0 2.18    0 0.458 6.998 45.8 6.0622   3 222    18.7 394.63 2.94 33.4
#> 5 0.06905 0 2.18    0 0.458 7.147 54.2 6.0622   3 222    18.7 396.90 5.33 36.2
#> 6 0.02985 0 2.18    0 0.458 6.430 58.7 6.0622   3 222

缺失值已經(jīng)生成好了，盡管我們已經(jīng)知道哪些位置的數(shù)據(jù)缺失，但還是用mice包中的md.pattern函數(shù)快速檢查下。

# 缺失值的模式
library(mice)
md.pattern(BostonHousing) # 返回數(shù)據(jù)的缺失值的模式

#>     crim zn indus chas nox rm age dis tax b lstat medv rad ptratio
#> 431    1 1     1    1   1 1   1   1   1 1     1    1   1       1 0
#> 35    1 1     1    1   1 1   1   1   1 1     1    1   0       1 1
#> 35    1 1     1    1   1 1   1   1   1 1     1    1   1       0 1
#>   5    1 1     1    1   1 1   1   1   1 1     1    1   0       0 2
#>        0 0     0    0   0 0   0   0   0 0     0    0 40      40 80

缺失值處理方法

目前共有四種方法來處理缺失值：

1. 刪除觀測（記錄）

如果你的數(shù)據(jù)集擁有大量觀測，足以用來建立模型，那你可以把包含缺失值的觀測刪去（或者在建模時選擇不納入這些觀測，如設(shè)定na.action=na.omit）。在刪去相應(yīng)觀測后，請確保：

你有足夠的樣本點可以用來建模。

沒有引入偏差（譯者注：即認為這些缺失值是隨機產(chǎn)生的，刪除對應(yīng)觀測后，樣本總體還是一個隨機樣本而非選擇樣本）。

# 例子
lm(medv ~ ptratio + rad, data=BostonHousing, na.action=na.omit)

2.刪除變量（字段）

如果某個變量包含大量的缺失值，我們可以直接刪除這個變量來保留更多的觀測，除非這個變量對于模型而言特別重要。應(yīng)用這個方法需要我們在變量的重要性和觀測的數(shù)量之間做權(quán)衡。

3.用均值、中位數(shù)或眾數(shù)插值

把缺失值用相應(yīng)變量的均值、中位數(shù)或眾數(shù)替換是一種比較粗糙的處理方法。其可行性也要取決于具體情境，如果變量的數(shù)值本身波動比較小或者對相應(yīng)變量的影響較小，使用這種粗略的插值法才可以得到使人滿意的結(jié)果。

library(Hmisc)
impute(BostonHousing$ptratio, mean) # 均值替代
impute(BostonHousing$ptratio, median) # 中位數(shù)替代
impute(BostonHousing$ptratio, 20) # 用特殊值替代（20）
# 也可以手動插值
BostonHousing$ptratio[is.na(BostonHousing$ptratio)] <- mean(BostonHousing$ptratio, na.rm = T)

讓我們看看均值插值的效果

library(DMwR)
actuals <- original$ptratio[is.na(BostonHousing$ptratio)]
predicteds <- rep(mean(BostonHousing$ptratio, na.rm=T), length(actuals))
regr.eval(actuals, predicteds)

#> mae mse rmse mape
#> 1.62324034 4.19306071 2.04769644 0.09545664

4.用預測值插值

用預測值插值是一種比較前沿的方法，我們有很多模型可以實現(xiàn)這個過程，比如KNN插值，rpart還有mice。

4.1. KNN插值

DMwR包中的knnImputation函數(shù)會使用k近鄰方法來填補缺失值。具體流程如下：對于每個需要插值的觀測，先基于歐氏距離找到k個和它最近的觀測。再將這k個近鄰的數(shù)據(jù)利用距離逆加權(quán)得到插補值，最后用該值替代缺失值。

這種方式的優(yōu)勢在于你只要調(diào)用一次函數(shù)就能把所有缺失值插補好。該函數(shù)會把整個數(shù)據(jù)框作為參數(shù)，你不需要做其他設(shè)定。但在使用時請不要把響應(yīng)變量也一并輸入，因為在你對測試集做處理時，你無法用未知的響應(yīng)變量來插值。

library(DMwR)
knnOutput <- knnImputation(BostonHousing[, !names(BostonHousing) %in% "medv"]) # 使用KNN插值.
anyNA(knnOutput)
#> FALSE

檢驗該方法的精度

actuals <- original$ptratio[is.na(BostonHousing$ptratio)]
predicteds <- knnOutput[is.na(BostonHousing$ptratio), "ptratio"]
regr.eval(actuals, predicteds)
#> mae mse rmse mape
#> 1.00188715 1.97910183 1.40680554 0.05859526

與均值插值相比，mape的值降低了39個百分點。總體還不錯。

4.2 rpart

利用knn插值的局限在于它對于因子類變量的插補效果可能不盡如人意。這種情況下rpart和mice就提供了更靈活的解決方案。rpart的優(yōu)勢是你只需要一個未缺失值就可以插補整個樣本。

插值思路是利用rpart（決策樹）替代knn來預測缺失值。對于因子類變量而言，我們在調(diào)用rpart函數(shù)式可以把method設(shè)為class（譯者注：即用分類樹)，數(shù)值型變量就設(shè)定method=anova（回歸樹）。當然，我們也要避免把響應(yīng)變量傳入函數(shù)。

library(rpart)
class_mod <- rpart(rad ~ . - medv, data=BostonHousing[!is.na(BostonHousing$rad), ], method="class", na.action=na.omit) # 因為rad是因子
anova_mod <- rpart(ptratio ~ . - medv, data=BostonHousing[!is.na(BostonHousing$ptratio), ], method="anova", na.action=na.omit) # ptratio是數(shù)值變量
rad_pred <- predict(class_mod, BostonHousing[is.na(BostonHousing$rad), ])
ptratio_pred <- predict(anova_mod, BostonHousing[is.na(BostonHousing$ptratio), ])

ptratio的插補精度

actuals <- original$ptratio[is.na(BostonHousing$ptratio)]
predicteds <- ptratio_pred
regr.eval(actuals, predicteds)
#> mae mse rmse mape
#> 0.71061673 0.99693845 0.99846805 0.04099908

與knn相比，mape值又額外下降了30%，可喜可賀。

rad的插補精度

actuals <- original$rad[is.na(BostonHousing$rad)]
predicteds <- as.numeric(colnames(rad_pred)[apply(rad_pred, 1, which.max)])
mean(actuals != predicteds) # 計算誤分類比率
#> 0.25

僅有25%的缺失值被誤分類，這個結(jié)果也不壞。

4.3 mice

mice是鏈式方程多元插值的簡寫（Multivariate Imputation by Chained Equations）。R中有個同名包提供了多種先進的缺失值處理方法。它使用一種頗不常見的方法來進行兩步插值：先利用mice函數(shù)建模再用complete函數(shù)生成完整數(shù)據(jù)。mice(df)操作會返回df的多個完整副本，每個副本都對缺失的數(shù)據(jù)插補了不同的值。complete()函數(shù)則會返回這些數(shù)據(jù)集中的一個（默認）或多個。讓我們看看如何對rad和ptratio兩個變量插值：

library(mice)
miceMod <- mice(BostonHousing[, !names(BostonHousing) %in% "medv"], method="rf") # 基于隨機森林模型進行mice插值
miceOutput <- complete(miceMod) # 生成完整數(shù)據(jù)
anyNA(miceOutput)
#> FALSE

計算ptratio的插值精度：

actuals <- original$ptratio[is.na(BostonHousing$ptratio)]
predicteds <- miceOutput[is.na(BostonHousing$ptratio), "ptratio"]
regr.eval(actuals, predicteds)
#> mae mse rmse mape
#> 0.36500000 0.78100000 0.88374204 0.02121326

mape值與rpart相比又提升了48個百分點，亦可賽艇。

再看看rad的插值效果：

actuals <- original$rad[is.na(BostonHousing$rad)]
predicteds <- miceOutput[is.na(BostonHousing$rad), "rad"]
mean(actuals != predicteds) # compute misclass error.
#> 0.15

誤分類比率降低到了15%，也就是說40個缺失觀測里插補錯誤的只有6個。相較于rpart的錯誤率（25%），這是一個了不起的提升。

如果你想了解的更深入，這里是mice包的手冊和DataScience+上另一篇關(guān)于mice包的文章。

盡管通過本文你已經(jīng)對各類處理方法有了初步了解，可這些還不足以幫助你判斷每種方法的優(yōu)劣。但當你下次處理缺失值的時候，逐一測試這些方法是值得一試的。數(shù)據(jù)分析師培訓

CDA數(shù)據(jù)分析師考試相關(guān)入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

缺失值處理 KNN 偏差字段隨機森林決策樹 R語言數(shù)據(jù)分析

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇圖論在大數(shù)據(jù)分析中的作用！

下一篇CDA認證再升一檔！與國家共同推進大數(shù)據(jù)人才培養(yǎng)標準教育事業(yè)！

CDA報考指南

報考流程
考試時間
報名費用
聯(lián)系我們

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

京公網(wǎng)安備 11010802034615號經(jīng)營許可證編號：京B2-20210330

聯(lián)系電話：13321103290 (微信同號)

CDA教材
CDA題庫
CDA大綱

客服在線

立即咨詢

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊

') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進行初始化 // 參數(shù)1：配置參數(shù) // 參數(shù)2：回調(diào)，回調(diào)的第一個參數(shù)驗證碼對象，之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須，不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務(wù)器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式，包括：float，popup width: "280px", https: true // 更多配置參數(shù)說明請參見：http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'！'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'！'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

R語言中的缺失值處理

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

【CDA干貨】SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換 ...

【CDA干貨】MySQL 大表拆分與關(guān)聯(lián)查詢效率：打破 “ ...

CDA 數(shù)據(jù)分析師：表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 ...

【CDA干貨】Excel 導入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解 ...

【CDA干貨】解析 Python 中 Response 對象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 ...

【CDA干貨】Python HTTP 請求工具對比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu) ...

【CDA干貨】用 SQL 驗證業(yè)務(wù)邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據(jù)驅(qū)動下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實踐到業(yè)務(wù) ...

【CDA干貨】統(tǒng)計模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

R語言中的缺失值處理

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

【CDA干貨】SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換 ...

【CDA干貨】MySQL 大表拆分與關(guān)聯(lián)查詢效率：打破 “ ...

CDA 數(shù)據(jù)分析師：表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 ...

【CDA干貨】Excel 導入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解 ...

【CDA干貨】解析 Python 中 Response 對象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 ...

【CDA干貨】Python HTTP 請求工具對比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu) ...

【CDA干貨】用 SQL 驗證業(yè)務(wù)邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據(jù)驅(qū)動下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實踐到業(yè)務(wù) ...

【CDA干貨】統(tǒng)計模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

【CDA干貨】Excel 導入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...