99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

<dfn id="vd38m"></dfn>

熱線電話：13121318867

登錄

首頁精彩閱讀R語言處理缺失數(shù)據(jù)的高級方法

R語言處理缺失數(shù)據(jù)的高級方法

2017-11-25

R語言處理缺失數(shù)據(jù)的高級方法

主要用到VIM和mice包

[plain]view plaincopy

install.packages(c("VIM","mice"))

1.處理缺失值的步驟

步驟：

（1）識別缺失數(shù)據(jù)；

（2）檢查導致數(shù)據(jù)缺失的原因；

（3）刪除包含缺失值的實例或用合理的數(shù)值代替（插補）缺失值

缺失值數(shù)據(jù)的分類：

（1）完全隨機缺失：若某變量的缺失數(shù)據(jù)與其他任何觀測或未觀測變量都不相關(guān)，則數(shù)據(jù)為完全隨機缺失（MCAR）。

（2）隨機缺失：若某變量上的缺失數(shù)據(jù)與其他觀測變量相關(guān)，與它自己的未觀測值不相關(guān)，則數(shù)據(jù)為隨機缺失（MAR）。

（3）非隨機缺失：若缺失數(shù)據(jù)不屬于MCAR或MAR，則數(shù)據(jù)為非隨機缺失（NIMAR）。

2.識別缺失值

NA：代表缺失值；

NaN：代表不可能的值；

Inf：代表正無窮；

-Inf：代表負無窮。

is.na（）：識別缺失值；

is.nan（）：識別不可能值；

is.infinite（）：無窮值。

is.na（）、is.nan（）和is.infinte（）函數(shù)的返回值示例

complete.cases（）可用來識別矩陣或數(shù)據(jù)框中沒有缺失值的行，若每行都包含完整的實例，則返回TRUE的邏輯向量，若每行有一個或多個缺失值，則返回FALSE；
3.探索缺失值模式　
（1）列表顯示缺失值

mice包中的md.pattern（）函數(shù)可以生成一個以矩陣或數(shù)據(jù)框形式展示缺失值模式的表格

[plain] view plain copy

    library(mice)
    data(sleep,package="VIM")
    md.pattern(sleep)

（2）圖形探究缺失數(shù)據(jù)

VIM包中提供大量能可視化數(shù)據(jù)集中缺失值模式的函數(shù)：aggr（）、matrixplot（）、scattMiss（）

[plain] view plain copy

library("VIM")
aggr(sleep,prop=FALSE,numbers=TRUE)

[plain] view plain copy

library("VIM")
aggr(sleep,prop=TRUE,numbers=TRUE)#用比例代替了計數(shù)

matrixplot（）函數(shù)可生成展示每個實例數(shù)據(jù)的圖形

[plain] view plain copy

matrixplot(sleep)

淺色表示值小，深色表示值大；默認缺失值為紅色。

marginplot（）函數(shù)可生成一幅散點圖，在圖形邊界展示兩個變量的缺失值信息。

[plain] view plain copy

library("VIM")
marginplot(sleep[c("Gest","Dream")],pch=c(20),col=c("darkgray","red","blue"))

（3）用相關(guān)性探索缺失值

影子矩陣：用指示變量替代數(shù)據(jù)集中的數(shù)據(jù)（1表示缺失，0表示存在），這樣生成的矩陣有時稱作影子矩陣。

求這些指示變量間和它們與初始（可觀測）變量間的相關(guān)性，有且于觀察哪些變量常一起缺失，以及分析變量“缺失”與其他變量間的關(guān)系。

[plain] view plain copy

    head(sleep)
    str(sleep)
    x<-as.data.frame(abs(is.na(sleep)))
    head(sleep,n=5)
    head(x,n=5)
    y<-x[which(sd(x)>0)]
    cor(y)
    cor(sleep,y,use="pairwise.complete.obs")

4.理解缺失值數(shù)據(jù)的來由和影響

識別缺失數(shù)據(jù)的數(shù)目、分布和模式有兩個目的：

（1）分析生成缺失數(shù)據(jù)的潛在機制；

（2）評價缺失數(shù)據(jù)對回答實質(zhì)性問題的影響。

即：

（1）缺失數(shù)據(jù)的比例有多大？

（2）缺失數(shù)據(jù)是否集中在少數(shù)幾個變量上，抑或廣泛存在？

（3）缺失是隨機產(chǎn)生的嗎？

（4）缺失數(shù)據(jù)間的相關(guān)性或與可觀測數(shù)據(jù)間的相關(guān)性，是否可以表明產(chǎn)生缺失值的機制呢？

若缺失數(shù)據(jù)集中在幾個相對不太重要的變量上，則可以刪除這些變量，然后再進行正常的數(shù)據(jù)分析；

若有一小部分數(shù)據(jù)隨機分布在整個數(shù)據(jù)集中（MCAR），則可以分析數(shù)據(jù)完整的實例，這樣仍可得到可靠有效的結(jié)果；

若以假定數(shù)據(jù)是MCAR或MAR，則可以應用多重插補法來獲得有鏟的結(jié)論。

若數(shù)據(jù)是NMAR，則需要借助專門的方法，收集新數(shù)據(jù)，或加入一個相對更容易、更有收益的行業(yè)。
5.理性處理不完整數(shù)據(jù)
6.完整實例分析（行刪除）

函數(shù)complete.cases（）、na.omit（）可用來存儲沒有缺失值的數(shù)據(jù)框或矩陣形式的實例（行）：

[plain] view plain copy

    newdata<-mydata[complete.cases(mydata),]
    newdata<-na.omit(mydata)

[plain] view plain copy

    options(digits=1)
    cor(na.omit(sleep))
    cor(sleep,use="complete.obs")

[plain] view plain copy

fit<-lm(Dream~Span+Gest,data=na.omit(sleep))
summary(fit)

7.多重插補

多重插補（MI）是一種基于重復模擬的處理缺失值的方法。

MI從一個包含缺失值的數(shù)據(jù)集中生成一組完整的數(shù)據(jù)集。每個模擬數(shù)據(jù)集中，缺失數(shù)據(jù)將使用蒙特卡洛方法來填補。

此時，標準的統(tǒng)計方法便可應用到每個模擬的數(shù)據(jù)集上，通過組合輸出結(jié)果給出估計的結(jié)果，以及引入缺失值時的置信敬意。

可用到的包Amelia、mice和mi包

mice（）函數(shù)首先從一個包含缺失數(shù)據(jù)的數(shù)據(jù)框開始，然后返回一個包含多個完整數(shù)據(jù)集的對象。每個完整數(shù)據(jù)集都是通過對原始數(shù)據(jù)框中的缺失數(shù)據(jù)進行插而生成的。

with（）函數(shù)可依次對每個完整數(shù)據(jù)集應用統(tǒng)計模型

pool（）函數(shù)將這些單獨的分析結(jié)果整合為一組結(jié)果。

最終模型的標準誤和p值都將準確地反映出由于缺失值和多重插補而產(chǎn)生的不確定性。

基于mice包的分析通常符合以下分析過程：

[plain] view plain copy

    library(mice)
    imp<-mice(mydata,m)
    fit<-with(imp,analysis)
    pooled<-pool(fit)
    summary(pooled)

[plain] view plain copy

    mydata是一個飲食缺失值的矩陣或數(shù)據(jù)框；

[plain] view plain copy

    imp是一個包含m個插補數(shù)據(jù)集的列表對象，同時還含有完成插補過程的信息，默認的m=5

[plain] view plain copy

    analysis是一個表達式對象，用來設(shè)定應用于m個插補的統(tǒng)計分析方法。方法包括做線回歸模型的lm（）函數(shù)、做廣義線性模型的glm（）函數(shù)、做廣義可加模型的gam（）、及做負二項模型的nbrm（）函數(shù)。

[plain] view plain copy

    fit是一個包含m個單獨統(tǒng)計分析結(jié)果的列表對象；

[plain] view plain copy

    pooled是一個包含這m個統(tǒng)計分析平均結(jié)果的列表對象。

[plain] view plain copy

    </pre><pre name="code" class="plain">library(mice)
    data(sleep,package="VIM")
    imp<-mice(sleep,seed=1234)

[plain] view plain copy
    fit<-with(imp,lm(Dream~Span+Gest))
    pooled<-pool(fit)
    summary(pooled)

[plain] view plain copy
imp

[plain] view plain copy

imp$imp$Dream

利用complete（）函數(shù)可觀察m個插補數(shù)據(jù)集中的任意一個，格式為：complete(imp,action=#)

eg：

[plain] view plain copy

dataset3<-complete(imp,action=3)
dataset3

8.處理缺失值的其他方法
處理缺失數(shù)據(jù)的專業(yè)方法

（1）成對刪除
處理含缺失值的數(shù)據(jù)集時，成對刪除常作為行刪除的備選方法使用。對于成對刪除，觀測只是當它含缺失數(shù)據(jù)的變量涉及某個特定分析時才會被刪除。
[plain] view plain copy

cor(sleep,use="pairwise.complete.obs")

雖然成對刪除似乎利用了所有可用數(shù)據(jù)，但實際上每次計算只用了不同的數(shù)據(jù)集，這將會導致一些扭曲，故建議不要使用該方法。
（2）簡單（非隨機）插補
簡單插補，即用某個值（如均值、中位數(shù)或眾數(shù)）來替換變量中的缺失值。注意，替換是非隨機的，這意味著不會引入隨機誤差（與多重襯托不同）。
簡單插補的一個優(yōu)點是，解決“缺失值問題”時不會減少分析過程中可用的樣本量。雖然簡單插補用法簡單，但對于非MCAR的數(shù)據(jù)會產(chǎn)生有偏的結(jié)果。若缺失數(shù)據(jù)的數(shù)目非常大，那么簡單插補很可能會低估標準差、曲解變量間的相關(guān)性，并會生成不正確的統(tǒng)計檢驗的p值。應盡量避免使用該方法。

9.R中制作出版級品質(zhì)的輸出

常用方法：Sweave和odfWeave。

Sweave包可將R代碼及輸出嵌入到LaTeX文檔中，從而得到 PDF、PostScript和DVI格式的高質(zhì)量排版報告。

odfWeave包可將R代碼及輸出嵌入到ODF（Open Documents Format）的文檔中

CDA數(shù)據(jù)分析師考試相關(guān)入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

統(tǒng)計分析散點圖 R語言數(shù)據(jù)分析

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇Excel-漏斗圖分析（差異分析）

下一篇大數(shù)據(jù)分析工程師薪資水平

CDA報考指南

報考流程
考試時間
報名費用
聯(lián)系我們

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

京公網(wǎng)安備 11010802034615號經(jīng)營許可證編號：京B2-20210330

聯(lián)系電話：13321103290 (微信同號)

CDA教材
CDA題庫
CDA大綱

客服在線

立即咨詢

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊

') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進行初始化 // 參數(shù)1：配置參數(shù) // 參數(shù)2：回調(diào)，回調(diào)的第一個參數(shù)驗證碼對象，之后可以使用它調(diào)用相應的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須，不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式，包括：float，popup width: "280px", https: true // 更多配置參數(shù)說明請參見：http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'！'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'！'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

R語言處理缺失數(shù)據(jù)的高級方法

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

【CDA干貨】訓練與驗證損失驟升：機器學習訓練中的 ...

【CDA干貨】解析 DataHub 與 Kafka：數(shù)據(jù)生態(tài)中兩類 ...

CDA 數(shù)據(jù)分析師：讓統(tǒng)計基本概念成為業(yè)務決策的底層 ...

CDA 數(shù)據(jù)分析師：表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換 ...

【CDA干貨】MySQL 大表拆分與關(guān)聯(lián)查詢效率：打破 “ ...

【CDA干貨】DSGE 模型中的 Et：理性預期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 ...

【CDA干貨】Excel 導入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解 ...

【CDA干貨】解析 Python 中 Response 對象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 ...

【CDA干貨】Python HTTP 請求工具對比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu) ...

【CDA干貨】用 SQL 驗證業(yè)務邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據(jù)驅(qū)動下的 ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

R語言處理缺失數(shù)據(jù)的高級方法

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

【CDA干貨】訓練與驗證損失驟升：機器學習訓練中的 ...

【CDA干貨】解析 DataHub 與 Kafka：數(shù)據(jù)生態(tài)中兩類 ...

CDA 數(shù)據(jù)分析師：讓統(tǒng)計基本概念成為業(yè)務決策的底層 ...

CDA 數(shù)據(jù)分析師：表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換 ...

【CDA干貨】MySQL 大表拆分與關(guān)聯(lián)查詢效率：打破 “ ...

【CDA干貨】DSGE 模型中的 Et：理性預期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 ...

【CDA干貨】Excel 導入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解 ...

【CDA干貨】解析 Python 中 Response 對象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 ...

【CDA干貨】Python HTTP 請求工具對比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu) ...

【CDA干貨】用 SQL 驗證業(yè)務邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據(jù)驅(qū)動下的 ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...