R語言對重復(fù)值的清洗: 填充空值
我們爬取的數(shù)據(jù)會出現(xiàn)很多空值,怎么進行空值的填充呢?
對于數(shù)據(jù)表中的空值,有兩種處理方法,第一種是用0進行填充,第二種是刪除包含空值的行。
下面是第一種方法,將loan表中的空值填充為0.
#將空值填充為0
loan[is.na(loan)] <- 0
[/code]
第二種方法使用 刪除loan表中包含有空值的行。
[code lang="r"]
#刪除空值所在行
loan<-na.omit(loan)
[/code]
<h2>大小寫轉(zhuǎn)換</h2>
英文字母的大小寫和字符間的空格是影響數(shù)據(jù)統(tǒng)計的一個常見原因。
例如下面我們使用table函數(shù)對數(shù)據(jù)表按貸款狀態(tài)進行匯總時,相同的貸款狀態(tài)由于大小寫和空格被分割成多種狀態(tài)。造成統(tǒng)計數(shù)據(jù)不可用。下面我們對這個字段進行大小寫轉(zhuǎn)換和去除空格的清洗。
#按貸款狀態(tài)進行匯總
table(loan$loan_status)
執(zhí)行結(jié)果:
Fully Paid charged off Charged Off Charged Off Current fully paid fully Paid Fully paid Fully Paid
1 1 8 1 1 2 1 1 15
將英文字母轉(zhuǎn)換為小寫的函數(shù)是tolower,下面的代碼中我們將貸款狀態(tài)列統(tǒng)一轉(zhuǎn)化為小寫字母,然后重復(fù)賦給數(shù)據(jù)表中的貸款狀態(tài)列。
#將貸款狀態(tài)轉(zhuǎn)換為小寫
loan$loan_status=tolower(loan$loan_status)
轉(zhuǎn)化完成后,再次使用table函數(shù)按貸款狀態(tài)進行匯總,下面下面的結(jié)果中可以看到分類從之前的8個減少到了4個,并且的分類都為小寫字母。下面我們在繼續(xù)進行空格清洗。
#按貸款狀態(tài)進行匯總
table(loan$loan_status)
fully paid charged off charged off current fully paid
1 9 1 1 19
以上是對空值填充的所有方法,希望可以幫助大家!








暫無數(shù)據(jù)