R語(yǔ)言對(duì)重復(fù)值的清洗:
重復(fù)值清洗會(huì)使用duplicated函數(shù)
使用duplicated函數(shù)查看數(shù)據(jù)表中的用戶(hù)ID列是否存在重復(fù)值,duplicated函數(shù)返回該字段每一行的檢查結(jié)果,重復(fù)的標(biāo)記為T(mén)URE,不重復(fù)的值標(biāo)記為FALSE。在下面的結(jié)果中可以看到數(shù)據(jù)表的用戶(hù)ID列最后四個(gè)值為重復(fù)值。
首先:查看列是否有重復(fù)
#查看特定列是否有重復(fù)
duplicated(loan$member_id)
[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[23] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE TRUE TRUE TRUE TRUE
對(duì)于包含重復(fù)值的數(shù)據(jù)表,可以使用unique函數(shù)提取數(shù)據(jù)表中的唯一值,并用唯一值覆蓋原有數(shù)據(jù),達(dá)到去除重復(fù)值的目的。下面的代碼提取了loan數(shù)據(jù)表中的唯一值,并重新賦給loan數(shù)據(jù)表。此時(shí)loan數(shù)據(jù)表中就不包含重復(fù)值了。
其次:刪除重復(fù)值:
#刪除重復(fù)值,返回唯一值列表
loan=unique(loan)
去除完重復(fù)值后,再次使用duplicated函數(shù)查看,返回的結(jié)果中都為FALSE,已經(jīng)沒(méi)有重復(fù)值了。
1
2#查看重復(fù)值
duplicated(loan$member_id)
[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[23] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
以上是對(duì)重復(fù)值處理的方法!








暫無(wú)數(shù)據(jù)