R語言對重復(fù)值的清洗:
重復(fù)值清洗會使用duplicated函數(shù)
使用duplicated函數(shù)查看數(shù)據(jù)表中的用戶ID列是否存在重復(fù)值,duplicated函數(shù)返回該字段每一行的檢查結(jié)果,重復(fù)的標(biāo)記為TURE,不重復(fù)的值標(biāo)記為FALSE。在下面的結(jié)果中可以看到數(shù)據(jù)表的用戶ID列最后四個值為重復(fù)值。
首先:查看列是否有重復(fù)
#查看特定列是否有重復(fù)
duplicated(loan$member_id)
[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[23] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE TRUE TRUE TRUE TRUE
對于包含重復(fù)值的數(shù)據(jù)表,可以使用unique函數(shù)提取數(shù)據(jù)表中的唯一值,并用唯一值覆蓋原有數(shù)據(jù),達(dá)到去除重復(fù)值的目的。下面的代碼提取了loan數(shù)據(jù)表中的唯一值,并重新賦給loan數(shù)據(jù)表。此時(shí)loan數(shù)據(jù)表中就不包含重復(fù)值了。
其次:刪除重復(fù)值:
#刪除重復(fù)值,返回唯一值列表
loan=unique(loan)
去除完重復(fù)值后,再次使用duplicated函數(shù)查看,返回的結(jié)果中都為FALSE,已經(jīng)沒有重復(fù)值了。
1
2#查看重復(fù)值
duplicated(loan$member_id)
[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[23] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
以上是對重復(fù)值處理的方法!








暫無數(shù)據(jù)