2018-11-21
閱讀量:
908
缺失值分析
數(shù)據(jù)的缺失主要包括記錄的缺失和記錄中某個字段信息的缺失, 兩者都
會造成分析結(jié)果的不準確, 以下從缺失值產(chǎn)生的原因及影響等方面展開分
析。
(1) 缺失值產(chǎn)生的原因
1) 有些信息暫時無法獲取, 或者獲取信息的代價太大。
2) 有些信息是被遺漏的。 可能是因為輸入時認為不重要、 忘記填寫或
對數(shù)據(jù)理解錯誤等一些人為因素而遺漏, 也可能是由于數(shù)據(jù)采集設(shè)備的故
障、 存儲介質(zhì)的故障、 傳輸媒體的故障等非人為原因而丟失。
3) 屬性值不存在。 在某些情況下, 缺失值并不意味著數(shù)據(jù)有錯誤。 對
一些對象來說某些屬性值是不存在的, 如一個未婚者的配偶姓名、 一個兒童
的固定收入等。
(2) 缺失值的影響
1) 數(shù)據(jù)挖掘建模將丟失大量的有用信息。
2) 數(shù)據(jù)挖掘模型所表現(xiàn)出的不確定性更加顯著, 模型中蘊含的規(guī)律更
難把握。
3) 包含空值的數(shù)據(jù)會使建模過程陷入混亂, 導(dǎo)致不可靠的輸出。
(3) 缺失值的分析
使用簡單的統(tǒng)計分析, 可以得到含有缺失值的屬性的個數(shù), 以及每個屬
性的未缺失數(shù)、 缺失數(shù)與缺失率等






評論(0)


暫無數(shù)據(jù)
推薦帖子
0條評論
0條評論
0條評論