99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
2022-02-14 閱讀量: 1277
統(tǒng)計(jì)學(xué)習(xí)——數(shù)據(jù)清洗

數(shù)據(jù)清洗是指發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識(shí)別的錯(cuò)誤的最后一道程序,包括檢查數(shù)據(jù)一致性,處理無(wú)效值和缺失值等。與問(wèn)卷審核不同,錄入后的數(shù)據(jù)清理一般是由計(jì)算機(jī)而不是人工完成。

數(shù)據(jù)清洗(Data cleaning)– 對(duì)數(shù)據(jù)進(jìn)行重新審查和校驗(yàn)的過(guò)程,目的在于刪除重復(fù)信息、糾正存在的錯(cuò)誤,并提供數(shù)據(jù)一致性

數(shù)據(jù)清洗從名字上也看的出就是把“臟”的“洗掉”,指發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識(shí)別的錯(cuò)誤的最后一道程序,包括檢查數(shù)據(jù)一致性,處理無(wú)效值和缺失值等。因?yàn)?a target="_blank">數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是面向某一主題的數(shù)據(jù)的集合,這些數(shù)據(jù)從多個(gè)業(yè)務(wù)系統(tǒng)中抽取而來(lái)而且包含歷史數(shù)據(jù),這樣就避免不了有的數(shù)據(jù)是錯(cuò)誤數(shù)據(jù)、有的數(shù)據(jù)相互之間有沖突,這些錯(cuò)誤的或有沖突的數(shù)據(jù)顯然是我們不想要的,稱為“臟數(shù)據(jù)”。我們要按照一定的規(guī)則把“臟數(shù)據(jù)”“洗掉”,這就是數(shù)據(jù)清洗。而數(shù)據(jù)清洗的任務(wù)是過(guò)濾那些不符合要求的數(shù)據(jù),將過(guò)濾的結(jié)果交給業(yè)務(wù)主管部門(mén),確認(rèn)是否過(guò)濾掉還是由業(yè)務(wù)單位修正之后再進(jìn)行抽取。不符合要求的數(shù)據(jù)主要是有不完整的數(shù)據(jù)、錯(cuò)誤的數(shù)據(jù)、重復(fù)的數(shù)據(jù)三大類。數(shù)據(jù)清洗是與問(wèn)卷審核不同,錄入后的數(shù)據(jù)清理一般是由計(jì)算機(jī)而不是人工完成 。

一致性檢查

一致性檢查(consistency check)是根據(jù)每個(gè)變量的合理取值范圍和相互關(guān)系,檢查數(shù)據(jù)是否合乎要求,發(fā)現(xiàn)超出正常范圍、邏輯上不合理或者相互矛盾的數(shù)據(jù)。例如,用1-7級(jí)量表測(cè)量的變量出現(xiàn)了0值,體重出現(xiàn)了負(fù)數(shù),都應(yīng)視為超出正常值域范圍。SPSS、SAS、和Excel等計(jì)算機(jī)軟件都能夠根據(jù)定義的取值范圍,自動(dòng)識(shí)別每個(gè)超出范圍的變量值。具有邏輯上不一致性的答案可能以多種形式出現(xiàn):例如,許多調(diào)查對(duì)象說(shuō)自己開(kāi)車上班,又報(bào)告沒(méi)有汽車;或者調(diào)查對(duì)象報(bào)告自己是某品牌的重度購(gòu)買(mǎi)者和使用者,但同時(shí)又在熟悉程度量表上給了很低的分值。發(fā)現(xiàn)不一致時(shí),要列出問(wèn)卷序號(hào)、記錄序號(hào)、變量名稱、錯(cuò)誤類別等,便于進(jìn)一步核對(duì)和糾正。

無(wú)效值和缺失值的處理

由于調(diào)查、編碼和錄入誤差,數(shù)據(jù)中可能存在一些無(wú)效值和缺失值,需要給予適當(dāng)?shù)奶幚?。常用的處理方法有:估算,整例刪除,變量刪除和成對(duì)刪除。

估算(estimation)。最簡(jiǎn)單的辦法就是用某個(gè)變量的樣本均值中位數(shù)眾數(shù)代替無(wú)效值和缺失值。這種辦法簡(jiǎn)單,但沒(méi)有充分考慮數(shù)據(jù)中已有的信息,誤差可能較大。另一種辦法就是根據(jù)調(diào)查對(duì)象對(duì)其他問(wèn)題的答案,通過(guò)變量之間的相關(guān)分析或邏輯推論進(jìn)行估計(jì)。例如,某一產(chǎn)品的擁有情況可能與家庭收入有關(guān),可以根據(jù)調(diào)查對(duì)象的家庭收入推算擁有這一產(chǎn)品的可能性。

整例刪除(casewise deletion)是剔除含有缺失值的樣本。由于很多問(wèn)卷都可能存在缺失值,這種做法的結(jié)果可能導(dǎo)致有效樣本量大大減少,無(wú)法充分利用已經(jīng)收集到的數(shù)據(jù)。因此,只適合關(guān)鍵變量缺失,或者含有無(wú)效值或缺失值的樣本比重很小的情況。

變量刪除(variable deletion)。如果某一變量的無(wú)效值和缺失值很多,而且該變量對(duì)于所研究的問(wèn)題不是特別重要,則可以考慮將該變量刪除。這種做法減少了供分析用的變量數(shù)目,但沒(méi)有改變樣本量。

成對(duì)刪除(pairwise deletion)是用一個(gè)特殊碼(通常是9、99、999等)代表無(wú)效值和缺失值,同時(shí)保留數(shù)據(jù)集中的全部變量和樣本。但是,在具體計(jì)算時(shí)只采用有完整答案的樣本,因而不同的分析因涉及的變量不同,其有效樣本量也會(huì)有所不同。這是一種保守的處理方法,最大限度地保留了數(shù)據(jù)集中的可用信息。

采用不同的處理方法可能對(duì)分析結(jié)果產(chǎn)生影響,尤其是當(dāng)缺失值的出現(xiàn)并非隨機(jī)且變量之間明顯相關(guān)時(shí)。因此,在調(diào)查中應(yīng)當(dāng)盡量避免出現(xiàn)無(wú)效值和缺失值,保證數(shù)據(jù)的完整性


21.7835
0
關(guān)注作者
收藏
評(píng)論(0)

發(fā)表評(píng)論

暫無(wú)數(shù)據(jù)
推薦帖子