
SPSS缺失值得分析處理
在資料收集的過(guò)程中,由于各種原因可能導(dǎo)致數(shù)據(jù)收集不全,就會(huì)產(chǎn)生缺失值,且這種情況往往無(wú)法避免。如果缺失值處理不當(dāng),就會(huì)導(dǎo)致分析結(jié)果精度降低,出現(xiàn)偏倚甚至是錯(cuò)誤的理論,因此缺失值的分析顯得尤為重要。數(shù)據(jù)的缺失經(jīng)常會(huì)存在著一定的規(guī)律,為了認(rèn)識(shí)和研究缺失數(shù)據(jù),按照數(shù)據(jù)缺失形式,我們常將其分為單元缺失與項(xiàng)目缺失兩種。
(1)單元缺失:只針對(duì)需調(diào)查的個(gè)案進(jìn)行調(diào)查而沒(méi)有得到個(gè)案信息。如對(duì)整個(gè)班級(jí)進(jìn)行調(diào)查,發(fā)放60分調(diào)查表,部分調(diào)查對(duì)象未交回調(diào)查表導(dǎo)致的資料缺失。這種缺失在數(shù)據(jù)分析階段常常無(wú)能為力。
(2)項(xiàng)目缺失:指在調(diào)查內(nèi)容中某些變量的觀測(cè)結(jié)果有缺失。如對(duì)整個(gè)班級(jí)進(jìn)行調(diào)查后,收回的調(diào)查表中,部分女生因?yàn)椤氨C堋倍刺顚?xiě)體重一項(xiàng),造成資料缺失。
無(wú)論缺失數(shù)據(jù)的形式是單元缺失還是項(xiàng)目缺失,從缺失機(jī)制與方式上又可將其分為完全隨機(jī)缺失、隨機(jī)缺失與非隨機(jī)缺失。
(1)完全隨機(jī)缺失(Missing Completely at Random,MCAR)指已評(píng)價(jià)的結(jié)果或即將要進(jìn)行的評(píng)價(jià)結(jié)果中,研究對(duì)象的缺失率是獨(dú)立的。即缺失現(xiàn)象完全隨機(jī)發(fā)生,與自身或其他變量取值無(wú)關(guān)。如調(diào)查進(jìn)行中,因被調(diào)查對(duì)象接到電話,或緊急事件馬上離開(kāi),調(diào)查無(wú)完成導(dǎo)致缺失。
(2)隨機(jī)缺失(Missing at Random,MAR)指缺失數(shù)據(jù)的發(fā)生與數(shù)據(jù)庫(kù)中其他無(wú)缺失變量的取值有關(guān)。某一觀察值缺失的概率僅依賴(lài)已有的觀察結(jié)果。比如,研究某新藥對(duì)高血壓患者的療效,但一些血壓過(guò)高的患者,根據(jù)納入標(biāo)準(zhǔn)予以排除。MAR是最常見(jiàn)的缺失機(jī)制。
(3)非隨機(jī)缺失(MIssing Not at Random,MNAR)指數(shù)據(jù)的缺失不僅與其他變量的取值有關(guān),缺失率與缺失數(shù)據(jù)有關(guān),也和自身有關(guān)。這種缺失大都不是偶然因素所造成的,常常是不可忽略的,比如在調(diào)查收入時(shí),收入高的人出于各種原因不愿意提供家庭年收入值。對(duì)于MNAR此種缺失機(jī)制,目前尚無(wú)特別有效的方法能進(jìn)行處理。
識(shí)別缺失數(shù)據(jù)的產(chǎn)生機(jī)制是極其重要的,首先這涉及到代表性問(wèn)題,從統(tǒng)計(jì)上說(shuō),非隨機(jī)缺失的數(shù)據(jù)會(huì)產(chǎn)生偏估計(jì),因此不能很好地代表總體。其次,它決定數(shù)據(jù)插補(bǔ)方法的選擇。隨機(jī)缺失數(shù)據(jù)處理相對(duì)比較簡(jiǎn)單,但非隨機(jī)缺失數(shù)據(jù)處理比較困難,原因在于偏差的程度難以把握。
面對(duì)不同的數(shù)據(jù)缺失情況,那我們?cè)撊绾翁幚砟??大致上我們把處理方法歸為以下幾類(lèi)。
1、刪除缺失值
最常見(jiàn)、最簡(jiǎn)單的處理缺失數(shù)據(jù)的方法,使用這種方法時(shí),如果任何個(gè)案在某一變量含有缺失數(shù)據(jù)的話,就把相對(duì)應(yīng)的個(gè)案從分析中剔除。如果缺失值所占比例較小 的話,這一方法十分有效。然而,這種方法卻有很大的局限性,它是以減少樣本量來(lái)?yè)Q取信息的完備,會(huì)造成資源的大量浪費(fèi),丟棄了大量隱藏在這些對(duì)象中的信息。
2、缺失值代替
即“轉(zhuǎn)換”選項(xiàng)卡中“替換缺失值”菜單過(guò)程。此過(guò)程將所有的記錄看成一個(gè)序列,然后采用某種指標(biāo)對(duì)缺失值進(jìn)行填充,它實(shí)際上專(zhuān)門(mén)用于解決時(shí)間序列模型中的缺失值問(wèn)題。雖然其中的一些填充方法也可以用于普通數(shù)據(jù),但相比之下,如果在序列數(shù)據(jù)中使用該過(guò)程可能得不償失,應(yīng)當(dāng)謹(jǐn)慎使用。常用的填充方式由算術(shù)均數(shù)、缺失值鄰近點(diǎn)的算術(shù)均數(shù)、中位數(shù)以及線性插入等。
3、缺失值分析
此過(guò)程是SPSS專(zhuān)門(mén)針對(duì)缺失值分析而提供的模塊,他提供了對(duì)缺失值問(wèn)題全面而強(qiáng)大的分析能力,主要功能有以下3種:
(1)缺失值的描述和快速診斷:用靈活的診斷報(bào)告來(lái)評(píng)估缺失值問(wèn)題的嚴(yán)重性,用戶(hù)可以觀察到它們?cè)谀男┳兞恐谐霈F(xiàn),比例為多少,是否與其他變量取值有關(guān),從而得知這些缺失值出現(xiàn)是否會(huì)影響分析結(jié)論。
(2)得到更精確的統(tǒng)計(jì)量:提供了多種方法用于估計(jì)含缺失值數(shù)據(jù)的均值、相關(guān)矩陣或協(xié)方差矩陣,通過(guò)這些方法計(jì)算出的統(tǒng)計(jì)量將更加可靠。
(3)用估計(jì)值替換缺失值:使用EM或回歸法,用戶(hù)可以從未缺失數(shù)據(jù)的分布情況中推算出缺失數(shù)據(jù)的估計(jì)值,從而能有效地使用所有數(shù)據(jù)進(jìn)行分析,來(lái)提高統(tǒng)計(jì)結(jié)果的可信度。
在前述的3種缺失機(jī)制中,非隨機(jī)缺失很難得到有效的統(tǒng)計(jì)學(xué)處理,SPSS的缺失值分析模塊主要是對(duì)MCAR和MAR的情形進(jìn)行分析,尤其是后者。
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢(xún)效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類(lèi)型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專(zhuān)業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專(zhuān)業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶(hù)體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷(xiāo)案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷(xiāo)成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類(lèi)分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類(lèi)分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10