
圖解spss探索分析實(shí)例
探索分析是在對(duì)數(shù)據(jù)的基本特征統(tǒng)計(jì)量有初步了解的基礎(chǔ)上,對(duì)數(shù)據(jù)進(jìn)行的更為深入詳細(xì)的描述性觀察分析。它在一般描述性統(tǒng)計(jì)指標(biāo)的基礎(chǔ)上,增加了有關(guān)數(shù)據(jù)其他特征的文字與圖形描述,顯得更加細(xì)致與全面,有助于用戶思考對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步分析的方案。主要的分析如下:
(1)觀察數(shù)據(jù)的分布特征:通過(guò)繪制箱鎖圖和莖葉圖等圖形,直觀地反映數(shù)據(jù)的分布形式和數(shù)據(jù)的一些規(guī)律,包括考察數(shù)據(jù)中是否存在異常值等。過(guò)大或過(guò)小的數(shù)據(jù)均有可能是奇異值、影響點(diǎn)或錯(cuò)誤數(shù)據(jù)。尋找異常值,并分析原因,然后決定是否從分析中刪除這些數(shù)據(jù)。因?yàn)槠娈愔岛陀绊扅c(diǎn)往往對(duì)分析的影響較大,不能真實(shí)地反映數(shù)據(jù)的總體特征。
(2)正態(tài)分布檢驗(yàn):檢驗(yàn)數(shù)據(jù)是否服從正態(tài)分布。很多檢驗(yàn)?zāi)軌蜻M(jìn)行的前提即總體數(shù)據(jù)分布服從正態(tài)分布。因此,檢驗(yàn)數(shù)據(jù)是否符合正態(tài)分布,就決定了它們是否能用只對(duì)正態(tài)分布數(shù)據(jù)適用的分析方法。
(3)方差齊性檢驗(yàn):用Levene檢驗(yàn)比較各組數(shù)據(jù)的方差是否相等,以判定數(shù)據(jù)的離散程度是否存在差異。例如在進(jìn)行獨(dú)立右邊的T檢驗(yàn)之前,就需要事先確定兩組數(shù)據(jù)的方差是否相同。如果通過(guò)分析發(fā)現(xiàn)各組數(shù)據(jù)的方差不同,還需要對(duì)數(shù)據(jù)進(jìn)行方差分析,那么就需要對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換使得方差盡可能相同。Levene檢驗(yàn)進(jìn)行方差齊性檢驗(yàn)時(shí),不強(qiáng)求數(shù)據(jù)必須服從正態(tài)分布,它先計(jì)算出各個(gè)觀測(cè)值減去組內(nèi)均值的差,然后再通過(guò)這些差值的絕對(duì)值進(jìn)行單因素方差分析。如果得到的顯著性水平(Significance)小于0.05,那么就可以拒絕方差相同的假設(shè)。
探索分析的具體操作步驟如下:
打開(kāi)數(shù)據(jù)文件,選擇【分析】(Analyze)菜單,單擊【描述統(tǒng)計(jì)】(Descriptive Statistics)命令下的【探索】(Explore)命令,SPSS將彈出"探索"(Explore)對(duì)話框,如圖3-9所示。
在"探索"(Explore)對(duì)話框中,左邊的變量列表為原變量列表,通過(guò)單擊 按鈕可選擇一個(gè)或者幾個(gè)變量進(jìn)入右邊的"因變量列表"(Dependent List)框、"因子列表"(Factor List)框和"標(biāo)注個(gè)案"(Label Cases by)列表框。因變量是用戶所研究的目標(biāo)變量。因子變量是影響因變量的因素,例如分組變量。標(biāo)注個(gè)案是區(qū)分每個(gè)觀測(cè)量的變量,如雇員的ID等。例如,研究同一班級(jí)男生和女生的身高差距時(shí),就可將"身高"變量列入"因變量列表"(Dependent List)框中,將"性別"列入"因子列表"(Factor List)框中,同時(shí)將學(xué)生的"學(xué)號(hào)"變量列入"標(biāo)注個(gè)案"(Label Cases by)列表框中。
如果有多個(gè)分組變量進(jìn)入"因子列表"列表框中,那么會(huì)以分組變量的各種取值進(jìn)行組合分組。如兩個(gè)分組變量各有2種取值,那么輸出的結(jié)果就會(huì)有4種組合分組。
在對(duì)話框下端的"輸出"(Display)框中有三個(gè)選項(xiàng):
兩者都(Both):默認(rèn)選項(xiàng),表示同時(shí)輸出描述統(tǒng)計(jì)量的統(tǒng)計(jì)表格和圖形。選擇此項(xiàng)將激活右邊的【統(tǒng)計(jì)量】(Statistics)和【繪制】(Plots)按鈕。
統(tǒng)計(jì)量(Statistics):表示只輸出統(tǒng)計(jì)表格,不輸出圖表。選擇此項(xiàng)將激活右邊的【統(tǒng)計(jì)量】(Statistics)按鈕,【繪制】(Plots)按鈕不被激活。
圖(Plots):表示只輸出圖表,不輸出統(tǒng)計(jì)表格。選擇此項(xiàng)將激活右邊的【繪制】(Plots)按鈕,【統(tǒng)計(jì)量】(Statistics)按鈕不被激活。
單擊【統(tǒng)計(jì)量】(Statistics)按鈕,打開(kāi)"探索:統(tǒng)計(jì)量(Explore:Statistics)"對(duì)話框,如圖3-10所示。
在該對(duì)話框中,4個(gè)選擇項(xiàng)分別如下:
描述性(Descriptives):選擇此項(xiàng),將生成描述性統(tǒng)計(jì)表格。表中顯示樣本數(shù)據(jù)的描述統(tǒng)計(jì)量,包括平均值、中位數(shù)、5%調(diào)整平均數(shù)、標(biāo)準(zhǔn)誤、方差、標(biāo)準(zhǔn)差、最大值、最小值、組距、四分位數(shù)、峰度、偏度及峰度和偏度的標(biāo)準(zhǔn)誤。此項(xiàng)為默認(rèn)選項(xiàng),在下面的"均值的置信區(qū)間"(Confidence Interval for Mean)文本框中,用戶還可輸入數(shù)值指定均值的置信區(qū)間的置信度,系統(tǒng)默認(rèn)的置信度為95%。
M-估計(jì)量(M-estimators):選擇此項(xiàng),將計(jì)算并生成穩(wěn)健估計(jì)量。M估計(jì)在計(jì)算時(shí)對(duì)所有觀測(cè)量賦予權(quán)重,隨觀測(cè)量距分布中心的遠(yuǎn)近而變化,通過(guò)給遠(yuǎn)離中心值的數(shù)據(jù)賦予較小的權(quán)重來(lái)減小異常值的影響。
界外值(Outliers):選擇此項(xiàng),將輸出分析數(shù)據(jù)中的5個(gè)最大值和5個(gè)最小值作為異常嫌疑值。
百分位數(shù)(Percentiles):選擇此項(xiàng),將計(jì)算并顯示指定的百分位數(shù),包括5%、10%、25%、50%、75%、90%和95%等。
"探索:統(tǒng)計(jì)量"對(duì)話框中的4個(gè)選項(xiàng)為復(fù)選框,用戶可進(jìn)行多項(xiàng)選擇,單擊【繼續(xù)】(Continue)按鈕,即可返回"探索"主對(duì)話框。
單擊【繪制】(Plots)按鈕,打開(kāi)"探索:圖"(Explore:Plots)對(duì)話框,如圖3-11所示。
"探索:圖"對(duì)話框中有如下4個(gè)選擇組:
(1)箱圖(Boxplots)欄(單選項(xiàng)組):箱圖,又稱箱鎖圖。如果用戶在"探索"主對(duì)話框的"因變量列表"(Dependent List)框中輸入了多個(gè)變量名,則在此選擇組中進(jìn)行選擇,可確定箱鎖圖的生成方式。箱鎖圖中,底部的水平線段是數(shù)據(jù)的最小值(異常點(diǎn)除外),頂部的水平線段是數(shù)據(jù)的最大值(異常點(diǎn)除外),中間矩形箱子的底所在的位置是數(shù)據(jù)的第一個(gè)四分位數(shù)(即25%分位數(shù)),箱子頂部所在位置是數(shù)據(jù)的第三個(gè)四分位數(shù)據(jù)(即75%分位數(shù))。箱子中間的水平線段刻畫的是數(shù)據(jù)的中位數(shù)(即50%分位數(shù))。
按因子水平分組(Factor levels together,系統(tǒng)默認(rèn)):選擇此項(xiàng),將為每個(gè)因變量創(chuàng)建一個(gè)箱鎖圖,在每個(gè)箱鎖圖內(nèi)根據(jù)分組變量的不同水平的取值創(chuàng)建箱形單元。
不分組(Dependents together):選擇此項(xiàng),將為每個(gè)分組變量的水平創(chuàng)建一個(gè)箱鎖圖,在每個(gè)箱鎖圖內(nèi)用不同的顏色區(qū)分不同因變量所對(duì)應(yīng)的箱形單元,方便用戶進(jìn)行比較。
無(wú)(None):選擇此項(xiàng),不創(chuàng)建箱圖。
(2)描述性(Descriptive)欄(復(fù)選項(xiàng)):選擇該組內(nèi)的選項(xiàng),可以生成莖葉圖和(或)直方圖。在箱圖(Boxplots)組內(nèi)選擇的選項(xiàng)不同,則生成的莖葉圖和直方圖也不相同。選擇"按因子水平分組"單選按鈕時(shí),在創(chuàng)建莖葉圖和(或)直方圖時(shí),首先會(huì)根據(jù)因變量的不同進(jìn)行分類,為每一個(gè)因變量對(duì)應(yīng)的不同分組變量的不同水平創(chuàng)建一個(gè)莖葉圖和(或)直方圖;選擇"不分組"單選按鈕時(shí),在創(chuàng)建莖葉圖和(或)直方圖時(shí),則首先根據(jù)不同分組變量水平的不同,為每一個(gè)因變量創(chuàng)建一個(gè)莖葉圖和(或)直方圖。
莖葉圖(Stem-and-leaf,系統(tǒng)默認(rèn)):莖葉圖主要由3個(gè)部分組成,即頻率(Frequency)、莖(Stem)和葉(Leaf),在圖中按從左到右的順序依次排列,在圖的底端,注明了莖的寬度(Stem Width)和每一葉所代表的觀測(cè)量數(shù)(Each Leaf)。莖葉圖中,莖表示數(shù)據(jù)的整數(shù)部分,葉表示數(shù)據(jù)的小數(shù)部分(小數(shù)位數(shù)只有一位,頻數(shù)的數(shù)值有多大,則對(duì)應(yīng)的小數(shù)就有多少個(gè)),將莖和葉的數(shù)值組合起來(lái)再乘以莖寬,便是該數(shù)據(jù)的值。由于莖葉圖不僅僅能表示數(shù)據(jù)的頻數(shù)分布,還能近似地表示數(shù)據(jù)的大小,因此它比直方圖表達(dá)的信息更全面。
直方圖(Histogram):直接繪制直方圖的步驟詳見(jiàn)第10章。
(3)帶檢驗(yàn)的正態(tài)圖(Normality plots with test,復(fù)選框):選擇此項(xiàng),將進(jìn)行正態(tài)性檢驗(yàn),并生成正態(tài)Q-Q概率圖和無(wú)趨勢(shì)正態(tài)Q-Q概率圖。
(4)伸展與級(jí)別Levene檢驗(yàn)(Spread vs level with Levene Test)欄(單選項(xiàng)組):對(duì)所有的展布-水平圖進(jìn)行方差齊性檢驗(yàn)和數(shù)據(jù)轉(zhuǎn)換,同時(shí)輸出回歸直線的斜率及方差齊性的Levene檢驗(yàn),但如果沒(méi)有指定分組變量,則此選項(xiàng)無(wú)效。
無(wú)(None):不進(jìn)行Levene檢驗(yàn),系統(tǒng)默認(rèn)。選擇此項(xiàng),SPSS將不產(chǎn)生回歸直線的斜率和方差齊性檢驗(yàn)。
冪估計(jì)(Power Estimation):對(duì)每組數(shù)據(jù)產(chǎn)生一個(gè)中位數(shù)的自然對(duì)數(shù)及四個(gè)分位數(shù)的自然對(duì)數(shù)的散點(diǎn)圖。
已轉(zhuǎn)換(Transformed):變換原始數(shù)據(jù),用戶可在后面的參數(shù)框中選擇數(shù)據(jù)變換類型。
未轉(zhuǎn)換(Untransformed):不變換原始數(shù)據(jù)時(shí)選擇此項(xiàng)。
用戶在"探索:圖"對(duì)話框中進(jìn)行選擇后,單擊【繼續(xù)】(Continue)按鈕,即可返回"探索"主對(duì)話框。
單擊【選項(xiàng)】(Options)按鈕,打開(kāi)"探索:選項(xiàng)"(Explore:Options)對(duì)話框,如圖3-12所示。
在該對(duì)話框中,可選擇缺失值的處理方式,SPSS提供了3種處理方式:
按列表排除個(gè)案(Exclude cases listwise,系統(tǒng)默認(rèn)):選擇此項(xiàng),對(duì)所有的分析過(guò)程剔除分組變量和因變量中所有帶有缺失值的觀測(cè)量數(shù)據(jù);
按對(duì)排除個(gè)案(Exclude cases pairwise):同時(shí)剔除帶缺失值的觀測(cè)量及與缺失值有成對(duì)關(guān)系的觀測(cè)量。在當(dāng)前分析過(guò)程中用到的變量數(shù)據(jù)中剔除帶有缺失值的觀測(cè)量數(shù)據(jù),在其他分析過(guò)程中可能包含缺失值;
報(bào)告值(Report values):選擇此項(xiàng),將分組變量的缺失值單獨(dú)分為一組,在輸出頻數(shù)表的同時(shí)輸出缺失值。
用戶在"探索:選項(xiàng)"對(duì)話框中進(jìn)行選擇后,單擊【繼續(xù)】(Continue)按鈕,即可返回"探索"主對(duì)話框。
單擊【確定】(OK)按鈕,即可在結(jié)果輸出窗口中得到探索分析過(guò)程的數(shù)據(jù)概述、基本統(tǒng)計(jì)描述表、極端值列表、正態(tài)分布檢驗(yàn)、方差齊性檢驗(yàn)、莖葉圖、直方圖、箱鎖圖、正態(tài)分布Q-Q圖、離散正態(tài)分布Q-Q圖等圖表。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10