
SPSS教程:判斷數(shù)據(jù)正態(tài)分布的超多方法
當(dāng)我們應(yīng)用統(tǒng)計(jì)方法對(duì)數(shù)據(jù)進(jìn)行分析時(shí),會(huì)發(fā)現(xiàn)許多計(jì)量資料的分析方法,例如常用的T檢驗(yàn)、方差分析、相關(guān)分析以及線性回歸等等,都要求數(shù)據(jù)服從正態(tài)分布或者近似正態(tài)分布,但這一前提條件往往被使用者所忽略。因此為了保證數(shù)據(jù)滿足上述統(tǒng)計(jì)方法的應(yīng)用條件,對(duì)原始數(shù)據(jù)進(jìn)行正態(tài)性檢驗(yàn)是十分必要的,這一節(jié)內(nèi)容我們主要向大家介紹如何對(duì)數(shù)據(jù)資料進(jìn)行正態(tài)性檢驗(yàn)。
一、正態(tài)性檢驗(yàn):偏度和峰度
1、偏度(Skewness):描述數(shù)據(jù)分布不對(duì)稱的方向及其程度(見圖1)。
當(dāng)偏度≈0時(shí),可認(rèn)為分布是對(duì)稱的,服從正態(tài)分布;
當(dāng)偏度>0時(shí),分布為右偏,即拖尾在右邊,峰尖在左邊,也稱為正偏態(tài);
當(dāng)偏度<0時(shí),分布為左偏,即拖尾在左邊,峰尖在右邊,也稱為負(fù)偏態(tài);
注意:數(shù)據(jù)分布的左偏或右偏,指的是數(shù)值拖尾的方向,而不是峰的位置,容易引起誤解。
2、峰度(Kurtosis):描述數(shù)據(jù)分布形態(tài)的陡緩程度(圖2)。
當(dāng)峰度≈0時(shí),可認(rèn)為分布的峰態(tài)合適,服從正態(tài)分布(不胖不瘦);
當(dāng)峰度>0時(shí),分布的峰態(tài)陡峭(高尖);
當(dāng)峰度<0時(shí),分布的峰態(tài)平緩(矮胖);
利用偏度和峰度進(jìn)行正態(tài)性檢驗(yàn)時(shí),可以同時(shí)計(jì)算其相應(yīng)的Z評(píng)分(Z-score),即:偏度Z-score=偏度值/標(biāo)準(zhǔn)誤,峰度Z-score=峰度值/標(biāo)準(zhǔn)誤。在α=0.05的檢驗(yàn)水平下,若Z-score在±1.96之間,則可認(rèn)為資料服從正態(tài)分布。
了解偏度和峰度這兩個(gè)統(tǒng)計(jì)量的含義很重要,在對(duì)數(shù)據(jù)進(jìn)行正態(tài)轉(zhuǎn)換時(shí),需要將其作為參考,選擇合適的轉(zhuǎn)換方法。
3、SPSS操作方法
以分析某人群BMI的分布特征為例。
(1) 方法一
選擇Analyze → Descriptive Statistics → Frequencies
將BMI選入Variable(s)框中 → 點(diǎn)擊Statistics → 在Distribution框中勾選Skewness和Kurtosis
(2) 方法二
選擇Analyze → Descriptive Statistics → Descriptives
將BMI選入Variable(s)框中 → 點(diǎn)擊Options → 在Distribution框中勾選Skewness和Kurtosis
4、結(jié)果解讀
在結(jié)果輸出的Descriptives部分,對(duì)變量BMI進(jìn)行了基本的統(tǒng)計(jì)描述,同時(shí)給出了其分布的偏度值0.194(標(biāo)準(zhǔn)誤0.181),Z-score = 0.194/0.181 = 1.072,峰度值0.373(標(biāo)準(zhǔn)誤0.360),Z-score = 0.373/0.360 = 1.036。偏度值和峰度值均≈0,Z-score均在±1.96之間,可認(rèn)為資料服從正態(tài)分布。
二、正態(tài)性檢驗(yàn):圖形判斷
1、直方圖:表示連續(xù)性變量的頻數(shù)分布,可以用來考察分布是否服從正態(tài)分布
(1)選擇Graphs → Legacy Diaiogs → Histogram
(2)將BMI選入Variable中,勾選Display normal curve繪制正態(tài)曲線
2、P-P圖和Q-Q圖
(1) P-P圖反映了變量的實(shí)際累積概率與理論累積概率的符合程度,Q-Q圖反映了變量的實(shí)際分布與理論分布的符合程度,兩者意義相似,都可以用來考察數(shù)據(jù)資料是否服從某種分布類型。若數(shù)據(jù)服從正態(tài)分布,則數(shù)據(jù)點(diǎn)應(yīng)與理論直線(即對(duì)角線)基本重合。
(2) SPSS操作:以P-P圖為例
選擇Analyze → Descriptive Statistics → P-P Plots
將BMI選入Variables中,Test Distribution選擇Normal,其他選項(xiàng)默認(rèn)即可。
三、正態(tài)性檢驗(yàn):非參數(shù)檢驗(yàn)分析法
1、正態(tài)性檢驗(yàn)屬于非參數(shù)檢驗(yàn),原假設(shè)為“樣本來自的總體與正態(tài)分布無顯著性差異,即符合正態(tài)分布”,也就是說P>0.05才能說明資料符合正態(tài)分布。
通常正態(tài)分布的檢驗(yàn)方法有兩種,一種是Shapiro-Wilk檢驗(yàn),適用于小樣本資料(SPSS規(guī)定樣本量≤5000),另一種是Kolmogorov–Smirnov檢驗(yàn),適用于大樣本資料(SPSS規(guī)定樣本量>5000)。
2、SPSS操作
(1) 方法一:Kolmogorov–Smirnov檢驗(yàn)方法可以通過非參數(shù)檢驗(yàn)的途徑實(shí)現(xiàn)
選擇Analyze → Nonparametric Tests → Legacy Dialogs → 1-Sample K-S
將BMI選入Test Variable List中,在Test Distribution框中勾選Normal,點(diǎn)擊OK完成操作。
(2) 方法二:Explore方法
選擇Analyze → Descriptive Statistics → Explore
將BMI選入Dependent List中,點(diǎn)擊Plots,勾選Normality plots with tests,在Descriptive框中勾選Histogram,Boxplots選擇None,點(diǎn)擊OK完成操作。
3、結(jié)果解讀
(1)在結(jié)果輸出的Descriptives部分,對(duì)變量BMI進(jìn)行了基本的統(tǒng)計(jì)描述,同時(shí)給出了其分布的偏度值、峰度值及其標(biāo)準(zhǔn)誤,具體意義參照上面介紹的內(nèi)容。
(2)在結(jié)果輸出的Tests of Normality部分,給出了Shapiro-Wilk檢驗(yàn)及Kolmogorov-Smirnov檢驗(yàn)的結(jié)果,P值分別為0.200和0.616,在α=0.05的檢驗(yàn)水準(zhǔn)下,P>0.05,不拒絕原假設(shè),可認(rèn)為資料服從正態(tài)分布。
(3)在結(jié)果輸出的最后部分,同時(shí)給出了直方圖和Q-Q圖,具體意義參照上面介紹的內(nèi)容。建議可以直接使用Explore方法,結(jié)果中不僅可以輸出偏度值,峰度值,繪制直方圖,Q-Q圖,還可以輸出非參數(shù)檢驗(yàn)的結(jié)果,一舉多得。
四、注意事項(xiàng)
事實(shí)上,Shapiro-Wilk檢驗(yàn)及Kolmogorov-Smirnov檢驗(yàn)從實(shí)用性的角度,遠(yuǎn)不如圖形工具進(jìn)行直觀判斷好用。在使用這兩種檢驗(yàn)方法的時(shí)候要注意,當(dāng)樣本量較少的時(shí)候,檢驗(yàn)結(jié)果不夠敏感,即使數(shù)據(jù)分布有一定的偏離也不一定能檢驗(yàn)出來;而當(dāng)樣本量較大的時(shí)候,檢驗(yàn)結(jié)果又會(huì)太過敏感,只要數(shù)據(jù)稍微有一點(diǎn)偏離,P值就會(huì)<0.05,檢驗(yàn)結(jié)果傾向于拒絕原假設(shè),認(rèn)為數(shù)據(jù)不服從正態(tài)分布。所以,如果樣本量足夠多,即使檢驗(yàn)結(jié)果P<0.05,數(shù)據(jù)來自的總體也可能是服從正態(tài)分布的。
因此,在實(shí)際的應(yīng)用中,往往會(huì)出現(xiàn)這樣的情況,明明直方圖顯示分布很對(duì)稱,但正態(tài)性檢驗(yàn)的結(jié)果P值卻<0.05,拒絕原假設(shè)認(rèn)為不服從正態(tài)分布。此時(shí)建議大家不要太刻意追求正態(tài)性檢驗(yàn)的P值,一定要參考直方圖、P-P圖等圖形工具來幫助判斷。很多統(tǒng)計(jì)學(xué)方法,如T檢驗(yàn)、方差分析等,與其說要求數(shù)據(jù)嚴(yán)格服從正態(tài)分布,不如說“數(shù)據(jù)分布不要過于偏態(tài)”更為合適。
有專家根據(jù)經(jīng)驗(yàn)提出,標(biāo)準(zhǔn)差超過均值的1/2時(shí)提示數(shù)據(jù)不服從正態(tài)分布,或者四分位間距與標(biāo)準(zhǔn)差的比值在1.35左右時(shí)提示服從正態(tài)分布,這些可以作為正態(tài)性檢驗(yàn)的一個(gè)粗略判斷依據(jù),僅供參考。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03