
SPSS超詳細操作:分層回歸(hierarchical multiple regression)
1、問題與數(shù)據(jù)
最大攜氧能力(maximal aerobic capacity, VO2max)是評價人體健康的關鍵指標,但因測量方法復雜,不易實現(xiàn)。某研究者擬通過一些方便、易得的指標建立受試者最大攜氧能力的預測模型。
目前,該研究者已知受試者的年齡和性別與最大攜氧能力有關,但這種關聯(lián)強度并不足以進行回歸模型的預測。因此,該研究者擬逐個增加體重(第3個變量)和心率(第4個變量)兩個變量,并判斷是否可以增強模型的預測能力。
本研究中,研究者共招募100位受試者,分別測量他們的最大攜氧能力(VO2max),并收集年齡(age)、性別(gender)、體重(weight)和心率(heart_rate)變量信息,部分數(shù)據(jù)如下:
注:心率(heart_rate)測量的是受試者進行20分鐘低強度步行后的心率。
2、對問題的分析
研究者擬判斷逐個增加自變量(weight和heart_rate)后對因變量(VO2max)預測模型的改變。針對這種情況,我們可以使用分層回歸分析(hierarchical multiple regression),但需要先滿足以下8項假設:
假設1:因變量是連續(xù)變量
假設2:自變量不少于2個(連續(xù)變量或分類變量都可以)
假設3:具有相互獨立的觀測值
假設4:自變量和因變量之間存在線性關系
假設5:等方差性
假設6:不存在多重共線性
假設7:不存在顯著的異常值
假設8:殘差近似正態(tài)分布
那么,進行分層回歸分析時,如何考慮和處理這8項假設呢?
3、對假設的判斷
3.1 假設1-2
假設1和假設2分別要求因變量是連續(xù)變量、自變量不少于2個。這與研究設計有關,需根據(jù)實際情況判斷。
3.2 假設3-8
為了檢驗假設3-8,我們需要在SPSS中運行分層回歸,并對結果進行一一分析。
(1)點擊Analyze→Regression→Linear
出現(xiàn)下圖:
(2)將因變量(VO2max)放入Dependent欄,再將自變量(age和gender)放入Independent欄:
解釋:因研究者已知性別、年齡與最大攜氧能力的關系,我們先把這兩個變量放入模型。
(3)點擊Next,彈出下圖:
解釋:大家可能會注意到Independent(s)框中的標簽由-Block 1 of 1- 變?yōu)?Block 2 of 2-。這說明age和gender變量依舊存在于模型中,在- Block 2 of 2-中,大家可以點擊Previous查看。同時,Method欄應設置為“Enter”,一般是SPSS自動設置的;如果不是,也應人工設置為“Enter”。
(4) 將自變量(weight)放入Independent欄
解釋:放入weight變量是為了檢驗加入該變量后對age、gender-VO2max預測模型的影響。
(5)點擊Next,彈出下圖:
解釋:大家可能會注意到Independent(s)框中的標簽由-Block 2 of 2- 變?yōu)?Block 3 of 3-。同樣地,age、gender和weight變量依舊存在于模型中,可以點擊Previous查看。Method欄也應設置為“Enter”,如果不是,改為“Enter”。
(6)將自變量(heart_rate)放入Independent欄
解釋:放入heart_rate變量是為了檢驗加入該變量后對age、gender、weight-VO2max預測模型的影響。
(7)點擊Statistics,彈出下圖:
(8)在Regression Coefficient框內(nèi)點選Confidence intervals,在Residuals框內(nèi)點選Durbin-Watson和Casewise diagnosis,并在主對話框內(nèi)點選R squared change、Descriptives、Part and partial correlations和Collinearity diagnosis
(9) 點擊Continue,回到主界面。
(10)點擊Plots,彈出下圖:
(11)在Standardized Residual Plots對話框中點選Histogram和Normal probability,并點選Produce all partial plots
(12)點擊Continue回到主對話框
(13) 點擊Save
(14)在Predicted Values框內(nèi)點選Unstandardized,在Distances框內(nèi)點選Cook’s和Leverage values,在Residuals框內(nèi)點選Studentized和Studentized deleted
(15)點擊Continue→OK
經(jīng)過這些操作,Variable View 和Data View對話框中會增加5個變量:
這5個變量分別是未標化預測值(unstandardized predicted values,PRE_1),學生化殘差(studentized residuals,SRE_1),學生化刪除殘差(studentized deleted residuals,SDR_1),Cook距離(Cook's Distance values,COO_1)以及杠桿值(leverage values,LEV_1)。
根據(jù)這5個新增變量和其他結果,我們將逐一對假設3-8進行檢驗。
注意:分層回歸對假設3-8的檢驗過程與多重線性回歸基本一致,為避免重復講解,我們在本章節(jié)只介紹基本原理,詳細內(nèi)容請參見多重線性回歸分析。
3.2.1 假設3:具有相互獨立的觀測值
觀測值之間相互獨立是分層回歸的基本假設之一,主要檢驗的是1st-order autocorrelation,即鄰近的觀測值(主要是殘差)之間沒有相關性。我們根據(jù)SPSS中的Durbin-Watson檢驗判斷該假設,如果不滿足,則需要運用其他模型,如時間序列模型等。
3.2.2 假設4:自變量和因變量之間存在線性關系
分層回歸不僅要求因變量與所有自變量存在線性關系,還要求因變量與每一個自變量之間存在線性關系。其中,我們主要通過繪制未標化預測值(PRE_1)和學生化殘差(SRE_1)的散點圖檢驗因變量與所有自變量之間的線性關系。
而為檢驗因變量與每一個自變量之間是否存在線性關系,我們則需要分別繪制每個自變量與因變量的散點圖。如果假設4不滿足,我們可以嘗試進行數(shù)據(jù)轉換或者其他統(tǒng)計方法。
3.2.3 假設5:等方差性
等方差性也可以通過學生化殘差(SRE_1)與未標化預測值(PRE_1)之間的散點圖進行檢驗。如果研究結果提示不滿足等方差性假設,我們也可以通過一些統(tǒng)計手段進行矯正,如對自變量進行轉換或采用加權最小二乘法回歸方程等。
3.2.4 假設6:不存在多重共線性
當回歸中存在2個或多個自變量高度相關時,就會出現(xiàn)多重共線。它不僅可影響自變量對因變量變異的解釋能力,還影響整個分層回歸模型的擬合。
為了檢驗假設6,我們主要關注相關系數(shù)(correlation coefficients)和容忍度/方差膨脹因子(Tolerance/VIF)兩類指標。一般來說,如果自變量之間的相關系數(shù)大于0.7,或者容忍度小于0.1,方差膨脹因子大于10,我們就會懷疑模型存在多重共線性。
3.2.5 假設7:不存在顯著的異常值
根據(jù)作用方式的不同,分層回歸的異常值主要分為離群值(outliers)、強杠桿點(leverage points)和強影響點(influential points)3類。異常的觀測值可以符合其中一類或幾類。但無論是哪一類都對分層回歸的預測能力有著嚴重的負面影響。好在我們可以通過SPSS檢測這些異常值。
其中,(1) 離群值是指實際值與預測值相差較大的數(shù)據(jù),可以用Casewise Diagnostics檢驗和學生化刪除殘差(SDR_1)兩種方法進行檢驗。(2) 我們通過數(shù)據(jù)的杠桿值(LEV_1)檢測強杠桿點。(3) 而強影響點主要通過Cook距離(COO_1)進行檢測。如果存在這些異常值,我們可以根據(jù)實際情況判斷是否需要剔除或調(diào)整。
3.2.6 假設8:殘差近似正態(tài)分布
在分層回歸中,我們可以使用兩種方法判斷回歸殘差是否近似正態(tài)分布:(1) 帶正態(tài)曲線的柱狀圖或P-P圖;(2) 根據(jù)學生化殘差繪制的正態(tài)Q-Q圖。詳細內(nèi)容參見多重線性回歸分析。
4、結果解釋
分層回歸可以得到3個主要結果:
新增自變量解釋因變量變異的比例
根據(jù)自變量預測因變量
自變量改變一個單位,因變量的變化情況
為了更好地解釋和報告分層回歸的結果,我們需要統(tǒng)計以下3個方面:
各模型的比較
模型的擬合程度
回歸系數(shù)
4.1 各模型的比較
比較不同模型是進行分層回歸的主要目的。SPSS輸出變量納入結果,如下:
從Model欄可以看出,本研究共有3個模型:Model 1、Model 2和Model 3。Variables Entered欄顯示該研究中每個模型較前一個模型增加的變量。
Model 1是第一個模型,沒有前序變量,因此該模型的自變量只有gender和age。Model 2比前一個模型(Model 1)增加了weight變量;Model 3比Model 2增加了heart_rate變量。這3個模型的納入變量與之前的SPSS操作一致,如下:
必須注意的是,Model 2和Model 3中納入的變量都是在上一個模型基礎上的。比如,Model 3是在Model 2的基礎上納入heart_rate變量,即共納入age、gender、weight和heart_rate四個變量,而不是heart_rate一個變量,具體解釋如下:
4.2 判斷分層回歸模型的擬合程度
判斷分層回歸模型擬合程度的指標有很多,我們主要向大家介紹變異的解釋程度、R2值在各模型間的變化和模型的統(tǒng)計學意義3個指標。
4.2.1變異的解釋程度
分層回歸中的每個模型都相當于一個強制納入變量(Enter method)的多重線性回歸模型,具體評價指標也相似:
Measures of model ‘fit’ for the three models: 分別評價本研究中3個模型的擬合程度
R2是多層回歸的重要指標,反映自變量解釋因變量變異的程度。從上表可以看出,隨著自變量數(shù)量的增加,模型1-3的R2逐漸增加,分別是0.188、0.427和0.710,提示各模型對因變量的預測能力逐漸加強。
但是分層模型主要是檢驗增加自變量是否具有統(tǒng)計學意義,如模型2增加了weight變量后R2的變化是否具有統(tǒng)計學意義呢?我們將在4.2.2節(jié)為詳細大家介紹。
4.2.2R2值在各模型間的變化
為了判斷新增變量對回歸的影響,我們需要關注下表的右半部分:
Assessing model change:對比模型變化
R Square Change欄顯示的是該模型與上一個模型R2的差值,Sig. F Change欄顯示的是該差值的統(tǒng)計檢驗的P值。以Model 1為例,如下:
Initial Model(Model 1):模型1
模型1是初始模型,在空模型的基礎上增加了age和gender兩個變量。該模型的R2差值(R Square Change欄)和R2值(R Square欄)相同,均為0.188。R2差值具有統(tǒng)計學意義,P<0.001(Sig. F Change欄)。
模型2在模型1的基礎上增加了weight變量,R2值的變化情況如下:
Change between Model 1 and Model 2: 對比模型1和模型2
模型2的R2差值為0.239,即模型2的R2值(0.427)與模型1的R2值(0.188)的差。Sig. F Change欄提示,P<0.001,即模型2的R2差值具有統(tǒng)計學意義。
在本研究中,模型2與模型1的差別僅在于weight變量,提示在回歸中納入weight變量后自變量對因變量變異的解釋能力增加23.9%(P<0.001),即納入體重變量對受試者最大攜氧能力的預測改善有統(tǒng)計學意義。
解釋:如果我們在模型2中增加了不止一個變量,那么R2值的改變就是所有新增變量共同作用的結果,而不是某一個變量的。
模型3在模型2的基礎上增加了heart_rate變量,R2值的變化情況如下:
Change between Model 2 and Model 3:對比模型2和模型3
模型3的R2差值為0.283,即模型3的R2值(0.710)與模型2的R2值(0.427)的差。Sig. F Change欄提示,P<0.001,即模型3的R2差值具有統(tǒng)計學意義。提示在回歸中納入heart_rate變量后自變量對因變量變異的解釋能力增加28.3%(P<0.001),即納入心率變量對受試者最大攜氧能力的預測改善有統(tǒng)計學意義。
4.2.3 模型的統(tǒng)計學意義
分層回歸的每一個模型都相當于一個多重線性回歸模型。SPSS輸出ANOVA表格中包括對每一個模型的評價,如下:
一般來說,我們習慣性只匯報最終模型的結果(本研究的模型3),如下:
模型3是全模型,納入gender、age、weight和heart_rate四個變量。結果示,該模型具有統(tǒng)計學意義,F(xiàn)(4,95)=58.078,P<0.001,提示因變量和自變量之間存在線性相關,說明相較于空模型,納入這四個自變量有助于預測因變量。
注釋:如果SPSS輸出的結果中“Sig”值為“.000”,代表的是P<0.001,而不是P=0.000。同時,如果P>0.05,我們最好在報告中寫清楚具體數(shù)值,如P=0.092,從而為讀者提供更多的信息。
4.3回歸系數(shù)
正如前文所述,分層回歸模型主要關注的是最終模型,即本研究中的模型3,在對回歸系數(shù)進行解釋時也是如此。
Full model (Model 3):模型3
我們可以按照多重線性回歸的分析方法對分層回歸系數(shù)進行解釋。連續(xù)變量(如age變量)的回歸系數(shù)表示自變量每改變一個單位,因變量的變化情況。分類變量(如gender變量)的回歸系數(shù)表示不同類別之間的差異,詳細內(nèi)容參見多重線性回歸。
值得注意的是,我們運行分層回歸的主要目的是分析是否有必要增加新的自變量,而不是進行預測,回歸系數(shù)不是我們主要關注的結果。但是如果在匯報時需要提供回歸系數(shù),我們也可以把這部分增加在報告中。
5、撰寫結論
5.1 簡潔匯報
本研究采用分層回歸,分析逐步增加體重和心率變量是否可以提高性別、年齡對最大攜氧能力的預測水平。最終模型(模型3)納入性別、年齡、體重和心率4個變量,具有統(tǒng)計學意義R2=0.710,F(xiàn)(4, 95) = 58.078 (P<0.001),調(diào)整R2=0.698。
僅增加體重變量(模型2)后,R2值增加0.239,F(xiàn)(1, 96) = 40.059(P<0.001),具有統(tǒng)計學意義。增加心率變量(模型3)后,R2值增加0.283,F(xiàn)(1, 96) = 92.466(P<0.001),具有統(tǒng)計學意義,具體結果見表1。
表1. 分層回歸結果
5.2具體匯報
本研究采用分層回歸,分析逐步增加體重和心率變量是否可以提高性別、年齡對最大攜氧能力的預測水平。通過繪制部分回歸散點圖和學生化殘差與預測值的散點圖,判斷自變量和因變量之間存在線性關系。
已驗證研究觀測值之間相互獨立(Durbin-Watson檢驗值為1.910);并通過繪制學生化殘差與未標化的預測值之間的散點圖,證實數(shù)據(jù)具有等方差性。
回歸容忍度均大于0.1,不存在多重共線性。異常值檢驗中,不存在學生化刪除殘差大于3倍標準差的觀測值,數(shù)據(jù)杠桿值均小于0.2,也沒有Cook距離大于1的數(shù)值。Q-Q圖提示,研究數(shù)據(jù)滿足正態(tài)假設。
最終模型(模型3)納入性別、年齡、體重和心率4個變量,具有統(tǒng)計學意義R2=0.710,F(xiàn)(4, 95) = 58.078 (P<0.001),調(diào)整R2 = 0.698。僅增加體重變量(模型2)后,R2值增加0.239,F(xiàn)(1, 96) = 40.059 (P<0.001),具有統(tǒng)計學意義。增加心率變量(模型3)后,R2值增加0.283,F(xiàn)(1, 96) = 92.466 (P<0.001),具有統(tǒng)計學意義,具體結果見表1。
表1.分層回歸結果
解釋:我們?yōu)榱吮M可能地向大家展示分層回歸結果,在表1里納入了所有可能需要匯報的指標。但在實際工作中,大家可能并不需要匯報這么多,應視情況而定。
相關性分析背后的統(tǒng)計學原理很有趣吧?想深入學習統(tǒng)計學知識,為數(shù)據(jù)分析筑牢根基?那快來看看統(tǒng)計學極簡入門課程!
學習鏈接:https://edu.cda.cn/goods/show/3386?targetId=5647&preview=0
課程由專業(yè)數(shù)據(jù)分析師打造,完全免費,60 天有效期且隨到隨學。它用獨特思路講重點,從數(shù)據(jù)種類到統(tǒng)計學體系,內(nèi)容通俗易懂。學完它,能讓你輕松入門統(tǒng)計學,還能提升數(shù)據(jù)分析能力。趕緊點擊鏈接開啟學習,讓自己在數(shù)據(jù)領域更上一層樓!
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03