
SPSS實(shí)例教程:有序多分類Logistic回歸
1、問題與數(shù)據(jù)
在某胃癌篩查項(xiàng)目中,研究者想了解首診胃癌分期(Stage)與患者的經(jīng)濟(jì)水平的關(guān)系,以確定胃癌篩查的重點(diǎn)人群。為了避免性別因素對(duì)結(jié)論的混雜影響,研究者將性別(Sex)也納入分析(本例僅為舉例說明如何進(jìn)行軟件操作,實(shí)際研究中需控制的混雜因素可以更多)。研究者將所有篩查人群的結(jié)果如表1,變量賦值如表2。
表1. 原始數(shù)據(jù)
表2. 變量賦值情況
2、對(duì)數(shù)據(jù)結(jié)構(gòu)的分析
該設(shè)計(jì)中,因變量為四分類,且分類間有次序關(guān)系,針對(duì)因變量為分類型數(shù)據(jù)的情況應(yīng)該選用Logistic回歸,故應(yīng)采用有序多分類的Logistic回歸分析模型進(jìn)行分析。
有序多分類的Logistic回歸原理是將因變量的多個(gè)分類依次分割為多個(gè)二元的Logistic回歸,例如本例中因變量首診胃癌分期有1-4期,分析時(shí)拆分為三個(gè)二元Logistic回歸,分別為(1 vs 2+3+4) 、(1+2 vs 3+4)、(1+2+3 vs 4),均是較低級(jí)與較高級(jí)對(duì)比。需注意的是,有序多分類Logistic回歸的假設(shè)是,拆分后的幾個(gè)二元Logistic回歸的自變量系數(shù)相等,僅常數(shù)項(xiàng)不等。其結(jié)果也只輸出一組自變量的系數(shù)。
因此,有序多分類的Logistic回歸模型中,必須對(duì)自變量系數(shù)相等的假設(shè)進(jìn)行檢驗(yàn)(又稱平行線檢驗(yàn))。如果不滿足平行線假設(shè),則考慮使用無序多分類Logistic回歸或其他統(tǒng)計(jì)方法。
3、SPSS分析方法
(1)數(shù)據(jù)錄入SPSS
首先在SPSS變量視圖(Variable View)中新建四個(gè)變量:ID代表患者編號(hào),Sex代表性別,Income代表收入水平,Stage代表首診胃癌分期。賦值參考表1。然后在數(shù)據(jù)視圖(Data View)中錄入數(shù)據(jù)。
(2)選擇Analyze → Regression → Ordinal Logistic
(3)選項(xiàng)設(shè)置
將因變量Stage放入因變量(Dependent)位置,自變量性別(Sex)、收入水平(Income)為分類變量,故放入因子(Factors)位置。若研究中還有連續(xù)型變量需要調(diào)整,則放入?yún)f(xié)變量(Covariate)位置。
點(diǎn)擊輸出(Output)選項(xiàng),勾選平行線檢驗(yàn)(Test of parallel lines)。其余選項(xiàng)維持默認(rèn)。點(diǎn)擊確定(OK)。
4、結(jié)果解讀
(1)Case Processing Summary
給出的是數(shù)據(jù)的一般情況,這里不進(jìn)行介紹。
(2)模型擬合優(yōu)度檢驗(yàn)
有兩個(gè),一個(gè)是似然比檢驗(yàn)結(jié)果(Model Fitting Information).該檢驗(yàn)的原假設(shè)是所有納入自變量的系數(shù)為0,P(Sig.)<0.001,說明至少一個(gè)變量系數(shù)不為0,且具有統(tǒng)計(jì)學(xué)顯著性。也就是模型整體有意義。
另一個(gè)結(jié)果是擬合優(yōu)度檢驗(yàn)(Goodness-of-Fit)結(jié)果,提供了Pearson卡方和偏差(Deviance)卡方兩個(gè)檢驗(yàn)結(jié)果。但是,這兩個(gè)檢驗(yàn)結(jié)果不如上圖的似然比檢驗(yàn)結(jié)果穩(wěn)健,尤其是納入的自變量存在連續(xù)型變量時(shí),因此推薦以似然比檢驗(yàn)結(jié)果為準(zhǔn)。
(3)偽決定系數(shù)(Pseudo R-Square)
對(duì)于分類數(shù)據(jù)的統(tǒng)計(jì)分析,一般情況下偽決定系數(shù)都不會(huì)很高,對(duì)此不必在意。
(4)參數(shù)估計(jì)(Parameter Estimates)
閾值(Threshold)對(duì)應(yīng)的Stage=1,2,3三個(gè)估計(jì)值(Estimate)分別是本次分析中拆分的三個(gè)二元Logistic回歸的常數(shù)項(xiàng)。位置(Location)中Sex和Income變量對(duì)應(yīng)的參數(shù)估計(jì)值為自變量的估計(jì)值。其中Income為多分類,在分析中被拆分成了三個(gè)啞變量(即Income 取值1、2、3),分別與Income=4的組進(jìn)行對(duì)比。且有序多分類Logistic回歸假定拆分的多個(gè)二元回歸中自變量系數(shù)均相等,因此結(jié)果只給出了一組自變量系數(shù)。
Income=1系數(shù)估計(jì)值(Estimate)為-1.617意味著,在調(diào)整性別變量的情況下,Income=1(即收入水平最低)的組,相比于Income=4(收入水平最高)的組,初診胃癌分期至少低一個(gè)等級(jí)的可能性是exp(-1.617)=0.198倍。其他系數(shù)解釋相同。這說明,收入水平低的人群,其初診胃癌時(shí)病情更嚴(yán)重。
Sex變量系數(shù)無統(tǒng)計(jì)學(xué)意義(P=0.428),如果沒有其他證據(jù)證明不同性別的初診胃癌分期有區(qū)別,那么從模型精簡(jiǎn)的角度考慮,應(yīng)當(dāng)將Sex變量從模型中去掉再次進(jìn)行回歸,得到收入水平的參數(shù)估計(jì)值。如果研究者比較肯定不同性別初診胃癌分期會(huì)產(chǎn)生區(qū)別,那么即使在本研究中其系數(shù)無統(tǒng)計(jì)學(xué)意義也應(yīng)保留在模型中(因?yàn)闊o統(tǒng)計(jì)學(xué)意義有可能是因?yàn)闃颖玖啃≡斐傻?,并不能說明該變量不產(chǎn)生影響)。本研究中予以保留。
(5)平行線假設(shè)檢驗(yàn)(Test of Parallel Lines)
該檢驗(yàn)的原假設(shè)是三個(gè)二元Logistic回歸自變量系數(shù)相等,檢驗(yàn)P(Sig.)值為0.052,不拒絕原假設(shè),可以認(rèn)為假設(shè)成立,可以使用多重有序Logistic回歸。如果將參數(shù)無統(tǒng)計(jì)學(xué)意義的Sex變量去掉,會(huì)發(fā)現(xiàn)平行線假定檢驗(yàn)P值會(huì)增大(P=0.175)(是否去掉Sex變量重回歸,取決于是否有充足研究證據(jù)證明Sex是一個(gè)混雜變量,如果是,Sex變量應(yīng)保留在模型中)。
5、結(jié)果匯總
胃癌患者的初診分期與患者的收入水平有關(guān)。低等收入、中等收入與中高等收入人群與高等收入人群相比,初診胃癌分期低至少一個(gè)等級(jí)的可能性分別為0.198(P<0.001)、0.310(P<0.001)、0.640(P=0.071)倍。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03