
前邊我們用兩篇筆記討論了線性回歸的內容。線性回歸是很重要的一種回歸方法,但是線性回歸只適用于因變量為連續(xù)型變量的情況,那如果因變量為分類變量呢?比方說我們想預測某個病人會不會痊愈,顧客會不會購買產品,等等,這時候我們就要用到logistic回歸分析了。
Logistic回歸主要分為三類,一種是因變量為二分類得logistic回歸,這種回歸叫做二項logistic回歸,一種是因變量為無序多分類得logistic回歸,比如傾向于選擇哪種產品,這種回歸叫做多項logistic回歸。還有一種是因變量為有序多分類的logistic回歸,比如病重的程度是高,中,低呀等等,這種回歸也叫累積logistic回歸,或者序次logistic回歸。
二值logistic回歸:
選擇分析——回歸——二元logistic,打開主面板,因變量勾選你的二分類變量,這個沒有什么疑問,然后看下邊寫著一個協(xié)變量。有沒有很奇怪什么叫做協(xié)變量?在二元logistic回歸里邊可以認為協(xié)變量類似于自變量,或者就是自變量。把你的自變量選到協(xié)變量的框框里邊。
細心的朋友會發(fā)現(xiàn),在指向協(xié)變量的那個箭頭下邊,還有一個小小的按鈕,標著a*b,這個按鈕的作用是用來選擇交互項的。我們知道,有時候兩個變量合在一起會產生新的效應,比如年齡和結婚次數(shù)綜合在一起,會對健康程度有一個新的影響,這時候,我們就認為兩者有交互效應。那么我們?yōu)榱四P偷臏蚀_,就把這個交互效應也選到模型里去。我們在右邊的那個框框里選擇變量a,按住ctrl,在選擇變量b,那么我們就同時選住這兩個變量了,然后點那個a*b的按鈕,這樣,一個新的名字很長的變量就出現(xiàn)在協(xié)變量的框框里了,就是我們的交互作用的變量。
然后在下邊有一個方法的下拉菜單。默認的是進入,就是強迫所有選擇的變量都進入到模型里邊。除去進入法以外,還有三種向前法,三種向后法。一般默認進入就可以了,如果做出來的模型有變量的p值不合格,就用其他方法在做。再下邊的選擇變量則是用來選擇你的個案的。一般也不用管它。
選好主面板以后,單擊分類(右上角),打開分類對話框。在這個對話框里邊,左邊的協(xié)變量的框框里邊有你選好的自變量,右邊寫著分類協(xié)變量的框框則是空白的。你要把協(xié)變量里邊的字符型變量和分類變量選到分類協(xié)變量里邊去(系統(tǒng)會自動生成啞變量來方便分析,什么事啞變量具體參照前文)。這里的字符型變量指的是用值標簽標注過得變量,不然光文字,系統(tǒng)也沒法給你分析啊。選好以后,分類協(xié)變量下邊還有一個更改對比的框框,我們知道,對于分類變量,spss需要有一個參照,每個分類都通過和這個參照進行比較來得到結果,更改對比這個框框就是用來選擇參照的。默認的對比是指示符,也就是每個分類都和總體進行比較,除了指示符以外還有簡單,差值等。這個框框不是很重要,默認就可以了。
點擊繼續(xù)。然后打開保存對話框,勾選概率,組成員,包含協(xié)方差矩陣。點擊繼續(xù),打開選項對話框,勾選分類圖,估計值的相關性,迭代歷史,exp(B)的CI,在模型中包含常數(shù),輸出——在每個步驟中。如果你的協(xié)變量有連續(xù)型的,或者小樣本,那還要勾選Hosmer-Lemeshow擬合度,這個擬合度表現(xiàn)的會較好一些。
繼續(xù),確定。
然后,就會輸出結果了。主要會輸出六個表。
第一個表是模型系數(shù)綜合檢驗表,要看他模型的p值是不是小于0.05,判斷我們這個logistic回歸方程有沒有意義。
第二個表示模型匯總表。這個表里有兩個R^2,叫做廣義決定系數(shù),也叫偽R^2,作用類似于線性回歸里的決定系數(shù),也是表示這個方程能夠解釋模型的百分之多少。由于計算方法不同,這兩個廣義決定系數(shù)的值往往不一樣,但是出入并不會很大。
在下邊的分類表則表述了模型的穩(wěn)定性。這個表最后一行百分比校正下邊的三個數(shù)據(jù)列出來在實際值為0或者1時,模型預測正確的百分比,以及模型總的預測正確率。一般認為預測正確概率達到百分之五十就是良好(標準真夠低的),當然正確率越高越好。
在然后就是最重要的表了,方程中的變量表。第一行那個B下邊是每個變量的系數(shù)。第五行的p值會告訴你每個變量是否適合留在方程里。如果有某個變量不適合,那就要從新去掉這個變量做回歸。根據(jù)這個表就可以寫出logistic方程了:P=Exp(常量+a1*變量1+a2*變量2.。。。)/(1+Exp(常量+a1*變量1+a2*變量2.。。。))。如果大家學過一點統(tǒng)計,那就應該對這個形式的方程不陌生。提供變量,它最后算出來會是一個介于0和1的數(shù),也就是你的模型里設定的值比較大的情況發(fā)生的概率,比如你想推算會不會治愈,你設0治愈,1為沒有治愈。那你的模型算出來就是沒有治愈的概率。如果你想直接計算治愈的概率,那就需要更改一下設定,用1去代表治愈。
此外倒數(shù)后兩列有一個EXP(B),也就是OR值,哦,這個可不是或者的意思,OR值是優(yōu)勢比。在線性回歸里邊我們用標準化系數(shù)來對比兩個自變量對于因變量的影響力的強弱,在logistic回歸里邊我們用優(yōu)勢比來比較不同的情況對于因變量的影響。舉個例子。比如我想看性別對于某種病是否好轉的影響,假設0代表女,1代表男,0代表不好轉,1代表好轉。發(fā)現(xiàn)這個變量的OR值為2.9,那么也就是說男人的好轉的可能是女人好轉的2.9倍。注意,這里都是以數(shù)值較大的那個情況為基準的。而且OR值可以直接給出這個倍數(shù)。如果是0,1,2各代表一類情況的時候,那就是2是1的2.9倍,1是0的2.9倍,以此類推。OR值對于方程沒什么貢獻,但是有助于直觀的理解模型。在使用OR值得時候一定要結合它95%的置信區(qū)間來進行判斷。
此外還有相關矩陣表和概率直方圖,就不再介紹了。
多項logistic回歸:
選擇分析——回歸——多項logistic,打開主面板,因變量大家都知道選什么,因變量下邊有一個參考類別,默認的第一類別就可以。再然后出現(xiàn)了兩個框框,因子和協(xié)變量。很明顯,這兩個框框都是要你選因變量的,那么到底有什么區(qū)別呢?嘿嘿,區(qū)別就在于,因子里邊放的是無序的分類變量,比如性別,職業(yè)什么的,以及連續(xù)變量(實際上做logistic回歸時大部分自變量都是分類變量,連續(xù)變量是比較少的。),而協(xié)變量里邊放的是等級資料,比如病情的嚴重程度啊,年齡啊(以十年為一個年齡段撒,一年一個的話就看成連續(xù)變量吧還是)之類的。在二項logistic回歸里邊,系統(tǒng)會自動生成啞變量,可是在多項logistic回歸里邊,就要自己手動設置了。參照上邊的解釋,不難知道設置好的啞變量要放到因子那個框框里去。
然后點開模型那個對話框,哇,好恐怖的一個對話框,都不知道是干嘛的。好,我們一點點來看。上邊我們已經說過交互作用是干嘛的了,那么不難理解,主效應就是變量本身對模型的影響。明確了這一點以后,這個對話框就沒有那么難選了。指定模型那一欄有三個模型,主效應指的是只做自變量和因變量的方程,就是最普通的那種。全因子指的是包含了所有主效應和所有因子和因子的交互效應的模型(我也不明白為什么只有全因子,沒有全協(xié)變量。這個問題真的很難,所以別追問我啦。)第三個是設定/步進式。這個是自己手動設置交互項和主效應項的,而且還可以設置這個項是強制輸入的還是逐步進入的。這個概念就不用再啰嗦了吧???
點擊繼續(xù),打開統(tǒng)計量對話框,勾選個案處理摘要,偽R方,步驟摘要,模型擬合度信息,單元格可能性,分類表,擬合度,估計,似然比檢驗,繼續(xù)。打開條件,全勾,繼續(xù),打開選項,勾選為分級強制條目和移除項目。打開保存,勾選包含協(xié)方差矩陣。確定(總算選完了)。
結果和二項logistic回歸差不多,就是多了一個似然比檢驗,p值小于0.05認為變量有意義。然后我們直接看參數(shù)估計表。假設我們的因變量有n個類,那參數(shù)估計表會給出n-1組的截距,變量1,變量2。我們我們用Zm代表Exp(常量m+am1*變量1+am2*變量2+。。。),那么就有第m類情況發(fā)生的概率為Zn/1+Z2+Z3+……+Zn(如果我們以第一類為參考類別的話,我們就不會有關于第一類的參數(shù),那么第一類就是默認的1,也就是說Z1為1)。
有序回歸(累積logistic回歸):
選擇菜單分析——回歸——有序,打開主面板。因變量,因子,協(xié)變量如何選取就不在重復了。選項對話框默認。打開輸出對話框,勾選擬合度統(tǒng)計,摘要統(tǒng)計,參數(shù)估計,平行線檢驗,估計響應概率,實際類別概率,確定,位置對話框和上文的模型對話框類似,也不重復了。確定。
結果里邊特有的一個表是平行線檢驗表。這個表的p值小于0.05則認為斜率系數(shù)對于不同的類別是不一樣的。此外參數(shù)估計表得出的參數(shù)也有所不同。假設我們的因變量有四個水平,自變量有兩個,那么參數(shù)估計表會給出三個閾值a1,a2,a3(也就是截距),兩個自變量的參數(shù)m,n。計算方程時,首先算三個Link值,Link1=a1+m*x1+n*x2,Link2=a2+m*x1+n*x2,Link3=a3+m*x1+n*x2,(僅有截距不同)有了link值以后,p1=1/(1+exp(link1)), p1+p2=1/(1+exp(link2)), p1+p2+p3=1/(1+exp(link3)), p1+p2+p3+p4=1..
通過上邊的這幾個方程就能計算出各自的概率了。
Logistic回歸到這里基本就已經結束了。大家一定要記熟公式,弄混可就糟糕了。希望能對你有所幫助呦。
下章內容,probit回歸及非線性回歸。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經網絡(RNN)家族中,長短期記憶網絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網絡(LSTM)作為循環(huán)神經網絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調研數(shù)據(jù)中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03