
如何在R語言中使用Logistic回歸模型
在實際應用中,Logistic模型主要有三大用途:
1)尋找危險因素,找到某些影響因變量的"壞因素",一般可以通過優(yōu)勢比發(fā)現危險因素;
2)用于預測,可以預測某種情況發(fā)生的概率或可能性大??;
3)用于判別,判斷某個新樣本所屬的類別。
Logistic模型實際上是一種回歸模型,但這種模型又與普通的線性回歸模型又有一定的區(qū)別:
1)Logistic回歸模型的因變量為二分類變量;
2)該模型的因變量和自變量之間不存在線性關系;
3)一般線性回歸模型中需要假設獨立同分布、方差齊性等,而Logistic回歸模型不需要;
4)Logistic回歸沒有關于自變量分布的假設條件,可以是連續(xù)變量、離散變量和虛擬變量;
5)由于因變量和自變量之間不存在線性關系,所以參數(偏回歸系數)使用最大似然估計法計算。
下面簡單介紹該模型的理論知識,主要參考《統(tǒng)計建模與R軟件》:
應用:
接下來使用R語言實現Logistic模型的應用,仍然使用《Logistic回歸模型——方法與應用》書中的案例數據。該數據的應變量表示高中生是否進入大學,自變量包含性別(GENDER)、高中類型(KEYSCH,是否為重點中學)和高中平均成績(MEANGR)。
接下來列出文中所需R語言包:
foreign包用于導入SPSS數據集;
sjmisc包用于實現Logistic模型的擬合優(yōu)度檢驗
pROC包用于繪制模型的ROC曲線
#讀取數據
發(fā)現原本為離散的變量COLLEGE、KEYSCH和GENDER成了數值變量,需要重新將這些變量設置為因子變量。
#數據初探:
#將數據拆分為訓練數據集和測試數據集
本文對Logistic模型的應用使用stats包中自帶的glm()函數,下面看看
glm()函數的使用方法:
glm(formula, family = gaussian, data, weights, subset,
na.action, start = NULL, etastart, mustart, offset,
control = list(...), model = TRUE, method = "glm.fit",
x = FALSE, y = TRUE, contrasts = NULL, ...)
formula指定模型的因變量和自變量,類似于y~x1+x2+x3的形式;
family指定模型的連接函數和誤差函數;
data指定要分析的數據框;
weights模型擬合中指定先驗權重;
subset指定數據子集用于模型擬合;
na.action指定缺失值的處理辦法,默認跳過缺失值;
start用于指定參數估計的初始值;
control為一個列表,指定廣義線性模型的收斂度,最大迭代次數等;
#建模
由參數估計的結果可知,截距項和三個自變量是非常顯著的。
從而模型可以寫成如下形式:
由summary()結果的最下方Residual deviance實際上就是-2Log L(-2倍的似然對數)對應模型的顯著性檢驗。也可以查看更詳細的Residual deviance過程:
很明顯,模型卡方統(tǒng)計量通過顯著性檢驗(P值遠遠小于0.05)。
模型的擬合優(yōu)度檢驗:
通過比較模型的預測值與實際值之間的差異情況來進行檢驗,如果預測值域實際值越接近,則說明模型的擬合優(yōu)度越佳。
主要的擬合優(yōu)度評價指標有偏差卡方檢驗、皮爾遜卡方檢驗和HL統(tǒng)計量檢驗。其中前兩種檢驗適合模型中只有離散的自變量,而后一種適合模型中包含連續(xù)的自變量。擬合優(yōu)度檢驗的原假設為“模型的預測值與實際值不存在差異”。
下面使用sjmisc包中的hoslem_gof函數實現以上模型的H-L統(tǒng)計量檢驗:
很明顯,p>0.05,說明H-L檢驗不顯著,接受擬合優(yōu)度的原假設:模型的預測值與實際值不存在差異。
在實際應用中,最理想的情況是希望模型卡方統(tǒng)計量顯著(Residual deviance顯著),而模型擬合優(yōu)度不顯著(HL統(tǒng)計量不顯著)。如果Residual deviance不顯著(自變量對應變量沒有很好的解釋)或HL統(tǒng)計量顯著(模型不能很好的擬合數據),則說明模型可能存在某些問題,需要重新設定模型。
從上面的HL檢驗和模型卡方統(tǒng)計量結果可知,該模型是比較理想的。
#我們一般不會直接對模型的偏回歸系數作解釋,而是使用優(yōu)勢比解釋各個自變量。下面看一下各回歸系數的置信區(qū)間和優(yōu)勢比的置信區(qū)間。
#模型預測
由于Logistic回歸模型無法直接預測新樣本屬于哪個類別,這里使用主觀概念,如果預測概率值小于等于0.5,則預判COLLEGE為0(未考取大學)。經計算模型的預測準確率為80%。
還有一種可視化的方法衡量模型的優(yōu)劣,即ROC曲線,該曲線的橫坐標和縱坐標各表示1-反例的覆蓋率和正例的覆蓋率。
這里的AUC為ROC曲線下方的面積。一般AUC大于0.75就能夠說明模型是比較合理的了。
總結:文中所用到的包和函數
foreign包
read.spss()
stats包
glm()
summary()
confint()
predict()
transform()
cbind()
table()
sjmisc包
hoslem()
pROC包
roc()
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經網絡(RNN)家族中,長短期記憶網絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數據分析師報考條件詳解與準備指南? ? 在數據驅動決策的時代浪潮下,CDA 數據分析師認證愈發(fā)受到矚目,成為眾多有志投身數 ...
2025-07-11數據透視表中兩列相乘合計的實用指南? 在數據分析的日常工作中,數據透視表憑借其強大的數據匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數據分析師:連接數據與業(yè)務的價值轉化者? ? 在大數據與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數據查詢到趨勢預判? ? 在數據驅動決策的時代,預測分析作為挖掘數據潛在價值的核心手段,正被廣泛 ...
2025-07-10數據查詢結束后:分析師的收尾工作與價值深化? ? 在數據分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數 ...
2025-07-10CDA 數據分析師考試:從報考到取證的全攻略? 在數字經濟蓬勃發(fā)展的今天,數據分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數據背后的時間軌跡? 在數據分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數據類型:時間維度的精準切片? ? 在數據的世界里,時間是最不可或缺的維度之一,而year_month數據類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數據分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數據分析師認證考試中,Python 作為數據處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數據趨勢與突變分析的有力工具? ? ? 在數據分析的廣袤領域中,準確捕捉數據的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數據分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數據分析師認證作為國內權威的數據分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網絡(LSTM)作為循環(huán)神經網絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調研數據中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調研數 ...
2025-07-07CDA數據分析師證書考試全攻略? 在數字化浪潮席卷全球的當下,數據已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數據分析師也因此成為 ...
2025-07-07剖析 CDA 數據分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數據分析師考試作為衡量數據專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數據處理的關鍵技能? 在數據處理與分析工作中,數據格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數據分析師視角:從數據迷霧中探尋商業(yè)真相? 在數字化浪潮席卷全球的今天,數據已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數據分析師:開啟數據職業(yè)發(fā)展新征程? ? 在數據成為核心生產要素的今天,數據分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03