
SPSS—二元Logistic回歸結(jié)果分析
1: 在“案例處理匯總”中可以看出:選定的案例 489 個(gè),未選定的案例 361 個(gè),這個(gè)結(jié)果是根據(jù)設(shè)定的 validate = 1
得到的,在“因變量編碼”中可以看 出“違約”的兩種結(jié)果“是”或者“否” 分別用值“1“和“0”代替, 在“分 類變量編碼”中教育水平分為 5
類, 如果選中“為完成高中,高中,大專,大 學(xué)等,其中的任何一個(gè),那么就取值為 1,未選中的為 0,如果四個(gè)都未被選中, 那么就是”研究生“
頻率分別代表了處在某個(gè)教育水平的個(gè)數(shù),總和應(yīng)該為 489 個(gè)
1:在“分類表”中可以看出: 預(yù)測有 360 個(gè)是“否”(未違約)
有 129 個(gè)是 “是”(違約) 2:在“方程中的變量”表中可以看出:最初是對(duì)“常數(shù)項(xiàng)”記性賦值,B 為 -1.026,
標(biāo)準(zhǔn)誤差為:0.103 那么 wald =( B/S.E)?=(-1.026/0.103)? = 99.2248, 跟表中的“100.029
幾乎 接近,是因?yàn)槲覍?duì)數(shù)據(jù)進(jìn)行的向下舍入的關(guān)系,所以數(shù)據(jù)會(huì)稍微偏小, B 和 Exp(B) 是對(duì)數(shù)關(guān)系,將 B
進(jìn)行對(duì)數(shù)抓換后,可以得到:Exp(B) = e^-1.026 = 0.358, 其中自由度為 1, sig 為 0.000,非常顯著
1:從“不在方程中的變量”可以看出,最初模型,只有“常數(shù)項(xiàng)”被納入了模 型,其它變量都不在最初模型內(nèi) 表中分別給出了,得分,df , Sig 三個(gè)值, 而其中得分(Score)計(jì)算公式如下:
(公式中 (Xi- X?) 少了一個(gè)平方)
下面來舉例說明這個(gè)計(jì)算過程:(“年齡”自變量的得分為例)
從“分類表”中可以看出:有 129 人違約,違約記為“1” 129, 選定案例總和為 489 那么: y? = 129/489 =
0.2638036809816 x? = 16951 / 489 = 34.664621676892 所以:∑(Xi-x?)? =
30074.9979 y?(1-y?)=0.2638036809816 *(1-0.2638036809816 ) 則 違約總和為
=0.19421129888216 則:y?(1-y?)* 840.9044060372 ∑(Xi-x?)? =0.19421129888216 * 30074.9979 = 5
則:[∑Xi(yi - y?)]^2 = 43570.8 所以:
=43570.8 / 5 840.9044060372 = 7.4595982010876 = 7.46 (四舍五入)
計(jì)算過程采用的是在 EXCEL 里面計(jì)算出來的,截圖如下所示:
從“不在方程的變量中”可以看出,年齡的“得分”為 7.46,剛好跟計(jì)算結(jié)果 吻合??!答案得到驗(yàn)證~?。。。?br />
1:從“塊
1” 中可以看出:采用的是:向前步進(jìn) 的方法, 在“模型系數(shù)的綜 合檢驗(yàn)”表中可以看出: 所有的 SIG 幾乎都為“0” 而且隨著模型的逐漸步
進(jìn),卡方值越來越大,說明模型越來越顯著,在第 4 步后,終止, 根據(jù)設(shè)定的顯著性值 和 自由度,可以算出 卡方臨界值, 公式為:
=CHIINV(顯著性值,自由度) ,放入 excel 就可以得到結(jié)果 2:在“模型匯總“中可以看出:Cox&SnellR 方 和
Nagelkerke R 方 擬合效果 都不太理想,最終理想模型也才:0.305 和 0.446, 最大似然平方的對(duì)數(shù)值 都比較大,明顯是顯著的
似然數(shù)對(duì)數(shù)計(jì)算公式為:
計(jì)算過程太費(fèi)時(shí)間了,我就不舉例說明
計(jì)算過程了 Cox&SnellR 方的計(jì)算值 是根據(jù): 1:先擬合不包含待檢驗(yàn)因素的 Logistic 模型,求對(duì)數(shù)似然函數(shù)值
INL0 (指只包含“常數(shù)項(xiàng)”的檢驗(yàn)) 2:再擬合包含待檢驗(yàn)因素的 Logistic 模型,求新的對(duì)數(shù)似然函數(shù)值 InLB (包含自變量的檢驗(yàn))
再根據(jù)公式: 值!
即可算出:Cox&SnellR 方的
提示:
將 Hosmer 和 Lemeshow 檢驗(yàn) 和“隨機(jī)性表” 結(jié)合一起來分析 1:從 Hosmer 和 Lemeshow
檢驗(yàn)表中,可以看出:經(jīng)過 4 次迭代后,最終的卡 方統(tǒng)計(jì)量為:11.919, 而臨界值為:CHINV(0.05,8) = 15.507
卡方統(tǒng)計(jì)量< 臨界值,從 SIG 角度來看: 0.155 > 0.05 , 說明模型能夠很好 的擬合整體,不存在顯著的差異。 2:從
Hosmer 和 Lemeshow 檢驗(yàn)隨即表中可以看出: ”觀測值“和”期望值 “幾乎是接近的, 不存在很大差異,
說明模型擬合效果比較理想, 印證了“Hosmer 和 Lemeshow 檢驗(yàn)”中的結(jié)果 而“Hosmer 和 Lemeshow
檢驗(yàn)”表中的“卡方”統(tǒng)計(jì)量,是通過“Hosmer 和 Lemeshow 檢驗(yàn)隨即表”中的數(shù)據(jù)得到的(即通過“觀測值和”預(yù)測值“)得到
的,計(jì)算公式如下所示:
x?(卡方統(tǒng)計(jì)量) =
∑(觀測值頻率- 預(yù)測值頻率)^2 / 預(yù)測值的頻率
舉例說明一下計(jì)算過程:以計(jì)算 "步驟 1 的卡方統(tǒng)計(jì)量為例 " 1:將“Hosmer 和 Lemeshow 檢驗(yàn)隨即表”中“步驟 1 ” excel 中,得到如下所示結(jié)果: 的數(shù)據(jù),復(fù)制到
從“Hosmer 和 Lemeshow 檢驗(yàn)”表中可以看出, 步驟 1 的卡方統(tǒng)計(jì)量為: 7.567, 在上圖中,通過 excel 計(jì)算得到,結(jié)果為 7.566569 ~~7.567 (四舍 五入),結(jié)果是一致的,答案得到驗(yàn)證??!
1:
從“分類表”—“步驟 1” 中可以看出: 選定的案例中, “是否曾今違約” 總計(jì):489 個(gè),其中 沒有違約的 360 個(gè),并且對(duì) 360
個(gè)“沒有違約”的客戶進(jìn) 行了預(yù)測, 340 個(gè)預(yù)測成功, 個(gè)預(yù)測失敗, 有 20 預(yù)測成功率為: / 360 =94.4% 340
其中“違約”的有 189 個(gè),也對(duì) 189 個(gè)“違約”的客戶進(jìn)行了預(yù)測,有 95 個(gè) 預(yù)測失敗, 34 個(gè)預(yù)測成功,預(yù)測成功率:34 / 129
= 26.4% 總計(jì)預(yù)測成功率:(340 + 34)/ 489 = 76.5% 步驟 1 的 總體預(yù)測成功率為: 76.5%, 在步驟 4
終止后, 總體預(yù)測成功率為: 83.4, 預(yù)測準(zhǔn)確率逐漸提升 76.5%—79.8%—81.4%—83.4。 83.4 的預(yù)測準(zhǔn)確率,
不能夠算太高,只能夠說還行。
從“如果移去項(xiàng)則建模”表中可以看出:“在-2 對(duì)數(shù)似然中的更改” 中的數(shù)值 是不是很眼熟???,跟在“模型系數(shù)總和檢驗(yàn)”表中“卡方統(tǒng)計(jì)量"量的值是 一樣的?。?!
將“如果移去項(xiàng)則建?!焙?
“方程中的變量”兩個(gè)表結(jié)合一起來看 1: 在“方程中的變量”表中可以看出: 在步驟 1 中輸入的變量為“負(fù)債率” ,
在”如果移去項(xiàng)則建?!氨碇锌梢钥闯觯?dāng)移去“負(fù)債率”這個(gè)變量時(shí),引起了 74.052 的數(shù)值更改,此時(shí)模型中只剩下“常數(shù)項(xiàng)”-282.152
為常數(shù)項(xiàng)的對(duì)數(shù)似 然值 在步驟 2 中,當(dāng)移去“工齡”這個(gè)自變量時(shí),引起了 44.543 的數(shù)值變化(簡 稱:似然比統(tǒng)計(jì)量),在步驟 2
中,移去“工齡”這個(gè)自變量后,還剩下“負(fù)債 率”和“常量”,此時(shí)對(duì)數(shù)似然值 變成了:-245.126,此時(shí)我們可以通過公式
算出“負(fù)債率”的似然比統(tǒng)計(jì)量:計(jì)算過程如下: 似然比統(tǒng)計(jì)量 = 2(-245.126+282.152)=74.052 答案得到驗(yàn)證?。?!
2:在“如果移去項(xiàng)則建模”表中可以看出:不管移去那一個(gè)自變量,“更改的 顯著性”都非常小,幾乎都小于 0.05,所以這些自變量系數(shù)跟模型顯著相關(guān), 不能夠剔去??! 3:根據(jù)" 方程中的變量“這個(gè)表,我們可以得出 logistic 回歸模型表達(dá)式:
= =
1 / 1+ e^-(a+∑βI*Xi)
我們假設(shè) Z
么可以得到簡潔表達(dá)式:
P(Y)
= 1 / 1+e^ (-z) 將”方程中的變量“ —步驟 4 中的參數(shù)代入 模型表達(dá)式中,可以得 到 logistic 回歸 模型
如下所示: P(Y) = 1 / 1 + e ^ -(-0.766+0.594*信用卡負(fù)債率+0.081*負(fù)債率-0.069*地
址-0.249*功齡)
從”不在方程中的變量“表中可以看出: 年齡,教育,收入,其它負(fù)債,都沒 有納入模型中,其中:sig 值都大于 0.05,所以說明這些自變量跟模型顯著不 相關(guān)。
在”觀察到的組和預(yù)測概率圖”中可以看出:
1:the Cut Value is 0.5, 此處以 0.5 為切割值,預(yù)測概率大于 0.5,表示 客戶“違約”的概率比較大,小于 0.5
表示客戶“違約”概率比較小。 2: 從上圖中可以看出:預(yù)測分布的數(shù)值基本分布在“左右兩端”在大于 0.5 的切割值中,大部分都是“1”
表示大部分都是“違約”客戶,( 大約 230 個(gè) 違約客戶) 預(yù)測概率比較準(zhǔn),而在小于 0.5 的切割值中,大部分都是“0” 大
部分都是“未違約”的客戶,(大約 500 多個(gè)客戶,未違約) 預(yù)測也很準(zhǔn)
在運(yùn)行結(jié)束后,會(huì)自動(dòng)生成多個(gè)自變量,如下所示:
1:從上圖中可以看出,已經(jīng)對(duì)客戶“是否違約”做出了預(yù)測,上面用顏色標(biāo)記
的部分-PRE_1 表示預(yù)測概率, 上面的預(yù)測概率,可以通過 前面的 Logistic 回歸模型計(jì)算出來,計(jì)算過程不 演示了 2:
COOK_1 和 SRE_1 的值可以跟 預(yù)測概率 (PRE_1) 進(jìn)行畫圖, 來看 COOK_1 和 SRE_1 對(duì)預(yù)測概率的影響程度,因?yàn)?
COOK 值跟模型擬合度有一定的關(guān)聯(lián),發(fā)生 奇異值,會(huì)影響分析結(jié)果。如果有太多奇異值,應(yīng)該單獨(dú)進(jìn)行深入研究!
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10