
作者:丁點helper
來源:丁點幫你
前文我們已經(jīng)講解了相關(guān)與回歸的基礎(chǔ)知識,并且重點討論了多重線性回歸的應(yīng)用與診斷分析。今天的文章,我們來看看日常學習和科研中應(yīng)用同樣廣泛的另一類回歸分析——Logistic回歸。
Logisti回歸與多重線性回歸的區(qū)別
多重線性回歸,一般是指有多個自變量X,只有一個因變量Y。前面我們主要是以簡單線性回歸為例在介紹,兩者的差距主要在于自變量X的數(shù)量,在只有一個X時,就稱簡單線性回歸。
讀過我們前面“線性回歸”系列文章的同學,肯定已經(jīng)知道,采用線性回歸的第一準則:因變量Y需要是“定量變量”。
例如得分、收入等連續(xù)型的,可以計算均數(shù)和標準差的變量。而Logistic回歸最大的不同在于:Y是分類變量。
Logistic回歸的Y是分類變量(這句話希望大家在心里默讀三遍)這是進行Logistic回歸最基本的條件。
什么是分類變量呢?大家最常見的可能是:發(fā)病與不發(fā)病。
比如我們用Y來表示“是否患有糖尿病”,用Y=1表示“患病”;用Y=0,表示“不患病”,這里的Y就是一個典型的二分類變量。
此時,當我們希望通過回歸分析的方法來探討“糖尿病患病與否的影響因素”,則應(yīng)該選擇“Logistic回歸分析”。
同多重線性回歸一致,對進行Logistic回歸分析的自變量X并沒有限制,可以是定量變量,如年齡,也可以是分類變量,如性別等等。
所以,按照我們前面文章所強調(diào)的,進行研究前首先要找XYZ(自變量、因變量和控制變量),當考慮是進行多重線性回歸,還是Logistic回歸時,原則上只需看Y(即因變量、或稱反應(yīng)變量)的類型:
定量變量就用多重線性回歸,分類就用Logistic回歸。
線性概率模型
多重線性回歸,一般是指有多個自變量X,只有一個因變量Y。前面我們主要是以簡單線性回歸為例在介紹,兩者的差距主要在于自變量X的數(shù)量,在只有一個X時,就稱簡單線性回歸。
理清了Logistic回歸與一般線性回歸的區(qū)別后,我們再來看看Logistic回歸是如何構(gòu)造出來的。
在這之間,我們要先介紹一個新詞:線性概率模型。什么叫線性概率模型,它與Logistic回歸有什么關(guān)系?我們一一道來。
首先,既然大家都叫“回歸”,Logistic回歸與線性回歸當然存在聯(lián)系的。
實際上,Logistic回歸僅僅只是對線性回歸的因變量進行了一個變換,模型的主體結(jié)構(gòu)仍然屬于“線性回歸”。
仍然以“糖尿病患病的影響因素”為例進行說明。
某研究團隊想要探討某地區(qū)糖尿病患病的影響因素,收集了如下數(shù)據(jù):
上述數(shù)據(jù)的賦值說明如下:
本研究的目的是獲得“影響因素”,因此,除變量Y(是否患病)以外,其他所有因素都可以作為潛在的影響因素(即自變量X納入)模型。如上表,Y屬于二分類變量,其取值模式是“0、0、0…1、1、1”,其中“1”表示“是”;“0”表示“否”,所以符合進行Logistic回歸的基本條件。
在Logistic回歸誕生之前,人們首先考慮的是按照“多重線性回歸”的方法,忽略變量Y的變量類型,直接將Y與各個X強行進行多重線性回歸。
在前文,我們講過Y上面添加一個“^”符號,表示Y的估計值。結(jié)合本例,如果我們將是否患有糖尿病與各個X進行回歸,也會得到Y(jié)的估計值??墒侨绾谓忉屵@個估值值呢?人們想出一個辦法:概率。
概率是我們在中學就接觸過的內(nèi)容,表示的是“某個事件發(fā)生可能性的大小”,比如某人患糖尿病的概率是80%,意味著他的患病風險比較高。
當我們從概率的角度進行線性回歸時,得到的模型特稱為“線性概率模型”。
如上式,我們用P來表示Y的估計值,專門代表患病概率。什么意思呢?我們現(xiàn)在構(gòu)造的模型是用來研究各個影響因素與糖尿病患病概率的相關(guān)關(guān)系,不再是是否發(fā)病。
也就是說,通過模型,我們可以計算出預(yù)測值,此時的預(yù)測值代表該對象患糖尿病的可能性大小。
這個地方需要特別理清的是,每一個研究對象是否患有糖尿病我們提前已經(jīng)知曉。如上表,變量Y=0,意味著“沒有患病”,Y=1,表示“患病”。
可是現(xiàn)在又說預(yù)測值代表他患病的可能性大小,都已經(jīng)患病了,再算患病可能性還有意義嗎?
當然是有的,這就是回歸分析,或者整個統(tǒng)計學的思想,用已經(jīng)發(fā)生的事情作為樣本來推測事物間的規(guī)律。
這里的預(yù)測值是根據(jù)模型(即根據(jù)X所計算的),雖然并非實際情況,但我們可以推測:如果模型預(yù)測效果好,那對于某一名已經(jīng)患病的對象而言,其預(yù)測值(即患病概率)應(yīng)該接近于1,表明患糖尿病概率很高。
反之,對于沒有患病的人群(即Y=0),根據(jù)模型計算的患病概率則應(yīng)該接近0,即患病概率低。
確實如此,上述線性概率模型并非理論假想,而是存在實際應(yīng)用,它與多重線性回歸的思路和操作方法完全相同。
唯一特殊的是,這里“Y”的預(yù)測值專門由“P”表示,指代概率。這種方法在經(jīng)濟學等社會科學領(lǐng)域十分廣泛,常與Logistic回歸結(jié)合使用。
Logistic回歸的由來
多重線性回歸,一般是指有多個自變量X,只有一個因變量Y。前面我們主要是以簡單線性回歸為例在介紹,兩者的差距主要在于自變量X的數(shù)量,在只有一個X時,就稱簡單線性回歸。
但是,這個“線性概率模型”有一個很嚴重或者說“致命”的問題。根據(jù)模型來看,Y的估計值(即這里的P)理論上可以取所有實數(shù)。可是,對于大于1或者小于0的預(yù)測值,該做何種解釋呢?
常識告訴我們,概率(即可能性)不會大于“1”或者小于“0”,可是通過模型計算出來的預(yù)測概率幾乎一定會出現(xiàn)大于1或小于0的情形。
為了解決這個問題,人們就考慮對P進行變換。數(shù)學上發(fā)現(xiàn),通過對P進行如下變換即可解決問題:logit (P) = ln (P/1-P),(其中l(wèi)n為自然對數(shù)函數(shù))。
這個變換即所謂的“l(fā)ogit”變換,通過對P進行變換之后再次納入回歸模型,得到的模型即為“Logistic回歸模型”:
在實際應(yīng)用中,這些變換當然不再需要我們手動操作,只需要把數(shù)據(jù)整理成上述上述表格中的形式,SPSS軟件會進行完整的分析過程。
但我們需要特別明確的是,進行Logistic回歸后,軟件輸出的“預(yù)測值”,就是這里的“P”,即概率,均是0-1的數(shù)字。
所以,如果從整體來看(將logit(P)看做一個整體),Logistic回歸模型仍然是一個線性回歸模型,一般稱作“廣義線性回歸”。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03