
作者:丁點(diǎn)helper
來源:丁點(diǎn)幫你
前文我們已經(jīng)講解了相關(guān)與回歸的基礎(chǔ)知識(shí),并且重點(diǎn)討論了多重線性回歸的應(yīng)用與診斷分析。今天的文章,我們來看看日常學(xué)習(xí)和科研中應(yīng)用同樣廣泛的另一類回歸分析——Logistic回歸。
Logisti回歸與多重線性回歸的區(qū)別
多重線性回歸,一般是指有多個(gè)自變量X,只有一個(gè)因變量Y。前面我們主要是以簡(jiǎn)單線性回歸為例在介紹,兩者的差距主要在于自變量X的數(shù)量,在只有一個(gè)X時(shí),就稱簡(jiǎn)單線性回歸。
讀過我們前面“線性回歸”系列文章的同學(xué),肯定已經(jīng)知道,采用線性回歸的第一準(zhǔn)則:因變量Y需要是“定量變量”。
例如得分、收入等連續(xù)型的,可以計(jì)算均數(shù)和標(biāo)準(zhǔn)差的變量。而Logistic回歸最大的不同在于:Y是分類變量。
Logistic回歸的Y是分類變量(這句話希望大家在心里默讀三遍)這是進(jìn)行Logistic回歸最基本的條件。
什么是分類變量呢?大家最常見的可能是:發(fā)病與不發(fā)病。
比如我們用Y來表示“是否患有糖尿病”,用Y=1表示“患病”;用Y=0,表示“不患病”,這里的Y就是一個(gè)典型的二分類變量。
此時(shí),當(dāng)我們希望通過回歸分析的方法來探討“糖尿病患病與否的影響因素”,則應(yīng)該選擇“Logistic回歸分析”。
同多重線性回歸一致,對(duì)進(jìn)行Logistic回歸分析的自變量X并沒有限制,可以是定量變量,如年齡,也可以是分類變量,如性別等等。
所以,按照我們前面文章所強(qiáng)調(diào)的,進(jìn)行研究前首先要找XYZ(自變量、因變量和控制變量),當(dāng)考慮是進(jìn)行多重線性回歸,還是Logistic回歸時(shí),原則上只需看Y(即因變量、或稱反應(yīng)變量)的類型:
定量變量就用多重線性回歸,分類就用Logistic回歸。
線性概率模型
多重線性回歸,一般是指有多個(gè)自變量X,只有一個(gè)因變量Y。前面我們主要是以簡(jiǎn)單線性回歸為例在介紹,兩者的差距主要在于自變量X的數(shù)量,在只有一個(gè)X時(shí),就稱簡(jiǎn)單線性回歸。
理清了Logistic回歸與一般線性回歸的區(qū)別后,我們?cè)賮砜纯碙ogistic回歸是如何構(gòu)造出來的。
在這之間,我們要先介紹一個(gè)新詞:線性概率模型。什么叫線性概率模型,它與Logistic回歸有什么關(guān)系?我們一一道來。
首先,既然大家都叫“回歸”,Logistic回歸與線性回歸當(dāng)然存在聯(lián)系的。
實(shí)際上,Logistic回歸僅僅只是對(duì)線性回歸的因變量進(jìn)行了一個(gè)變換,模型的主體結(jié)構(gòu)仍然屬于“線性回歸”。
仍然以“糖尿病患病的影響因素”為例進(jìn)行說明。
某研究團(tuán)隊(duì)想要探討某地區(qū)糖尿病患病的影響因素,收集了如下數(shù)據(jù):
上述數(shù)據(jù)的賦值說明如下:
本研究的目的是獲得“影響因素”,因此,除變量Y(是否患病)以外,其他所有因素都可以作為潛在的影響因素(即自變量X納入)模型。如上表,Y屬于二分類變量,其取值模式是“0、0、0…1、1、1”,其中“1”表示“是”;“0”表示“否”,所以符合進(jìn)行Logistic回歸的基本條件。
在Logistic回歸誕生之前,人們首先考慮的是按照“多重線性回歸”的方法,忽略變量Y的變量類型,直接將Y與各個(gè)X強(qiáng)行進(jìn)行多重線性回歸。
在前文,我們講過Y上面添加一個(gè)“^”符號(hào),表示Y的估計(jì)值。結(jié)合本例,如果我們將是否患有糖尿病與各個(gè)X進(jìn)行回歸,也會(huì)得到Y(jié)的估計(jì)值??墒侨绾谓忉屵@個(gè)估值值呢?人們想出一個(gè)辦法:概率。
概率是我們?cè)谥袑W(xué)就接觸過的內(nèi)容,表示的是“某個(gè)事件發(fā)生可能性的大小”,比如某人患糖尿病的概率是80%,意味著他的患病風(fēng)險(xiǎn)比較高。
當(dāng)我們從概率的角度進(jìn)行線性回歸時(shí),得到的模型特稱為“線性概率模型”。
如上式,我們用P來表示Y的估計(jì)值,專門代表患病概率。什么意思呢?我們現(xiàn)在構(gòu)造的模型是用來研究各個(gè)影響因素與糖尿病患病概率的相關(guān)關(guān)系,不再是是否發(fā)病。
也就是說,通過模型,我們可以計(jì)算出預(yù)測(cè)值,此時(shí)的預(yù)測(cè)值代表該對(duì)象患糖尿病的可能性大小。
這個(gè)地方需要特別理清的是,每一個(gè)研究對(duì)象是否患有糖尿病我們提前已經(jīng)知曉。如上表,變量Y=0,意味著“沒有患病”,Y=1,表示“患病”。
可是現(xiàn)在又說預(yù)測(cè)值代表他患病的可能性大小,都已經(jīng)患病了,再算患病可能性還有意義嗎?
當(dāng)然是有的,這就是回歸分析,或者整個(gè)統(tǒng)計(jì)學(xué)的思想,用已經(jīng)發(fā)生的事情作為樣本來推測(cè)事物間的規(guī)律。
這里的預(yù)測(cè)值是根據(jù)模型(即根據(jù)X所計(jì)算的),雖然并非實(shí)際情況,但我們可以推測(cè):如果模型預(yù)測(cè)效果好,那對(duì)于某一名已經(jīng)患病的對(duì)象而言,其預(yù)測(cè)值(即患病概率)應(yīng)該接近于1,表明患糖尿病概率很高。
反之,對(duì)于沒有患病的人群(即Y=0),根據(jù)模型計(jì)算的患病概率則應(yīng)該接近0,即患病概率低。
確實(shí)如此,上述線性概率模型并非理論假想,而是存在實(shí)際應(yīng)用,它與多重線性回歸的思路和操作方法完全相同。
唯一特殊的是,這里“Y”的預(yù)測(cè)值專門由“P”表示,指代概率。這種方法在經(jīng)濟(jì)學(xué)等社會(huì)科學(xué)領(lǐng)域十分廣泛,常與Logistic回歸結(jié)合使用。
Logistic回歸的由來
多重線性回歸,一般是指有多個(gè)自變量X,只有一個(gè)因變量Y。前面我們主要是以簡(jiǎn)單線性回歸為例在介紹,兩者的差距主要在于自變量X的數(shù)量,在只有一個(gè)X時(shí),就稱簡(jiǎn)單線性回歸。
但是,這個(gè)“線性概率模型”有一個(gè)很嚴(yán)重或者說“致命”的問題。根據(jù)模型來看,Y的估計(jì)值(即這里的P)理論上可以取所有實(shí)數(shù)??墒?,對(duì)于大于1或者小于0的預(yù)測(cè)值,該做何種解釋呢?
常識(shí)告訴我們,概率(即可能性)不會(huì)大于“1”或者小于“0”,可是通過模型計(jì)算出來的預(yù)測(cè)概率幾乎一定會(huì)出現(xiàn)大于1或小于0的情形。
為了解決這個(gè)問題,人們就考慮對(duì)P進(jìn)行變換。數(shù)學(xué)上發(fā)現(xiàn),通過對(duì)P進(jìn)行如下變換即可解決問題:logit (P) = ln (P/1-P),(其中l(wèi)n為自然對(duì)數(shù)函數(shù))。
這個(gè)變換即所謂的“l(fā)ogit”變換,通過對(duì)P進(jìn)行變換之后再次納入回歸模型,得到的模型即為“Logistic回歸模型”:
在實(shí)際應(yīng)用中,這些變換當(dāng)然不再需要我們手動(dòng)操作,只需要把數(shù)據(jù)整理成上述上述表格中的形式,SPSS軟件會(huì)進(jìn)行完整的分析過程。
但我們需要特別明確的是,進(jìn)行Logistic回歸后,軟件輸出的“預(yù)測(cè)值”,就是這里的“P”,即概率,均是0-1的數(shù)字。
所以,如果從整體來看(將logit(P)看做一個(gè)整體),Logistic回歸模型仍然是一個(gè)線性回歸模型,一般稱作“廣義線性回歸”。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03