99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁大數(shù)據(jù)時代廣義線性回歸分析模型Logistic,一文讀懂它!
廣義線性回歸分析模型Logistic,一文讀懂它!
2020-09-23
收藏

作者:丁點helper

來源:丁點幫你

前文我們已經(jīng)講解了相關(guān)與回歸的基礎(chǔ)知識,并且重點討論了多重線性回歸的應(yīng)用與診斷分析。今天的文章,我們來看看日常學習和科研中應(yīng)用同樣廣泛的另一類回歸分析——Logistic回歸。

Logisti回歸與多重線性回歸的區(qū)別

多重線性回歸,一般是指有多個自變量X,只有一個因變量Y。前面我們主要是以簡單線性回歸為例在介紹,兩者的差距主要在于自變量X的數(shù)量,在只有一個X時,就稱簡單線性回歸。

讀過我們前面“線性回歸”系列文章的同學,肯定已經(jīng)知道,采用線性回歸的第一準則:因變量Y需要是“定量變量”。

例如得分、收入等連續(xù)型的,可以計算均數(shù)和標準差的變量。而Logistic回歸最大的不同在于:Y是分類變量。

Logistic回歸的Y是分類變量(這句話希望大家在心里默讀三遍)這是進行Logistic回歸最基本的條件。

什么是分類變量呢?大家最常見的可能是:發(fā)病與不發(fā)病。

比如我們用Y來表示“是否患有糖尿病”,用Y=1表示“患病”;用Y=0,表示“不患病”,這里的Y就是一個典型的二分類變量。

此時,當我們希望通過回歸分析的方法來探討“糖尿病患病與否的影響因素”,則應(yīng)該選擇“Logistic回歸分析”。

同多重線性回歸一致,對進行Logistic回歸分析的自變量X并沒有限制,可以是定量變量,如年齡,也可以是分類變量,如性別等等。

所以,按照我們前面文章所強調(diào)的,進行研究前首先要找XYZ(自變量、因變量和控制變量),當考慮是進行多重線性回歸,還是Logistic回歸時,原則上只需看Y(即因變量、或稱反應(yīng)變量)的類型:

定量變量就用多重線性回歸,分類就用Logistic回歸。

線性概率模型

多重線性回歸,一般是指有多個自變量X,只有一個因變量Y。前面我們主要是以簡單線性回歸為例在介紹,兩者的差距主要在于自變量X的數(shù)量,在只有一個X時,就稱簡單線性回歸。

理清了Logistic回歸與一般線性回歸的區(qū)別后,我們再來看看Logistic回歸是如何構(gòu)造出來的。

在這之間,我們要先介紹一個新詞:線性概率模型。什么叫線性概率模型,它與Logistic回歸有什么關(guān)系?我們一一道來。

首先,既然大家都叫“回歸”,Logistic回歸與線性回歸當然存在聯(lián)系的。

實際上,Logistic回歸僅僅只是對線性回歸的因變量進行了一個變換,模型的主體結(jié)構(gòu)仍然屬于“線性回歸”。

仍然以“糖尿病患病的影響因素”為例進行說明。

某研究團隊想要探討某地區(qū)糖尿病患病的影響因素,收集了如下數(shù)據(jù):

上述數(shù)據(jù)的賦值說明如下:

本研究的目的是獲得“影響因素”,因此,除變量Y(是否患病)以外,其他所有因素都可以作為潛在的影響因素(即自變量X納入)模型。如上表,Y屬于二分類變量,其取值模式是“0、0、0…1、1、1”,其中“1”表示“是”;“0”表示“否”,所以符合進行Logistic回歸的基本條件。

在Logistic回歸誕生之前,人們首先考慮的是按照“多重線性回歸”的方法,忽略變量Y的變量類型,直接將Y與各個X強行進行多重線性回歸。

在前文,我們講過Y上面添加一個“^”符號,表示Y的估計值。結(jié)合本例,如果我們將是否患有糖尿病與各個X進行回歸,也會得到Y(jié)的估計值??墒侨绾谓忉屵@個估值值呢?人們想出一個辦法:概率。

概率是我們在中學就接觸過的內(nèi)容,表示的是“某個事件發(fā)生可能性的大小”,比如某人患糖尿病的概率是80%,意味著他的患病風險比較高。

當我們從概率的角度進行線性回歸時,得到的模型特稱為“線性概率模型”。

如上式,我們用P來表示Y的估計值,專門代表患病概率。什么意思呢?我們現(xiàn)在構(gòu)造的模型是用來研究各個影響因素與糖尿病患病概率的相關(guān)關(guān)系,不再是是否發(fā)病。

也就是說,通過模型,我們可以計算出預(yù)測值,此時的預(yù)測值代表該對象患糖尿病的可能性大小。

這個地方需要特別理清的是,每一個研究對象是否患有糖尿病我們提前已經(jīng)知曉。如上表,變量Y=0,意味著“沒有患病”,Y=1,表示“患病”。

可是現(xiàn)在又說預(yù)測值代表他患病的可能性大小,都已經(jīng)患病了,再算患病可能性還有意義嗎?

當然是有的,這就是回歸分析,或者整個統(tǒng)計學的思想,用已經(jīng)發(fā)生的事情作為樣本來推測事物間的規(guī)律。

這里的預(yù)測值是根據(jù)模型(即根據(jù)X所計算的),雖然并非實際情況,但我們可以推測:如果模型預(yù)測效果好,那對于某一名已經(jīng)患病的對象而言,其預(yù)測值(即患病概率)應(yīng)該接近于1,表明患糖尿病概率很高。

反之,對于沒有患病的人群(即Y=0),根據(jù)模型計算的患病概率則應(yīng)該接近0,即患病概率低。

確實如此,上述線性概率模型并非理論假想,而是存在實際應(yīng)用,它與多重線性回歸的思路和操作方法完全相同。

唯一特殊的是,這里“Y”的預(yù)測值專門由“P”表示,指代概率。這種方法在經(jīng)濟學等社會科學領(lǐng)域十分廣泛,常與Logistic回歸結(jié)合使用。

Logistic回歸的由來

多重線性回歸,一般是指有多個自變量X,只有一個因變量Y。前面我們主要是以簡單線性回歸為例在介紹,兩者的差距主要在于自變量X的數(shù)量,在只有一個X時,就稱簡單線性回歸。

 但是,這個“線性概率模型”有一個很嚴重或者說“致命”的問題。根據(jù)模型來看,Y的估計值(即這里的P)理論上可以取所有實數(shù)。可是,對于大于1或者小于0的預(yù)測值,該做何種解釋呢?

常識告訴我們,概率(即可能性)不會大于“1”或者小于“0”,可是通過模型計算出來的預(yù)測概率幾乎一定會出現(xiàn)大于1或小于0的情形。

為了解決這個問題,人們就考慮對P進行變換。數(shù)學上發(fā)現(xiàn),通過對P進行如下變換即可解決問題:logit (P) = ln (P/1-P),(其中l(wèi)n為自然對數(shù)函數(shù))。

這個變換即所謂的“l(fā)ogit”變換,通過對P進行變換之后再次納入回歸模型,得到的模型即為“Logistic回歸模型”:

在實際應(yīng)用中,這些變換當然不再需要我們手動操作,只需要把數(shù)據(jù)整理成上述上述表格中的形式,SPSS軟件會進行完整的分析過程。

但我們需要特別明確的是,進行Logistic回歸后,軟件輸出的“預(yù)測值”,就是這里的“P”,即概率,均是0-1的數(shù)字。

所以,如果從整體來看(將logit(P)看做一個整體),Logistic回歸模型仍然是一個線性回歸模型,一般稱作“廣義線性回歸”。

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務(wù)器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }