99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁(yè)精彩閱讀【從零開(kāi)始學(xué)統(tǒng)計(jì)】9.回歸:統(tǒng)計(jì)方法的大結(jié)合!
【從零開(kāi)始學(xué)統(tǒng)計(jì)】9.回歸:統(tǒng)計(jì)方法的大結(jié)合!
2014-07-04
收藏

在開(kāi)始本次的專(zhuān)題之前,樓主先問(wèn)個(gè)小問(wèn)題:姚明和他妻子葉莉生的孩子(兒子或女兒)會(huì)超過(guò)其父母的身高么?當(dāng)然這是同性的相比(兒子一般都會(huì)比母親高,女兒一般不會(huì)超過(guò)父親……樓主才不會(huì)這么二呢……)

       當(dāng)然這個(gè)問(wèn)題提的也有點(diǎn)極端(畢竟像姚明那身高的世界上也沒(méi)幾個(gè),要長(zhǎng)那么高真心不容易?。沁@個(gè)問(wèn)題,則引入了我們今天的話題:回歸~~

       這個(gè)回歸不是香港澳門(mén)的回歸,而是數(shù)學(xué)上的回歸?;貧w最初被提出的時(shí)候,是作為現(xiàn)象出現(xiàn)的。在此引用《女士品茶》中的一段文字,來(lái)描述一下這個(gè)現(xiàn)象:高爾頓用這種方法,發(fā)現(xiàn)了他稱(chēng)之為“向平均回歸”(regression to the mean)的現(xiàn)象,這表現(xiàn)為:非常高的父親,其兒子往往要比父親矮一些;而非常矮的父親,其兒子往往要比父親高一些。似乎是某種神秘的力量,使得人類(lèi)的身高從高矮兩極移向所有人的平均值。不只是人類(lèi)身高存在著向平均數(shù)回歸的現(xiàn)象,幾乎所有的科學(xué)觀察都著了魔似的向平均值回
歸。下面一段話,則說(shuō)明了回歸現(xiàn)象是符合直觀的(為什么出現(xiàn)這個(gè)現(xiàn)象):

       高爾頓仔細(xì)思考了他的驚人發(fā)現(xiàn),而后認(rèn)識(shí)到這必定是真實(shí)的,在進(jìn)行所有觀察之前這就是可以預(yù)言的。他說(shuō),假設(shè)不發(fā)生這種向平均值的回歸,那么從平均意義上看,高身材父親的兒子將與他們的父親一樣高,在這種情況下,一些兒子的身材必須高于他們的父親,以抵消身材比父親矮小者的影響,使平均值不變。高身材者這一代人的兒子也將如此,那么會(huì)有一些兒子身材更高。這個(gè)過(guò)程將一代一代延續(xù)下去。同樣地,將會(huì)有一部分兒子身材比他們的父親矮小,而且有一部分孫子將更加矮小,如此下去,不用多少代,人類(lèi)種族就將由特別高和特別矮的兩極構(gòu)成。 上述的情形并沒(méi)有發(fā)生,人類(lèi)的身高在平均意義上趨向于保持穩(wěn)定。只有當(dāng)非常高的父親其兒子平均身材變矮,而非常矮的父親其兒子的平均身材變高,才能出現(xiàn)這種穩(wěn)定。向平均值回歸是一種保持穩(wěn)定性的現(xiàn)象,它使得某給定物種代際之間大致相同。

回歸的現(xiàn)象.jpg


       看這篇文章的很多童鞋,在接觸回歸的時(shí)候,有多少是被老師用這段話(或大致內(nèi)容差不多的例子)引入回歸之門(mén)的呢?樓主肯定是的。也正因?yàn)槿绱?,樓主?duì)自己的身高終于心理平衡點(diǎn)了……好了,既然引入了回歸,那我們就入正題,來(lái)講講回歸的故事。

       有人要問(wèn)了,樓主你說(shuō)這么多,和回歸分析(或回歸模型)有什么關(guān)系?
      樓主:乍一看,是有點(diǎn)聯(lián)系不上(頂多讓人聯(lián)想到中心極限定理),但我們?nèi)羰菍⒏赣H的身高作為自變量X;兒子的身高作為因變量Y,那么我們也許就能根據(jù)父親的身高大致預(yù)測(cè)兒子的身高了。兒子身高的均值E(Y)可以大致用公式E(y)=bx+a+ε來(lái)做簡(jiǎn)單預(yù)測(cè),這就是回歸的現(xiàn)代意義:一個(gè)被解釋變量(因變量)與若干個(gè)解釋變量(自變量)依存關(guān)系的研究。要做回歸分析,有2個(gè)必需具備的條件
1、變量之間存在相關(guān)關(guān)系
Q:兩個(gè)變量間有哪些關(guān)系
A:兩個(gè)變量間有不相關(guān)、函數(shù)關(guān)系(函數(shù)關(guān)系是兩個(gè)變量之間有確定的關(guān)系,可以明確用函數(shù)表達(dá)的)和相關(guān)關(guān)系(相關(guān)關(guān)系包括線性相關(guān)和非線性相關(guān))
備注:通常我們使用的線性回歸分析都會(huì)計(jì)算一個(gè)相關(guān)系數(shù),這里的相關(guān)系數(shù)特指線性相關(guān)系數(shù),如果哪天你計(jì)算出的相關(guān)系數(shù)為0.001~~那也僅僅表示他們的線性相關(guān)度很低,并不說(shuō)明他們不存在非線性的什么關(guān)系……當(dāng)然,當(dāng)我們遇到的變量存在非線性相關(guān)關(guān)系,可以構(gòu)建非線性回歸方程,也可以想辦法將其轉(zhuǎn)換成線性方程。

2、自變量間相互獨(dú)立且服從正態(tài)分布
變量間的相互獨(dú)立是為了保證其不會(huì)產(chǎn)生共線性(這個(gè)是要多元回歸才有的),正態(tài)分布的要求則保證了他們能使用那些基于正態(tài)分布而推導(dǎo)得出的統(tǒng)計(jì)理論(比如最小二乘,假設(shè)檢驗(yàn)之類(lèi)的)。這里還要求ε的均值為0,方差為σ2,且σ2與自變量無(wú)關(guān)。
Q:為什么會(huì)有ε?
A:若沒(méi)有隨機(jī)誤差,則變量間就為函數(shù)關(guān)系,加入了隨機(jī)誤差,則表明此方程模型中的X只能解釋或影響部分的Y,在他們之間可能還有其他的因素同樣牽引Y的變動(dòng)(可能是一些我們沒(méi)有發(fā)現(xiàn)的因素,也可能是樣本獲取中的一些誤差引起的……)
我們來(lái)看一個(gè)小例子: 身高和體重圖.jpg 
假設(shè)隨機(jī)誤差對(duì)體重沒(méi)有影響,那么散點(diǎn)圖中所有的點(diǎn)將完全落在回歸直線上。但是,圖中的數(shù)據(jù)點(diǎn)并沒(méi)有完全落在回歸直線上,而是散布在回歸直線的附件,我們可以認(rèn)為是那些隨機(jī)誤差將點(diǎn)從回歸直線上“推”開(kāi)了。

回歸的目的也可以說(shuō)是實(shí)質(zhì)是由解釋變量(自變量)去估計(jì)被解釋變量(因變量)的均值!這個(gè)目的往往會(huì)被我們忽視,最終導(dǎo)致模型建立后因變量到底是什么都不清楚了。

再說(shuō)回回歸方程的表達(dá)式,E(y)=bx+a+ε,b為斜率,a為截距,他們的計(jì)算公式為:清晰公式.jpg 
這里,在計(jì)算a,b時(shí)運(yùn)用到最小二乘的方法,利用最小二乘法可以簡(jiǎn)便地求得未知的數(shù)據(jù),并使得這些求得的數(shù)據(jù)與實(shí)際數(shù)據(jù)之間誤差的平方和為最小,樓主之前做過(guò)一個(gè)最小二乘的專(zhuān)題,大家可點(diǎn)擊:http://bbs.pinggu.org/thread-3041002-1-1.html參看一下。

為了更好的理解回歸方程的含義,我們舉個(gè)例子來(lái)說(shuō):
比如有方程表達(dá)式為:y=0.849x-85.7(y其實(shí)應(yīng)該用y的估計(jì),計(jì)算所得的參數(shù)值也是b和a的估計(jì),但那個(gè)符號(hào),打不上去~~大家將就一下),它表示x每增加1個(gè)單位,y就增加0.849個(gè)單位,且兩者具有正相關(guān)性。

那是不是這個(gè)方程就OK了,就能拿來(lái)用來(lái)預(yù)測(cè)呢?當(dāng)然沒(méi)那么簡(jiǎn)單,在這里我們就要來(lái)說(shuō)說(shuō)一個(gè)概念,那叫殘差。
Q:什么是殘差,殘差有什么作用?
A:在線性回歸模型中,殘差是真實(shí)值與估計(jì)值之間的差值,還記得前文中的ε,它是一個(gè)不可測(cè)量的隨機(jī)誤差,但我們可以用殘差去估計(jì)隨機(jī)誤差的方差。當(dāng)然我們還能用殘差制作殘差圖來(lái)判斷模型擬合的好壞以及原始數(shù)據(jù)時(shí)候有奇異值。通常,我們將殘差作為縱軸,樣本序號(hào)、自變量或因變量的估計(jì)值作為橫軸畫(huà)殘差圖。
舉個(gè)例子來(lái)說(shuō)吧:(圖中橫軸為樣本觀測(cè)編號(hào))

殘差圖.jpg


由圖可知,樣本1和6的殘差較大,需要查看一下是否數(shù)據(jù)采集過(guò)程中有所錯(cuò)誤,或是否有其他原因?qū)е聰?shù)值異常。
備注:殘差點(diǎn)比較均勻的分布在水平帶狀區(qū)域內(nèi),說(shuō)明選用的模型比較合適,帶狀區(qū)域?qū)挾仍秸?,說(shuō)明擬合精度越高,回歸方程的估計(jì)精度越高。

Q:Adjusted R2與R2之間有什么關(guān)系?
A:R2稱(chēng)為方程的確定系數(shù),0~1之間,越接近1,表明方程的變量對(duì)y的解釋能力越強(qiáng)。 對(duì)于回歸方程來(lái)說(shuō),總結(jié)了以下幾個(gè)意義: 
1.R2可以作為選擇不同模型的標(biāo)準(zhǔn)。如果在擬合數(shù)據(jù)之前,不能確定數(shù)據(jù)到底是什么模型,那么可以對(duì)變量的不同數(shù)學(xué)形式進(jìn)行擬合,然后看R2的大小,R2大的模型,說(shuō)明這個(gè)模型對(duì)數(shù)據(jù)擬合的較好。 
2.在數(shù)據(jù)的關(guān)系存在非線性可能情況下:
(a)不一定R2越大擬合越好,因?yàn)镽2只是回歸平方和占總平方和的比例。 (b)如果一個(gè)模型的R2很小,不一定代表數(shù)據(jù)之間沒(méi)有關(guān)系,而很有可能是選擇的模型不對(duì),因?yàn)閿?shù)據(jù)之間也許的其他的函數(shù)關(guān)系,比如對(duì)數(shù)關(guān)系或者指數(shù)關(guān)系。這意味著需要對(duì)數(shù)據(jù)作進(jìn)一步的擬合。(當(dāng)然,最好的方法應(yīng)該是在數(shù)據(jù)擬合之前先觀察散點(diǎn)圖)。如果是線性模型,那么R square才是方程擬合優(yōu)度的度量,R2越大,回歸方程擬合數(shù)據(jù)越好,線性關(guān)系越強(qiáng)。 
3.當(dāng)自變量個(gè)數(shù)增加時(shí),盡管有的自變量與y的線性關(guān)系不顯著,R2也會(huì)增大。R2受自變量個(gè)數(shù)與樣本規(guī)模影響。對(duì)于這點(diǎn),采用Adjusted R2進(jìn)行調(diào)整。 
4.當(dāng)想確定方程中的每一個(gè)自變量對(duì)y的邊際解釋能力時(shí),應(yīng)該確定每個(gè)自變量的偏確定系數(shù)。注意,偏確定系數(shù)反映的是新加入回歸的變量所解釋的百分比,而這百分比是以前一步回歸所未能解釋的部分為整體,而不是以y的總變化為整體。也就是說(shuō),x1與x2共同解釋的y的貢獻(xiàn),已包含在x1解釋的y的貢獻(xiàn)里面。偏確定系數(shù)的意義是,用于判斷自變量的重要性。但是,在遇到虛擬變量時(shí),計(jì)算這個(gè)的意義不大。

Q:多元回歸分析中某自變量刪除的判斷
A:數(shù)理統(tǒng)計(jì)中有檢驗(yàn)自變量和因變量關(guān)系的密切程度的方法, 利用此法可判斷一自變量與因變量的關(guān)系之密切程度, 因而放棄該最差的自變量, 達(dá)到簡(jiǎn)化回歸分析的目的。 在運(yùn)用自變量相對(duì)重要性的檢驗(yàn)方法以及以此檢驗(yàn)結(jié)果作出刪除某自變量時(shí), 不能單純按數(shù)理統(tǒng)計(jì)所提供的數(shù)學(xué)處理, 而應(yīng)以專(zhuān)業(yè)知識(shí)作全面考慮.  自變量的重要性是通過(guò)相應(yīng)回歸系數(shù)的顯著性來(lái)檢驗(yàn)。檢驗(yàn)結(jié)果可分兩類(lèi): 一是各回歸系數(shù)都具顯著性, 但顯著程度, 即顯著性水平a 可能不盡相同; 二是有的回歸系數(shù)不具顯著性。根據(jù)數(shù)理統(tǒng)計(jì)的概念, 對(duì)于不具顯著性, 相應(yīng)的自變量在回歸中的作用很小, 可忽略不計(jì)而刪除之, 用剩下的自變量重新回歸

進(jìn)行回歸分析的步驟:
1、確定回歸方程中的解釋變量和被解釋變量(即誰(shuí)是X誰(shuí)是Y)
2、確定回歸模型:根據(jù)函數(shù)擬合方式,通過(guò)觀察散點(diǎn)圖確定應(yīng)通過(guò)哪種數(shù)學(xué)模型來(lái)描述回歸線。如果被解釋變量和解釋變量之間存在線性關(guān)系,則應(yīng)進(jìn)行線性回歸分析,建立線性回歸模型;如果被解釋變量和解釋變量之間存在非線性關(guān)系,則應(yīng)進(jìn)行非線性回歸分析,建立非線性回歸模型。
3、建立回歸方程:根據(jù)收集到的樣本數(shù)據(jù)以及前步所確定的回歸模型,在一定的統(tǒng)計(jì)擬合準(zhǔn)則下估計(jì)出模型中的各個(gè)參數(shù),得到一個(gè)確定的回歸方程。
4、對(duì)回歸方程進(jìn)行各種檢驗(yàn):由于回歸方程是在樣本數(shù)據(jù)基礎(chǔ)上得到的,回歸方程是否真實(shí)地反映了事物總體間的統(tǒng)計(jì)關(guān)系,以及回歸方程能否用于預(yù)測(cè)等都需要進(jìn)行檢驗(yàn)。
5、利用回歸方程進(jìn)行預(yù)測(cè)

數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢(xún)
客服在線
立即咨詢(xún)
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶(hù)后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說(shuō)明請(qǐng)參見(jiàn):http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }