99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀【從零開始學統(tǒng)計】9.回歸:統(tǒng)計方法的大結合!
【從零開始學統(tǒng)計】9.回歸:統(tǒng)計方法的大結合!
2014-07-04
收藏

在開始本次的專題之前,樓主先問個小問題:姚明和他妻子葉莉生的孩子(兒子或女兒)會超過其父母的身高么?當然這是同性的相比(兒子一般都會比母親高,女兒一般不會超過父親……樓主才不會這么二呢……)

       當然這個問題提的也有點極端(畢竟像姚明那身高的世界上也沒幾個,要長那么高真心不容易啊),但是這個問題,則引入了我們今天的話題:回歸~~

       這個回歸不是香港澳門的回歸,而是數(shù)學上的回歸?;貧w最初被提出的時候,是作為現(xiàn)象出現(xiàn)的。在此引用《女士品茶》中的一段文字,來描述一下這個現(xiàn)象:高爾頓用這種方法,發(fā)現(xiàn)了他稱之為“向平均回歸”(regression to the mean)的現(xiàn)象,這表現(xiàn)為:非常高的父親,其兒子往往要比父親矮一些;而非常矮的父親,其兒子往往要比父親高一些。似乎是某種神秘的力量,使得人類的身高從高矮兩極移向所有人的平均值。不只是人類身高存在著向平均數(shù)回歸的現(xiàn)象,幾乎所有的科學觀察都著了魔似的向平均值回
歸。下面一段話,則說明了回歸現(xiàn)象是符合直觀的(為什么出現(xiàn)這個現(xiàn)象):

       高爾頓仔細思考了他的驚人發(fā)現(xiàn),而后認識到這必定是真實的,在進行所有觀察之前這就是可以預言的。他說,假設不發(fā)生這種向平均值的回歸,那么從平均意義上看,高身材父親的兒子將與他們的父親一樣高,在這種情況下,一些兒子的身材必須高于他們的父親,以抵消身材比父親矮小者的影響,使平均值不變。高身材者這一代人的兒子也將如此,那么會有一些兒子身材更高。這個過程將一代一代延續(xù)下去。同樣地,將會有一部分兒子身材比他們的父親矮小,而且有一部分孫子將更加矮小,如此下去,不用多少代,人類種族就將由特別高和特別矮的兩極構成。 上述的情形并沒有發(fā)生,人類的身高在平均意義上趨向于保持穩(wěn)定。只有當非常高的父親其兒子平均身材變矮,而非常矮的父親其兒子的平均身材變高,才能出現(xiàn)這種穩(wěn)定。向平均值回歸是一種保持穩(wěn)定性的現(xiàn)象,它使得某給定物種代際之間大致相同。

回歸的現(xiàn)象.jpg


       看這篇文章的很多童鞋,在接觸回歸的時候,有多少是被老師用這段話(或大致內容差不多的例子)引入回歸之門的呢?樓主肯定是的。也正因為如此,樓主對自己的身高終于心理平衡點了……好了,既然引入了回歸,那我們就入正題,來講講回歸的故事。

       有人要問了,樓主你說這么多,和回歸分析(或回歸模型)有什么關系?
      樓主:乍一看,是有點聯(lián)系不上(頂多讓人聯(lián)想到中心極限定理),但我們若是將父親的身高作為自變量X;兒子的身高作為因變量Y,那么我們也許就能根據(jù)父親的身高大致預測兒子的身高了。兒子身高的均值E(Y)可以大致用公式E(y)=bx+a+ε來做簡單預測,這就是回歸的現(xiàn)代意義:一個被解釋變量(因變量)與若干個解釋變量(自變量)依存關系的研究。要做回歸分析,有2個必需具備的條件
1、變量之間存在相關關系
Q:兩個變量間有哪些關系
A:兩個變量間有不相關、函數(shù)關系(函數(shù)關系是兩個變量之間有確定的關系,可以明確用函數(shù)表達的)和相關關系(相關關系包括線性相關和非線性相關)
備注:通常我們使用的線性回歸分析都會計算一個相關系數(shù),這里的相關系數(shù)特指線性相關系數(shù),如果哪天你計算出的相關系數(shù)為0.001~~那也僅僅表示他們的線性相關度很低,并不說明他們不存在非線性的什么關系……當然,當我們遇到的變量存在非線性相關關系,可以構建非線性回歸方程,也可以想辦法將其轉換成線性方程。

2、自變量間相互獨立且服從正態(tài)分布
變量間的相互獨立是為了保證其不會產生共線性(這個是要多元回歸才有的),正態(tài)分布的要求則保證了他們能使用那些基于正態(tài)分布而推導得出的統(tǒng)計理論(比如最小二乘,假設檢驗之類的)。這里還要求ε的均值為0,方差為σ2,且σ2與自變量無關。
Q:為什么會有ε?
A:若沒有隨機誤差,則變量間就為函數(shù)關系,加入了隨機誤差,則表明此方程模型中的X只能解釋或影響部分的Y,在他們之間可能還有其他的因素同樣牽引Y的變動(可能是一些我們沒有發(fā)現(xiàn)的因素,也可能是樣本獲取中的一些誤差引起的……)
我們來看一個小例子: 身高和體重圖.jpg 
假設隨機誤差對體重沒有影響,那么散點圖中所有的點將完全落在回歸直線上。但是,圖中的數(shù)據(jù)點并沒有完全落在回歸直線上,而是散布在回歸直線的附件,我們可以認為是那些隨機誤差將點從回歸直線上“推”開了。

回歸的目的也可以說是實質是由解釋變量(自變量)去估計被解釋變量(因變量)的均值!這個目的往往會被我們忽視,最終導致模型建立后因變量到底是什么都不清楚了。

再說回回歸方程的表達式,E(y)=bx+a+ε,b為斜率,a為截距,他們的計算公式為:清晰公式.jpg 
這里,在計算a,b時運用到最小二乘的方法,利用最小二乘法可以簡便地求得未知的數(shù)據(jù),并使得這些求得的數(shù)據(jù)與實際數(shù)據(jù)之間誤差的平方和為最小,樓主之前做過一個最小二乘的專題,大家可點擊:http://bbs.pinggu.org/thread-3041002-1-1.html參看一下。

為了更好的理解回歸方程的含義,我們舉個例子來說:
比如有方程表達式為:y=0.849x-85.7(y其實應該用y的估計,計算所得的參數(shù)值也是b和a的估計,但那個符號,打不上去~~大家將就一下),它表示x每增加1個單位,y就增加0.849個單位,且兩者具有正相關性。

那是不是這個方程就OK了,就能拿來用來預測呢?當然沒那么簡單,在這里我們就要來說說一個概念,那叫殘差。
Q:什么是殘差,殘差有什么作用?
A:在線性回歸模型中,殘差是真實值與估計值之間的差值,還記得前文中的ε,它是一個不可測量的隨機誤差,但我們可以用殘差去估計隨機誤差的方差。當然我們還能用殘差制作殘差圖來判斷模型擬合的好壞以及原始數(shù)據(jù)時候有奇異值。通常,我們將殘差作為縱軸,樣本序號、自變量或因變量的估計值作為橫軸畫殘差圖。
舉個例子來說吧:(圖中橫軸為樣本觀測編號)

殘差圖.jpg


由圖可知,樣本1和6的殘差較大,需要查看一下是否數(shù)據(jù)采集過程中有所錯誤,或是否有其他原因導致數(shù)值異常。
備注:殘差點比較均勻的分布在水平帶狀區(qū)域內,說明選用的模型比較合適,帶狀區(qū)域寬度越窄,說明擬合精度越高,回歸方程的估計精度越高。

Q:Adjusted R2與R2之間有什么關系?
A:R2稱為方程的確定系數(shù),0~1之間,越接近1,表明方程的變量對y的解釋能力越強。 對于回歸方程來說,總結了以下幾個意義: 
1.R2可以作為選擇不同模型的標準。如果在擬合數(shù)據(jù)之前,不能確定數(shù)據(jù)到底是什么模型,那么可以對變量的不同數(shù)學形式進行擬合,然后看R2的大小,R2大的模型,說明這個模型對數(shù)據(jù)擬合的較好。 
2.在數(shù)據(jù)的關系存在非線性可能情況下:
(a)不一定R2越大擬合越好,因為R2只是回歸平方和占總平方和的比例。 (b)如果一個模型的R2很小,不一定代表數(shù)據(jù)之間沒有關系,而很有可能是選擇的模型不對,因為數(shù)據(jù)之間也許的其他的函數(shù)關系,比如對數(shù)關系或者指數(shù)關系。這意味著需要對數(shù)據(jù)作進一步的擬合。(當然,最好的方法應該是在數(shù)據(jù)擬合之前先觀察散點圖)。如果是線性模型,那么R square才是方程擬合優(yōu)度的度量,R2越大,回歸方程擬合數(shù)據(jù)越好,線性關系越強。 
3.當自變量個數(shù)增加時,盡管有的自變量與y的線性關系不顯著,R2也會增大。R2受自變量個數(shù)與樣本規(guī)模影響。對于這點,采用Adjusted R2進行調整。 
4.當想確定方程中的每一個自變量對y的邊際解釋能力時,應該確定每個自變量的偏確定系數(shù)。注意,偏確定系數(shù)反映的是新加入回歸的變量所解釋的百分比,而這百分比是以前一步回歸所未能解釋的部分為整體,而不是以y的總變化為整體。也就是說,x1與x2共同解釋的y的貢獻,已包含在x1解釋的y的貢獻里面。偏確定系數(shù)的意義是,用于判斷自變量的重要性。但是,在遇到虛擬變量時,計算這個的意義不大。

Q:多元回歸分析中某自變量刪除的判斷
A:數(shù)理統(tǒng)計中有檢驗自變量和因變量關系的密切程度的方法, 利用此法可判斷一自變量與因變量的關系之密切程度, 因而放棄該最差的自變量, 達到簡化回歸分析的目的。 在運用自變量相對重要性的檢驗方法以及以此檢驗結果作出刪除某自變量時, 不能單純按數(shù)理統(tǒng)計所提供的數(shù)學處理, 而應以專業(yè)知識作全面考慮.  自變量的重要性是通過相應回歸系數(shù)的顯著性來檢驗。檢驗結果可分兩類: 一是各回歸系數(shù)都具顯著性, 但顯著程度, 即顯著性水平a 可能不盡相同; 二是有的回歸系數(shù)不具顯著性。根據(jù)數(shù)理統(tǒng)計的概念, 對于不具顯著性, 相應的自變量在回歸中的作用很小, 可忽略不計而刪除之, 用剩下的自變量重新回歸

進行回歸分析的步驟:
1、確定回歸方程中的解釋變量和被解釋變量(即誰是X誰是Y)
2、確定回歸模型:根據(jù)函數(shù)擬合方式,通過觀察散點圖確定應通過哪種數(shù)學模型來描述回歸線。如果被解釋變量和解釋變量之間存在線性關系,則應進行線性回歸分析,建立線性回歸模型;如果被解釋變量和解釋變量之間存在非線性關系,則應進行非線性回歸分析,建立非線性回歸模型。
3、建立回歸方程:根據(jù)收集到的樣本數(shù)據(jù)以及前步所確定的回歸模型,在一定的統(tǒng)計擬合準則下估計出模型中的各個參數(shù),得到一個確定的回歸方程。
4、對回歸方程進行各種檢驗:由于回歸方程是在樣本數(shù)據(jù)基礎上得到的,回歸方程是否真實地反映了事物總體間的統(tǒng)計關系,以及回歸方程能否用于預測等都需要進行檢驗。
5、利用回歸方程進行預測

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師考試動態(tài)
數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調用 initGeetest 進行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調,回調的第一個參數(shù)驗證碼對象,之后可以使用它調用相應的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }