99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀SPSS回歸分析與數(shù)據(jù)預(yù)處理體會
SPSS回歸分析與數(shù)據(jù)預(yù)處理體會
2015-09-06
收藏

SPSS回歸分析與數(shù)據(jù)預(yù)處理體會


關(guān)于SPSS數(shù)據(jù)預(yù)處理

拿到一份數(shù)據(jù),或者在看到國內(nèi)外某個學(xué)者的文章有想法而自己手里的數(shù)據(jù)剛好符合這個想法可以做時,在整理好數(shù)據(jù)后不要急于建模。一定要對數(shù)據(jù)做缺失值處理、異常值處理。在數(shù)據(jù)預(yù)處理的基礎(chǔ)上再進(jìn)一步建模,否則可能得到錯誤的結(jié)果。

心得1:數(shù)據(jù)預(yù)處理怎么做。

一是 缺失值的處理。我個人有幾個看法:

數(shù)據(jù)樣本量足夠大,在刪除缺失值樣本的情況下不影響估計總體情況,可考慮刪除缺失值;

二是數(shù)據(jù)樣本量本身不大的情況下,可從以下兩點(diǎn)考慮:1是采用缺失值替換,SPSS中具體操作為“轉(zhuǎn)換”菜單下的“替換缺失值”功能,里面有5種替換的方法。若數(shù)據(jù)樣本量不大,同質(zhì)性比較強(qiáng),可考慮總體均值替換方法,如數(shù)據(jù)來自不同的總體(如我做農(nóng)戶調(diào)研不同村的數(shù)據(jù)),可考慮以一個小總體的均值作為替換(如我以一個村的均值替換缺失值)。2是根據(jù)原始問卷結(jié)合客觀實際自行推斷估計一個缺失值的樣本值,或者以一個類似家庭的值補(bǔ)充缺失值。
心得2:數(shù)據(jù)預(yù)處理第二點(diǎn)異常值的處理。

我大概學(xué)了兩門統(tǒng)計軟件SPSS和Stata,SPSS用的時間久些,熟悉一下,Stata最近才學(xué),不是太熟。關(guān)于這點(diǎn)我結(jié)合著來說。關(guān)于異常值的處理可分為兩點(diǎn),一是怎么判定一個值是異常值,二是怎么去處理。

判定異常值的方法我個人認(rèn)為常用的有兩點(diǎn):1是描述性統(tǒng)計分析,看均值、標(biāo)準(zhǔn)差和最大最小值。一般情況下,若標(biāo)準(zhǔn)差遠(yuǎn)遠(yuǎn)大于均值,可粗略判定數(shù)據(jù)存在異常值。2是通過做指標(biāo)的箱圖判定,箱圖上加“*”的個案即為異常個案。

發(fā)現(xiàn)了異常值,接下來說怎么處理的問題。大概有三種方法:

1是正偏態(tài)分布數(shù)據(jù)取對數(shù)處理。我做農(nóng)戶微觀實證研究,很多時候得到的數(shù)據(jù)(如收入)都有很大的異常值,數(shù)據(jù)呈正偏態(tài)分布,這種我一般是取對數(shù)處理數(shù)據(jù)。若原始數(shù)據(jù)中還有0,取對數(shù)ln(0)沒意義,我就取ln(x+1)處理;

2是樣本量足夠大刪除異常值樣本;

3是從stata里學(xué)到的,對數(shù)據(jù)做結(jié)尾或者縮尾處理。這里的結(jié)尾處理其實就是同第二個方法,在樣本量足夠大的情況下刪除首尾1%-5%的樣本??s尾指的是人為改變異常值大小。如有一組數(shù)據(jù),均值為50,存在幾個異常值,都是500多(我這么說有點(diǎn)夸張,大概是這個意思),縮尾處理就是將這幾個500多的數(shù)據(jù)人為改為均值+3標(biāo)準(zhǔn)差左右數(shù)據(jù)大小,如改為100。

總結(jié)而言,我個人認(rèn)為做數(shù)據(jù)變換的方式比較好,數(shù)據(jù)變換后再做圖或描述性統(tǒng)計看數(shù)據(jù)分布情況,再剔除個別極端異常值。

關(guān)于SPSS回歸分析
心得1:如何做好回歸分析。

經(jīng)過多次實戰(zhàn),以及看了N多視頻,上了N多課,看了N多專業(yè)的書。我個人總結(jié)做回歸的步奏如下:

1對數(shù)據(jù)進(jìn)行預(yù)處理,替換缺失值和處理異常值;

2是將單個自變量分別與因變量做散點(diǎn)圖和做回歸,判定其趨勢,并做好記錄(尤其是系數(shù)正負(fù)號,要特別記錄);

3是自變量和因變量一起做相關(guān)系數(shù),看各個變量相關(guān)關(guān)系強(qiáng)弱,為下一步檢驗多重共線性做準(zhǔn)備;

4是自變量多重共線性診斷。若變量存在多重共線性,可采用主成分回歸,即先將存在多重共線性的變量做主成分分析合并為1個變量,然后再將合并成的新變量和其余自變量一起納入模型做回歸;

5是做殘差圖,看殘差圖分布是否均勻(一般在+-3個單位之間均勻分布就比較好);

6是報告相應(yīng)結(jié)果。

 
心得2:看到論壇上有網(wǎng)友問為什么他(她)老師不建議采用后向步進(jìn)法處理變量多重共線性。

記得張文彤老師說過他有個同學(xué)做過一個研究,即采用后向步進(jìn)法剔除變量的方式去做回歸,得到的結(jié)果犯錯的幾率比較大。張老師也不建議用這個方法處理多重共線性。處理多重共線性比較好的方法是做主成分回歸。

心得3:有個朋友問我在報到回歸結(jié)果時用未標(biāo)準(zhǔn)化的回歸系數(shù)好,還是用標(biāo)準(zhǔn)化后的回歸系數(shù)好。

我個人覺得這個問題仁者見仁智者見智,要看想表達(dá)什么。具體而言,如果想表達(dá)在其它條件不變的情況下,自變量X每變化1個單位,因變量變化多少個單位,這種情況用未標(biāo)準(zhǔn)化回歸系數(shù)就好;如果想比較各個自變量對因變量影響的相對大小,即判斷相對而言,哪個變量對因變量影響更大。這時需要消除量綱的影響,看標(biāo)準(zhǔn)化后的回歸系數(shù)。

心得4:這是投稿一篇SSCI外審專家提出的意見。

我做的是 無序多分類logistic回歸模型。因變量分了5類,有一類個數(shù)比較多,達(dá)到300多,有1-2類個案比較少,只有30左右。專家提到了要做穩(wěn)健性檢驗。這個用stata軟件編程加一個robust即可解決問題。不知道在SPSS里面怎么做。歡迎知道的朋友一起討論下。我個人認(rèn)為這是一個好問題的。不做穩(wěn)健性檢驗?zāi)P涂赡苁芤恍O端值的影響,結(jié)果不穩(wěn)定??赡鼙緛盹@著的變量剔除1-2個樣本后就變得不顯著了。所以做回歸分析穩(wěn)健性檢驗也比較重要。

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時表示是新驗證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }