99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀sas信用評(píng)分之變量篩選
sas信用評(píng)分之變量篩選
2017-03-30
收藏

sas信用評(píng)分之變量篩選

今天介紹變量初步選擇。這部分的內(nèi)容我就只介紹information –value,我這次做的模型用的邏輯回歸,后面會(huì)更新以基尼系數(shù)或者信息熵基礎(chǔ)的篩選變量,期待我把。

Iv值的介紹你們已經(jīng)很熟悉了,我這次就簡(jiǎn)單粗暴的說下變量iv值到那個(gè)數(shù)就可以用的啦。

(1):

在很多書上說要達(dá)到0.1-0.3才是中等相關(guān),達(dá)到0.3是強(qiáng)相關(guān),但是這里必須提及,變量的iv值本來就是變量多個(gè)分段的iv值的相加。所以我們做這部分工作的時(shí)候就發(fā)現(xiàn),一個(gè)變量我要是變態(tài)一點(diǎn),分成1000分,他可以達(dá)到1.5,iv值是很高啊,這個(gè)變量你一旦用下聚類或者是決策樹分下類,就發(fā)現(xiàn)iv值其實(shí)是很低的,所以這個(gè)iv值的計(jì)算我們需要大概的給個(gè)分多少段。

(2):

在第一點(diǎn)中提到分幾份,但是分幾份是針對(duì)連續(xù)變量,對(duì)于字符變量的。我建議可以先使用最優(yōu)分段分下組再進(jìn)行計(jì)算iv值。但是如果字符變量的分類在4-10類的話還是可以直接計(jì)算iv值的。

(3):

對(duì)于在日常的建模中,其實(shí)并不是iv值大于0.1才會(huì)被篩選出來,我就在建模中碰見一個(gè)問題,就是iv值大于0.1都是同類變量,相關(guān)性極高,這些變量雖然iv值很高,但是丟進(jìn)邏輯回歸中是不會(huì)被全部選中的,因?yàn)槲覀兌贾拦簿€性強(qiáng)的變量對(duì)于我們模型其實(shí)是不好的。講了這么多就是為了說,變量初步選擇的時(shí)候我一般是大于iv值0.02我會(huì)篩選出來,不為什么,寧可錯(cuò)殺一千,不可放過一個(gè),我對(duì)變量就是這么殘暴。在這里我考慮到一點(diǎn),就是可能一個(gè)變量單獨(dú)對(duì)因變量的預(yù)測(cè)力不是很強(qiáng),但是跟其他變量結(jié)合的時(shí)候,可能會(huì)產(chǎn)生不一樣的結(jié)果哈。

例如哈,我舉一個(gè)很不恰當(dāng)?shù)睦庸?,不恰?dāng)?shù)睦庸?,不要噴我。譬如婚姻狀況和年紀(jì),可能這兩個(gè)變量單獨(dú)對(duì)因變量沒什么明顯的體現(xiàn),但是結(jié)合在一起呢,譬如25歲下離婚的人是不是會(huì)比25歲以上離婚不一樣呢。你們順著這個(gè)思路想下去就可以啦,我再說下去25歲以下離婚怎么怎么樣,我就要被噴了。畢竟我還是怕鍵盤俠。

這篇文章的代碼我之前是發(fā)過的。路徑在這里:sas輸出變量的基尼系數(shù)以及iv值。在這篇文章中我介紹下結(jié)果:

代碼的使用在上面路徑中有介紹,點(diǎn)下去就可以看了。介紹下結(jié)果,score2是分組后的變量就是譬如說年齡中52歲分組后是第3組,那么他觀測(cè)的值就是3。score3輸出基尼系數(shù),這部分的內(nèi)容之后用到基尼系數(shù)再說哈。我們著重說下score4以及score5.

Score4的表格是長(zhǎng)這樣子的:

你看到的var_name這一列的變量是每個(gè)變量名價(jià)格前綴“p_”如果是字符變量就不加前綴“p_”,_freq_這一變量是分組數(shù),我這邊設(shè)定的是分成5組,你問我為什么上面寫著6,因?yàn)槲疫@批數(shù)據(jù)中有缺失,缺失不參與分組,就是第6組啦。最后一列就是iv值啦,我剛才說的同類變量iv值都很高啦,就是這個(gè)圖,q_開頭的都是同類的變量,iv值基本相近,假設(shè)說這些都進(jìn)去模型的,模型也不會(huì)全都要了。

score5的表格是長(zhǎng)這樣子的:

這圖可能在這里比較小,但是你單獨(dú)點(diǎn)開還是可以看的。

score5是score4的具體每段的iv值的分布,其中m就是觀測(cè)缺失的組別。后面的start end這兩個(gè)變量是這個(gè)組別的區(qū)間。這里的woe值其實(shí)我不建議使用,因?yàn)槲疫@邊的分區(qū)是全部都是等分的5份,但是某些變量有更好的分法,后面對(duì)于篩選出來的變量也會(huì)進(jìn)行進(jìn)一次的最優(yōu)分段再計(jì)算woe值,這里的woe只是為計(jì)算iv,順便顯示在數(shù)據(jù)集中。


其實(shí)到了這里,iv值的代碼以及iv值運(yùn)用,我也都講完了。但是在業(yè)務(wù)上,還會(huì)做這樣子一個(gè)步驟,就是對(duì)于iv值極高的變量會(huì)單獨(dú)拿出來再分析。下面分享一個(gè)其中的一個(gè)的分析例子,這部分的工作可能不是全部公司都會(huì)做,因?yàn)楹芎馁M(fèi)時(shí)間。

這是建模中我的一個(gè)次數(shù)變量至于代表是什么變量因?yàn)楣镜谋C苄再|(zhì),所以我就不說了。分區(qū)是計(jì)算iv值時(shí)分段出來的。假設(shè)這個(gè)是撥打貸款公司的電話的次數(shù),當(dāng)他打的次數(shù)是3次以下的時(shí)候,批核率以及逾期率是比較高的,但是當(dāng)達(dá)到13次以上的時(shí)候,批核率不僅降了9%左右,而且逾期率也高了4%,那么這個(gè)變量就可以跟領(lǐng)導(dǎo)討論一下,將這條規(guī)則做到前端,讓審批審核人員多了一個(gè)可以參考的條件,當(dāng)然這個(gè)變量的體現(xiàn)可能相對(duì)于其他變量來說是很明顯的。但是真正做成規(guī)則或者說人工審批的決策還可能不能。具體的情況還是要看自己公司的數(shù)據(jù),我這里也只是分享我工作中的一個(gè)小小的經(jīng)驗(yàn)。


數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請(qǐng)參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }