99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀sas信用評分之變量篩選
sas信用評分之變量篩選
2017-03-30
收藏

sas信用評分之變量篩選

今天介紹變量初步選擇。這部分的內(nèi)容我就只介紹information –value,我這次做的模型用的邏輯回歸,后面會更新以基尼系數(shù)或者信息熵基礎的篩選變量,期待我把。

Iv值的介紹你們已經(jīng)很熟悉了,我這次就簡單粗暴的說下變量iv值到那個數(shù)就可以用的啦。

(1):

在很多書上說要達到0.1-0.3才是中等相關,達到0.3是強相關,但是這里必須提及,變量的iv值本來就是變量多個分段的iv值的相加。所以我們做這部分工作的時候就發(fā)現(xiàn),一個變量我要是變態(tài)一點,分成1000分,他可以達到1.5,iv值是很高啊,這個變量你一旦用下聚類或者是決策樹分下類,就發(fā)現(xiàn)iv值其實是很低的,所以這個iv值的計算我們需要大概的給個分多少段。

(2):

在第一點中提到分幾份,但是分幾份是針對連續(xù)變量,對于字符變量的。我建議可以先使用最優(yōu)分段分下組再進行計算iv值。但是如果字符變量的分類在4-10類的話還是可以直接計算iv值的。

(3):

對于在日常的建模中,其實并不是iv值大于0.1才會被篩選出來,我就在建模中碰見一個問題,就是iv值大于0.1都是同類變量,相關性極高,這些變量雖然iv值很高,但是丟進邏輯回歸中是不會被全部選中的,因為我們都知道共線性強的變量對于我們模型其實是不好的。講了這么多就是為了說,變量初步選擇的時候我一般是大于iv值0.02我會篩選出來,不為什么,寧可錯殺一千,不可放過一個,我對變量就是這么殘暴。在這里我考慮到一點,就是可能一個變量單獨對因變量的預測力不是很強,但是跟其他變量結(jié)合的時候,可能會產(chǎn)生不一樣的結(jié)果哈。

例如哈,我舉一個很不恰當?shù)睦庸磺‘數(shù)睦庸?,不要噴我。譬如婚姻狀況和年紀,可能這兩個變量單獨對因變量沒什么明顯的體現(xiàn),但是結(jié)合在一起呢,譬如25歲下離婚的人是不是會比25歲以上離婚不一樣呢。你們順著這個思路想下去就可以啦,我再說下去25歲以下離婚怎么怎么樣,我就要被噴了。畢竟我還是怕鍵盤俠。

這篇文章的代碼我之前是發(fā)過的。路徑在這里:sas輸出變量的基尼系數(shù)以及iv值。在這篇文章中我介紹下結(jié)果:

代碼的使用在上面路徑中有介紹,點下去就可以看了。介紹下結(jié)果,score2是分組后的變量就是譬如說年齡中52歲分組后是第3組,那么他觀測的值就是3。score3輸出基尼系數(shù),這部分的內(nèi)容之后用到基尼系數(shù)再說哈。我們著重說下score4以及score5.

Score4的表格是長這樣子的:

你看到的var_name這一列的變量是每個變量名價格前綴“p_”如果是字符變量就不加前綴“p_”,_freq_這一變量是分組數(shù),我這邊設定的是分成5組,你問我為什么上面寫著6,因為我這批數(shù)據(jù)中有缺失,缺失不參與分組,就是第6組啦。最后一列就是iv值啦,我剛才說的同類變量iv值都很高啦,就是這個圖,q_開頭的都是同類的變量,iv值基本相近,假設說這些都進去模型的,模型也不會全都要了。

score5的表格是長這樣子的:

這圖可能在這里比較小,但是你單獨點開還是可以看的。

score5是score4的具體每段的iv值的分布,其中m就是觀測缺失的組別。后面的start end這兩個變量是這個組別的區(qū)間。這里的woe值其實我不建議使用,因為我這邊的分區(qū)是全部都是等分的5份,但是某些變量有更好的分法,后面對于篩選出來的變量也會進行進一次的最優(yōu)分段再計算woe值,這里的woe只是為計算iv,順便顯示在數(shù)據(jù)集中。


其實到了這里,iv值的代碼以及iv值運用,我也都講完了。但是在業(yè)務上,還會做這樣子一個步驟,就是對于iv值極高的變量會單獨拿出來再分析。下面分享一個其中的一個的分析例子,這部分的工作可能不是全部公司都會做,因為很耗費時間。

這是建模中我的一個次數(shù)變量至于代表是什么變量因為公司的保密性質(zhì),所以我就不說了。分區(qū)是計算iv值時分段出來的。假設這個是撥打貸款公司的電話的次數(shù),當他打的次數(shù)是3次以下的時候,批核率以及逾期率是比較高的,但是當達到13次以上的時候,批核率不僅降了9%左右,而且逾期率也高了4%,那么這個變量就可以跟領導討論一下,將這條規(guī)則做到前端,讓審批審核人員多了一個可以參考的條件,當然這個變量的體現(xiàn)可能相對于其他變量來說是很明顯的。但是真正做成規(guī)則或者說人工審批的決策還可能不能。具體的情況還是要看自己公司的數(shù)據(jù),我這里也只是分享我工作中的一個小小的經(jīng)驗。


數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗證碼對象,之后可以使用它調(diào)用相應的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }