99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁(yè)精彩閱讀【SAS宏】使用WOE和IV實(shí)現(xiàn)風(fēng)險(xiǎn)因素篩選
【SAS宏】使用WOE和IV實(shí)現(xiàn)風(fēng)險(xiǎn)因素篩選
2017-06-01
收藏

【SAS宏】使用WOE和IV實(shí)現(xiàn)風(fēng)險(xiǎn)因素篩選

在信用風(fēng)險(xiǎn)評(píng)估領(lǐng)域,信用評(píng)分卡模型在國(guó)內(nèi)外都是一種非常成熟的預(yù)測(cè)模型,無(wú)論是使用傳統(tǒng)的Logistic回歸建模乃至一些使用Neural networks算法建模,變量篩選都是整個(gè)建模過(guò)程中至關(guān)重要的一步。建模工作人員通過(guò)變量篩選的結(jié)果能夠迅速識(shí)別那些最具預(yù)測(cè)能力的風(fēng)險(xiǎn)因素。

Core concepts

首先介紹一下WOE(Weight Of Evidence)

一般情況下我們將違約客戶標(biāo)記為1,正??蛻魳?biāo)記為0。那么WOE其實(shí)就是自變量取某個(gè)值時(shí)對(duì)違約比例的一重影響。其計(jì)算公式如下:

通過(guò)WOE的計(jì)算公式可以發(fā)現(xiàn)其反映的是在自變量每個(gè)分組下壞客戶對(duì)好客戶的比例與總體壞客戶對(duì)好客戶占比之間的差異,所以我們可以直觀的認(rèn)為WOE蘊(yùn)含了自變量取值對(duì)于應(yīng)變量(0,1)的影響。同時(shí),WOE的計(jì)算形式與Logistic regression中的Logit變換非常相似,故可直接使用自變量的WOE值代替原自變量。

想必有的讀者已經(jīng)發(fā)現(xiàn)WOE無(wú)法對(duì)連續(xù)變量進(jìn)行轉(zhuǎn)換,事實(shí)上對(duì)于連續(xù)變量(或者分類繁雜的離散變量),通常使用區(qū)間切分的方式將其轉(zhuǎn)換成離散形式,進(jìn)而通過(guò)聚類的方法完成區(qū)間的切分,并進(jìn)行最終的WOE計(jì)算。

然后介紹一下IV值(Information Value)

IV值衡量的是某變量所含的信息量,其計(jì)算公式如下:


      通過(guò)公式可以看到IV值其實(shí)是WOE值的一個(gè)加權(quán)求和,其值的大小決定了該自變量對(duì)于目標(biāo)變量的影響程度(不難發(fā)現(xiàn)IV值公式和信息熵的公式非常相似)。

Advantages

相比其他變量篩選方法,WOE和IV值有兩大優(yōu)勢(shì):


  1. 它可以對(duì)所有分類變量,順序變量以及連續(xù)變量統(tǒng)一進(jìn)行預(yù)測(cè)能力的計(jì)量。

  2. 可以對(duì)缺失值進(jìn)行處理,將其看作一類即可分析信息缺失對(duì)于風(fēng)險(xiǎn)是否有影響

Macro

%macroIV(dataset,varnum);

proc sql;

select sum(case when target=1then1else0end), sum(case when target=0then1else0end), count(*) into :tot_bad, :tot_good, :tot_both

from &dataset.;

quit;

/*循環(huán)計(jì)算每個(gè)變量的WOE和IV*/

%doi=1%to&varnum.;

/*計(jì)算WOE*/

proc sql;

create table woe&i as

(select"x&i"as variable,

x&i as tier,

count(*) as cnt,

count(*)/&tot_both as cnt_pct,

sum(case when target=0then1else0end) as sum_good,

sum(case when target=0then1else0end)/&tot_good as dist_good,

sum(case when target=1then1else0end) as sum_bad,

sum(case when target=1then1else0end)/&tot_bad as dist_bad,

log((sum(case when target=0then1else0end)/&tot_good)/(sum(case when

target=1then1else0end)/&tot_bad))*100as woe,

((sum(case when target=0then1else0end)/&tot_good)-(sum(case when

target=1then1else0end)/&tot_bad))

*log((sum(case when target=0then1else0

end)/&tot_good)/(sum(case when target=1then1else0end)/&tot_bad)) as pre_iv,

sum(case when target=1then1else0end)/count(*) as outcome

from &dataset.

group by x&i

)

order by x&i;

quit;

/*計(jì)算IV*/

proc sql;

create table iv&i as select"x&i"as variable,

sum(pre_iv) as iv

from woe&i; 

quit;

%end;

/*合并IV結(jié)果*/

data iv;

length variable$5.;

set iv1-iv&varnum.;

run;

/*根據(jù)IV值排序*/

proc sort data=iv;

by decending iv;

quit;

%mend;

Results

為了方便,這里就例舉只有10個(gè)風(fēng)險(xiǎn)因素的例子,通過(guò)結(jié)果可以得到IV值由高到低的一個(gè)排序以及相應(yīng)變量的數(shù)據(jù)缺失情況。

那我們應(yīng)該如何評(píng)價(jià)以上10個(gè)變量呢?

下表則是公認(rèn)的評(píng)價(jià)IV值的關(guān)系表(By Siddiqi)。

事實(shí)上,IV值小于0.02的變量將被程序自動(dòng)剔除,因?yàn)檫@些變量被認(rèn)為是沒(méi)有預(yù)測(cè)能力的。另外,值得一提的是IV值大于0.5是可疑的,需要綜合分析該變量后謹(jǐn)慎選擇。

Final selection

最終選擇進(jìn)入模型的變量不僅需要較高的IV值,還需要考慮數(shù)據(jù)缺失率,變量分布,模型解釋能力等。

Conclusion

根據(jù)實(shí)踐驗(yàn)證,經(jīng)過(guò)WOE變化之后的建模效果及模型的穩(wěn)定性會(huì)比不進(jìn)行變化的模型有一定的提升,事實(shí)上使用WOE來(lái)對(duì)自變量做編碼的一大目的就是使得辨識(shí)度最大化。另外,WOE變化之后,自變量具備了標(biāo)準(zhǔn)化的性質(zhì),從而自變量各取值之間可以直接通過(guò)WOE進(jìn)行比較,同時(shí),不同自變量之間的各種取值也可以直接通過(guò)WOE進(jìn)行比較。

       通過(guò)WOE和IV值的計(jì)算,我們可以更直觀地理解各自變量對(duì)目標(biāo)變量的作用效果和方向,同時(shí)提升最終的預(yù)測(cè)效果。

數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說(shuō)明請(qǐng)參見(jiàn):http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }