
【SAS宏】使用WOE和IV實現風險因素篩選
在信用風險評估領域,信用評分卡模型在國內外都是一種非常成熟的預測模型,無論是使用傳統的Logistic回歸建模乃至一些使用Neural networks算法建模,變量篩選都是整個建模過程中至關重要的一步。建模工作人員通過變量篩選的結果能夠迅速識別那些最具預測能力的風險因素。
Core concepts
首先介紹一下WOE(Weight Of Evidence)
一般情況下我們將違約客戶標記為1,正??蛻魳擞洖?。那么WOE其實就是自變量取某個值時對違約比例的一重影響。其計算公式如下:
通過WOE的計算公式可以發(fā)現其反映的是在自變量每個分組下壞客戶對好客戶的比例與總體壞客戶對好客戶占比之間的差異,所以我們可以直觀的認為WOE蘊含了自變量取值對于應變量(0,1)的影響。同時,WOE的計算形式與Logistic regression中的Logit變換非常相似,故可直接使用自變量的WOE值代替原自變量。
想必有的讀者已經發(fā)現WOE無法對連續(xù)變量進行轉換,事實上對于連續(xù)變量(或者分類繁雜的離散變量),通常使用區(qū)間切分的方式將其轉換成離散形式,進而通過聚類的方法完成區(qū)間的切分,并進行最終的WOE計算。
然后介紹一下IV值(Information Value)
IV值衡量的是某變量所含的信息量,其計算公式如下:
通過公式可以看到IV值其實是WOE值的一個加權求和,其值的大小決定了該自變量對于目標變量的影響程度(不難發(fā)現IV值公式和信息熵的公式非常相似)。
Advantages
相比其他變量篩選方法,WOE和IV值有兩大優(yōu)勢:
它可以對所有分類變量,順序變量以及連續(xù)變量統一進行預測能力的計量。
可以對缺失值進行處理,將其看作一類即可分析信息缺失對于風險是否有影響
Macro
%macroIV(dataset,varnum);
proc sql;
select sum(case when target=1then1else0end), sum(case when target=0then1else0end), count(*) into :tot_bad, :tot_good, :tot_both
from &dataset.;
quit;
/*循環(huán)計算每個變量的WOE和IV*/
%doi=1%to&varnum.;
/*計算WOE*/
proc sql;
create table woe&i as
(select"x&i"as variable,
x&i as tier,
count(*) as cnt,
count(*)/&tot_both as cnt_pct,
sum(case when target=0then1else0end) as sum_good,
sum(case when target=0then1else0end)/&tot_good as dist_good,
sum(case when target=1then1else0end) as sum_bad,
sum(case when target=1then1else0end)/&tot_bad as dist_bad,
log((sum(case when target=0then1else0end)/&tot_good)/(sum(case when
target=1then1else0end)/&tot_bad))*100as woe,
((sum(case when target=0then1else0end)/&tot_good)-(sum(case when
target=1then1else0end)/&tot_bad))
*log((sum(case when target=0then1else0
end)/&tot_good)/(sum(case when target=1then1else0end)/&tot_bad)) as pre_iv,
sum(case when target=1then1else0end)/count(*) as outcome
from &dataset.
group by x&i
)
order by x&i;
quit;
/*計算IV*/
proc sql;
create table iv&i as select"x&i"as variable,
sum(pre_iv) as iv
from woe&i;
quit;
%end;
/*合并IV結果*/
data iv;
length variable$5.;
set iv1-iv&varnum.;
run;
/*根據IV值排序*/
proc sort data=iv;
by decending iv;
quit;
%mend;
Results
為了方便,這里就例舉只有10個風險因素的例子,通過結果可以得到IV值由高到低的一個排序以及相應變量的數據缺失情況。
那我們應該如何評價以上10個變量呢?
下表則是公認的評價IV值的關系表(By Siddiqi)。
事實上,IV值小于0.02的變量將被程序自動剔除,因為這些變量被認為是沒有預測能力的。另外,值得一提的是IV值大于0.5是可疑的,需要綜合分析該變量后謹慎選擇。
Final selection
最終選擇進入模型的變量不僅需要較高的IV值,還需要考慮數據缺失率,變量分布,模型解釋能力等。
Conclusion
根據實踐驗證,經過WOE變化之后的建模效果及模型的穩(wěn)定性會比不進行變化的模型有一定的提升,事實上使用WOE來對自變量做編碼的一大目的就是使得辨識度最大化。另外,WOE變化之后,自變量具備了標準化的性質,從而自變量各取值之間可以直接通過WOE進行比較,同時,不同自變量之間的各種取值也可以直接通過WOE進行比較。
通過WOE和IV值的計算,我們可以更直觀地理解各自變量對目標變量的作用效果和方向,同時提升最終的預測效果。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經網絡(RNN)家族中,長短期記憶網絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數據分析師報考條件詳解與準備指南? ? 在數據驅動決策的時代浪潮下,CDA 數據分析師認證愈發(fā)受到矚目,成為眾多有志投身數 ...
2025-07-11數據透視表中兩列相乘合計的實用指南? 在數據分析的日常工作中,數據透視表憑借其強大的數據匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數據分析師:連接數據與業(yè)務的價值轉化者? ? 在大數據與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數據查詢到趨勢預判? ? 在數據驅動決策的時代,預測分析作為挖掘數據潛在價值的核心手段,正被廣泛 ...
2025-07-10數據查詢結束后:分析師的收尾工作與價值深化? ? 在數據分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數 ...
2025-07-10CDA 數據分析師考試:從報考到取證的全攻略? 在數字經濟蓬勃發(fā)展的今天,數據分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數據背后的時間軌跡? 在數據分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數據類型:時間維度的精準切片? ? 在數據的世界里,時間是最不可或缺的維度之一,而year_month數據類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數據分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數據分析師認證考試中,Python 作為數據處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數據趨勢與突變分析的有力工具? ? ? 在數據分析的廣袤領域中,準確捕捉數據的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數據分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數據分析師認證作為國內權威的數據分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網絡(LSTM)作為循環(huán)神經網絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統計學方法在市場調研數據中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統計學方法則是市場調研數 ...
2025-07-07CDA數據分析師證書考試全攻略? 在數字化浪潮席卷全球的當下,數據已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數據分析師也因此成為 ...
2025-07-07剖析 CDA 數據分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數據分析師考試作為衡量數據專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數據處理的關鍵技能? 在數據處理與分析工作中,數據格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數據分析師視角:從數據迷霧中探尋商業(yè)真相? 在數字化浪潮席卷全球的今天,數據已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數據分析師:開啟數據職業(yè)發(fā)展新征程? ? 在數據成為核心生產要素的今天,數據分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03