
SAS信用評分之邏輯回歸的變量選擇
關(guān)于woe的轉(zhuǎn)化,這一部在之前的這篇文章:sas批量輸出變量woe值中已經(jīng)寫了,woe也只是簡單的公式轉(zhuǎn)化而已,所以在這系列中就不細究了哈。這次的文章我想來講邏輯回歸。你會說邏輯回歸就是三個方法:backword stepword forward有什么好講的。如果你這么說,你的模型就只能停留在機器給你什么結(jié)果就是什么結(jié)果,那就low了哈。
為什么這么說呢?是因為我發(fā)現(xiàn)譬如你輸入了300個變量,你設(shè)定了sle和sls的顯著性水平都是0.05,那么只要是滿足“sle和sls的顯著性水平都是0.05”的變量就會被篩選出來,這時候就有問題,輸入的300個變量中,至少有30個變量是滿足上面的顯著性水平的條件的,那么你這30個變量難道都要用的模型中嗎?
你說可以,你領(lǐng)導(dǎo)都會跟你說不可以,會過擬合,過擬合意味著什么,評分卡在AB兩級的客戶極少(因為需要滿足的條件多),在cde級的客戶很多,加入以前100個人來申請,是30個人可以通過的,但是現(xiàn)在你做了模型100個人中只有10個人能通過,那這10個人肯定好的啊。這樣子逾期率是降低了,但是批核率也降低了,通過的人少了,老板就問你,你這是讓公司怎么賺錢?。?!。
那么這時候我們應(yīng)該做什么,就是精減變量,讓只用十幾個變量達到30個變量的效果,當然這種30個變量的效果可能很好,但是我們盡量是做到用十幾個變量達到30個變量的效果啦。譬如,30個變量達到的ks值是0.326,那么你13個變量可以達到0.316,那也足夠拉。
那么現(xiàn)在先貼一個單獨的proc logistic 過程。
Ods Output ParameterEstimates=aa ;
proc logistic data=test.RONG_ZX_total12_3 outest=bb ;
model APPL_STATUS_1(event="0")=
woe_N_a_nine_rate
woe_N_t_CREDIT_f
woe_N_ACCOUNT_CREDITCARD
woe_N_q_othree_cnt
woe_N_q_tlttwelve_cnt
woe_N_cq_cc_rate
woe_N_OPERATOR_num_S
woe_N_CREDOO_SCORE_o
woe_N_CALL_PAY_mrate
woe_n_g_MARITAL_P
woe_n_NAME_CITY
woe_n_industry_o
woe_n_EDUCATION
/selection=s sle=0.05 sls=0.05;
output out=pp
p=pred_status lower=pi_l upper=pi_u;
run;
proc npar1way data=pp noprint;
class APPL_STATUS_1;
var pred_status;
output out=ks_1(keep=_d_ p_ksa rename=(_d_=KS p_ksa=P_value));
run;
這是我在建模中的一個例子。后面的proc npar1way是計算ks值的。
這里是我隨便選了13個變量出來,然后跑了一下ks值,但是這里有個問題就是那我怎么知道這30個變量中到底哪13個,難道我要一直試嘛,這樣子很浪費我的時間也。所以我一早上就在糾結(jié)這個問題,但是我又百度不到sas中怎么實現(xiàn)C2013隨機數(shù)的產(chǎn)生。所以我在糾結(jié)中就想出以下這種方法,不過要是哪位大神指導(dǎo)C2013 怎么實現(xiàn)還是希望留言區(qū)指導(dǎo),我可以繼續(xù)學(xué)習(xí)。
那么接下來就貼下我的代碼吧,代碼就是以ks為衡量指標,希望找出一種組合的ks是比較高的。
%macro var_namelist(data=,coltype=,tarvar=,dsor=);
%let lib=%upcase(%scan(&data.,1,'.'));
%let dname=%upcase(%scan(&data.,2,'.'));
%global var_list var_num;
proc sql ;
create table &dsor. as
select name
from sashelp.VCOLUMN
where left(libname)="&lib." and left(memname)="&dname." and type="&coltype." and lowcase(name)^=lowcase("&tarvar.") ;
quit;
%mend;
%macro pub_survey(data,dvar,n,start,end,by);
proc datasets lib=work;
delete result_1;
run;
%do i=&start. %to &end. %by &by.;
%var_namelist(data=&data.,coltype=num,tarvar=&dvar.,dsor=aa);
proc surveyselect data=aa
out=bb
method =srs
n=&n.
seed =&i.;
run;
data _null_;
set bb;
call symput (compress("var"||left(_n_)),compress(name));
call symput(compress("n"),compress(_n_));
run;
%put &var1.;
Ods Output ParameterEstimates=gg ;
proc logistic data=&data. outest=bb ;
model &Dvar. (event="0")=
&var1. &var2. &var3. &var4. &var5. &var6. &var7. &var8. &var9. &var10. &var11.
&var12. &var13.
/selection=s sle=0.05 sls=0.05;
output out=pp
p=pred_status lower=pi_l upper=pi_u;
run;
proc npar1way data=pp noprint;
class &Dvar.;
var pred_status;
output out=ks_1(keep=_d_ p_ksa rename=(_d_=KS p_ksa=P_value));
run;
data result;
set ks_1(keep=ks);
length value $500.;
value=compress("&var1."||","||"&var2."||","||"&var3."||","||"&var4."||","||"&var5."||","||"&var6."||","||"&var7."||","||"&var8."||","||"&var9."||","||"&var10."||","||"&var11."||","||"&var12."||","||"&var13.");
run;
Proc append base=result_1 data=result force;run;
%end ;
proc sort data=result_1;by ks;
run;
%mend;
老樣子啦,說下這宏怎么用。宏都是我調(diào)試過,應(yīng)該沒錯,就是你的原數(shù)據(jù)集,要只留下你要用來循環(huán)的變量以及因變量,別的你都不要哈,乖,聽我話。
Data:填入的是原數(shù)據(jù)集;
Dvar:填入因變量
N:填入你想最終模型的個數(shù),建議10-15個吧。
Start:這里填的是seed種子數(shù),次種子出不來.avi哈。建議是4位數(shù)以上,不知道sas隨機過程中seed的種子數(shù)的自行百度。
End:你要種子循環(huán)的盡頭。盡量設(shè)大點,我是建議循環(huán)個1000 2000次最好啦。
By:種子循環(huán)的區(qū)間,就是你是每隔200個數(shù)取一個數(shù)還是20個數(shù)之間取一個數(shù)。譬如你設(shè)定start=1000,end=1500,by=100,那就是種子等于1000,1100,1200,1300,1400,1500這五個數(shù)。再強調(diào)一次,輸入數(shù)據(jù)集值保留你要這篩選的變量以及因變量,其余的主鍵什么的,你別加進去哈。
好的,這時候我要上結(jié)果圖了:
這就是結(jié)果圖。Ks升序排序,可以看到我循環(huán)了三次,最好的是第三次,帥選的13個變量里面,ks可以達到0.301,變量value中就是達到ks值的13個變量。但這只是我循環(huán)三次的結(jié)果啦。我是建議最好循環(huán)個1000次2000次。你就下班的時候放著跑,明天上班來收成果就好了,上班時間盯著屏幕。是跑不完的。數(shù)據(jù)分析師培訓(xùn)
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03