
建模準備一定要做的這幾件事
今天我們來說建模中容易忽視,但是獨立完成模型時一定要自己分析的一個步驟--建模準備。
建模準備這里我想跟大家分享五個點,就是在建模準備中需要做的五個方面。
1
業(yè)務目的
模型都是建立在業(yè)務目的上的,我們要根據(jù)不同的業(yè)務目的建立不同的模型,那么業(yè)務目的會從以下三個方面出發(fā):
1、客戶??蛻艨梢苑譃椋河绣X還的,沒錢還但是心里想還的,沒錢但是心里不想還的,以及有錢但是我就是不還的。后面兩種不還錢的人,我們定義他們?yōu)槠墼p客戶,就是來借錢之前想著不還的,對于前兩種以及后面兩種客戶,我們的有不同的方式區(qū)別,
2、產(chǎn)品。不同的客戶的客戶特征是不同的,譬如貸款產(chǎn)品中會分出商人以及上班族的不同貸款,那么這時,我們假設客戶的一個變量,工資流水,對于商人來說可能有淡季旺季,所以流水可能波動大,但是上班族,除了年終的時候會波動一下,其實時候毫無波瀾。
3、行為??蛻粜袨?,是申請進件客戶,還是還款中客戶還是逾期需要催收的客戶。
2
好壞客戶定義
請看圖,c-m1的意思就是正??蛻糇兂捎馄谝黄诘恼急龋?5年12月份有10000人來申請,那么在1月份有504個人逾期了,那么這504個人在2月份就是逾期一期的,跟著2月份來了,這504個人里面有77%還了錢就變成正??蛻袅?,但是有23%的人還是不還,所以在2月份里面有大概116個人是2016年1月逾期了2期的人,接著3月份,這些有些還了一期的錢變成逾期兩期的人,有些人全還了變成正常的人了,但是還有41.82%的人還是不還,那么3月是是2016年1月逾期了3期的人里面有大概49個人。到了4月份,之前3月份逾期了3期的那些人有些還錢了,但是還是有82.70%的人繼續(xù)逾期,大概是40個人逾期4期了。五月份了,這40個人有那么4.33%的人選擇了還錢,但是還有38個人繼續(xù)不還錢,這38個人在五月份就是逾期了5期了,六月份了,這38個人有97.62%的還是繼續(xù)不還,大概算一個人還了,可以看大隨著逾期的期數(shù)越多,會還錢的人越來越少,可以根據(jù)轉(zhuǎn)化率看到,最后的38個人與剛開始的49人,占比是77%,可以確定是的一旦客戶逾期3期以上的時候就有很大的概率變成壞賬客戶。
定義逾期多少期我們可以定義為逾期客戶之后,還需要確定還多少期之后的逾期三期的客戶算壞客戶,我們這里提一點是,我們本次的評分卡是圍繞申請評分卡展開的,那么申請評分卡的定位客戶是:想要還但是沒錢還的,即會出現(xiàn)短期或者長期資金緊缺的情況,那么這里就需要提到“賬齡”,在圖中可以發(fā)現(xiàn)在9個月之后,壞賬率趨于平緩,即在還了9個月到12個月期間的客戶我們可以判定其是因為資金的不足才壞賬的。即可以在9-12之間選擇一個賬齡,確定壞客戶的標準。然而在一般是實戰(zhàn)建模中與新巴塞爾資本協(xié)議中針對內(nèi)部風險規(guī)范,也是建議12個月為單位較為合適。
3
準備建模樣本數(shù)據(jù)
A卡一般可做貸款0-1年的信用分析,B卡則是在申請人有了一定行為后,有了較大數(shù)據(jù)進行的分析,一般為3-5年,C卡則對數(shù)據(jù)要求更大,需加入催收后客戶反應等屬性數(shù)據(jù)。
評分卡數(shù)據(jù)需要累積到一段時間達到數(shù)據(jù)量的時候才能見面,圖中的橫軸是一條時間軸,左邊的為客戶的觀察期,右邊為客戶的展現(xiàn)期,那么剛才我們已經(jīng)有了好壞定義,這時候就要用這個規(guī)則取數(shù),假設我們剛才去的是12期逾期90+,那么這時候觀察期就是12期+90天,展現(xiàn)期中逾期30天的客戶就是壞客戶,展現(xiàn)期沒有逾期的客戶就是好客戶,那么這時候你會問還了12期的逾期30天的客戶算什么,算不到展現(xiàn)期的客戶,因為這時候你不能確定他是不是會在第31天就還上了。
如果你們是數(shù)學專業(yè)或者有上過多元統(tǒng)計分析這類的都知道,建模數(shù)據(jù)都會分訓練集以及測試集,測試集的作用是測試訓練集出來的模型可不可以對訓練集之外的數(shù)據(jù)用,那么在實際建模中還會加一個驗證集,測試集以及訓練集的好壞比例是跟建模樣本的比例是一樣的,驗證樣本是取建模數(shù)據(jù)往后退大概一兩個月的數(shù)據(jù)作為驗證樣本,這部分數(shù)據(jù)不僅測試模型能不能訓練集之外客戶可不可以用,還有驗證模型是不是會隨著時間的遷移而出現(xiàn)了效果偏差,但是模型效果出現(xiàn)偏差是肯定的,但是是否效果大幅度下降。
4
排除不可建模樣本數(shù)據(jù)
排除不要的樣本,以免影響變量效果,在風控系統(tǒng)中,被拒絕規(guī)則婉拒的客戶我們不加入建模樣本中,但是后期需要拒絕演繹還是需要這部分樣本,為什么這部分數(shù)據(jù)不要呢,因為本身我們不能確定他是不是真的是壞的,這里要說明一點是,拒絕規(guī)則是拒絕掉那些可能性很大是壞客戶的人,但是并不在公司的貸款中逾期,所以不能定義他就是壞的。
不到展現(xiàn)期客戶,即在觀察期的客戶,就是剛開借錢,但是還了幾期,還沒逾期,不能判定是不是壞人也不能進入模型樣本,至于還了多少期還沒逾期的算好客戶的,命中黑名單的客戶也同樣的道理。
5
討論是否進行樣本分群
剛才說的不同的產(chǎn)品會有不同的客戶特征,但是即使同樣的產(chǎn)品,同樣的客戶行為,那么樣本還會有不同的特征,譬如男女的逾期表現(xiàn)在某種程度上來講,女性逾期了會比男性低,所以如果在數(shù)據(jù)足夠的前提下,可以考慮通過不同的方式對客戶分群,分群的方式可以根據(jù)變量的分類的逾期率的不同,例如剛才講的是男女分群,男女前提是這兩種類型的人逾期率有一個差別,對于其他變量也一樣。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03