
信用評分建模中樣本容量不足怎么辦
在建立個人信用評分模型時,不僅需要有足夠多的表征信貸申請人信用行為的特征變量,而且建模樣本的容量也必須達(dá)到一定的數(shù)量。
一般來說,樣本容量越大,所建立的模型的精度或預(yù)測能力就越高,模型也越穩(wěn)健。
至于到底需要容量多大的樣本才能建立一個預(yù)測精度較高,又具有較好穩(wěn)健性的個人信用評分模型,目前還沒有一個基于理論測算的最優(yōu)數(shù)目,不過通過多年的建模實(shí)踐,國外的許多學(xué)者提出了一些經(jīng)驗準(zhǔn)則。
這些經(jīng)驗準(zhǔn)則告訴我們,問題的關(guān)鍵并不在于建模樣本容量的大小,而在于壞客戶樣本的數(shù)量。一個由50000個好客戶,500個壞客戶構(gòu)成的建模樣本并不比一個由5000個好客戶,500個壞客戶構(gòu)成的樣本含有更多的信息,因為在建立個人信用評分模型時壞客戶樣本所含的信息是我們重點(diǎn)關(guān)注的。
在實(shí)際的建??傮w中,通常好客戶的數(shù)量總是遠(yuǎn)遠(yuǎn)大于壞客戶的數(shù)量,因此建??傮w中壞客戶數(shù)量的多少是能否成功地建立個人信用模型的關(guān)鍵因素之一。
在個人征信體系發(fā)達(dá)的國家,建模樣本容量不足應(yīng)該不是一個嚴(yán)重的問題。
這些國家解決這一問題可以有多種途徑:
當(dāng)需要對某種信用產(chǎn)品申請人進(jìn)行評分時,若樣本容量不足而不能建立評分模型,可以先用征信局的“通用化評分”來代替。待好、壞客戶樣本累積到一定容量后再建模。實(shí)際上有許多信用產(chǎn)品根本就不建立定制化的評分模型,而是直接用征信局提供的“通用化評分”對客戶進(jìn)行評價,當(dāng)然這需要一定的成本。
由于社會征信體系較發(fā)達(dá)的國家一般其信用市場也較發(fā)達(dá),信用產(chǎn)品比較豐富,在一個新的信用產(chǎn)品推廣的初期,往往可以找到與之相類似的產(chǎn)品,用類似產(chǎn)品的樣本建模在初期也是一個不錯的選擇。
在征信體系發(fā)達(dá)的國家,無論是信貸機(jī)構(gòu)還是信用咨詢機(jī)構(gòu)都有較多的信用分析專家,利用這些專家的知識和經(jīng)驗可以建立所謂的“專家模型”。
就中國目前的狀況而言,當(dāng)建模樣本不足時,以上3中解決方法均不是很有效的:
由于征信體系不發(fā)達(dá),沒有“通用化評分”可資利用;
消費(fèi)信用產(chǎn)品還比較單一;
有關(guān)消費(fèi)信用分析的專家還不多。
因此,樣本容量不足是在中國現(xiàn)階段建立個人信用評分模型時常常遇到的問題之一。
解決建模樣本容量不足的方法有兩類方法可以嘗試:
一類是合并不同銀行的相同產(chǎn)品的樣本;
另一種是統(tǒng)計學(xué)中的Bootstrap方法。
方法1 將不同客戶總體數(shù)據(jù)合并建模
當(dāng)樣本量不足時,最容易想到的一個解決辦法是:將不同銀行的相同產(chǎn)品的樣本合并起來建立模型。
例如,當(dāng)某個商業(yè)銀行要針對其所發(fā)行的一種信用卡建立個人信用評分模型時,它可以將該銀行在不同地區(qū)的分行的客戶數(shù)據(jù)進(jìn)行合并,這樣在樣本的數(shù)量上就可以滿足建模的要求。
值得注意的是,這種合并不同總體的做法與通常建立個人信用評分時的做法是相反的。在建立個人信用評分模型時,為了提高模型的預(yù)測精度,當(dāng)總體內(nèi)部差異較大時,如果樣本的容量足夠大,在實(shí)際中的做法是將總體劃分成幾個內(nèi)部一致性較好的子總體,然后對各個子總體分別建模。
關(guān)于將不同客戶總體數(shù)據(jù)合并后建立模型的效果,國外的學(xué)者有過一些研究。大部分的實(shí)證研究表明,合并后建立的模型其精度往往會下降。
精度下降的原因可能來自兩個方面:
由于各總體特征的差異較大影響了模型的預(yù)測能力;
各總體中保存的特征變量不盡一致,建模時往往只能使用各總體共有的部分。特征變量的減少,往往損失許多有用的信息。
方法2 Bootstrap方法應(yīng)用于處理樣本容量不足不同客戶總體數(shù)據(jù)合并建模
將樣本分成兩部分,一部分是用于建模,另一部分用于檢驗。
這樣做的主要目的是為了避免同時將一組樣本既作為訓(xùn)練樣本(用于建立模型)又作為檢驗樣本從而對預(yù)測精度的估計過于樂觀。在樣本容量充足的情況下,這種做法是很有效的。但是在有些情況下,建模的樣本數(shù)量并不是很充足。在這種情況下若還保留一部分樣本進(jìn)行檢驗顯然不是一種有效的做法,這樣會白白浪費(fèi)掉保留樣本中所包含的信息。
統(tǒng)計學(xué)中發(fā)展了多種方法來克服上述保留樣本在樣本容量不足時的缺陷,BootStrap方法是一種被證明行之有效的方法。
實(shí)際中的算法如下:
從經(jīng)驗分布F_n中有放回地抽取一個容量為n的樣本(x_1,x_2,?,x_n)。通常稱為BootStrap樣本。
利用此樣本計算θ的估計值,θ^*=θ(x_1,x_2,?,x_n)。通常稱為BootStrap估計。
將過程(1),(2)重復(fù)K次,這樣就得到K個BootStrap樣本及K個BootStrap估計。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
如何考取數(shù)據(jù)分析師證書:以 CDA 為例? ? 在數(shù)字化浪潮席卷各行各業(yè)的當(dāng)下,數(shù)據(jù)分析師已然成為企業(yè)挖掘數(shù)據(jù)價值、驅(qū)動決策的 ...
2025-07-15CDA 精益業(yè)務(wù)數(shù)據(jù)分析:驅(qū)動企業(yè)高效決策的核心引擎? 在數(shù)字經(jīng)濟(jì)時代,企業(yè)面臨著前所未有的數(shù)據(jù)洪流,如何從海量數(shù)據(jù)中提取有 ...
2025-07-15MySQL 無外鍵關(guān)聯(lián)表的 JOIN 實(shí)戰(zhàn):數(shù)據(jù)整合的靈活之道? 在 MySQL 數(shù)據(jù)庫的日常操作中,我們經(jīng)常會遇到需要整合多張表數(shù)據(jù)的場景 ...
2025-07-15Python Pandas:數(shù)據(jù)科學(xué)的瑞士軍刀? ? 在數(shù)據(jù)驅(qū)動的時代,面對海量、復(fù)雜的數(shù)據(jù),如何高效地進(jìn)行處理、分析和挖掘成為關(guān)鍵。 ...
2025-07-15用 SQL 生成逆向回滾 SQL:數(shù)據(jù)操作的 “后悔藥” 指南? 在數(shù)據(jù)庫操作中,誤刪數(shù)據(jù)、錯改字段或誤執(zhí)行批量更新等問題時有發(fā)生。 ...
2025-07-14t檢驗與Wilcoxon檢驗的選擇:何時用t.test,何時用wilcox.test? t 檢驗與 Wilcoxon 檢驗的選擇:何時用 t.test,何時用 wilcox. ...
2025-07-14AI 浪潮下的生存與進(jìn)階: CDA數(shù)據(jù)分析師—開啟新時代職業(yè)生涯的鑰匙(深度研究報告、發(fā)展指導(dǎo)白皮書) 發(fā)布機(jī)構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08