作者:小伍哥
來源:小伍哥聊風(fēng)控
本文重點(diǎn):風(fēng)控策略挖掘、策略推薦,策略發(fā)現(xiàn),風(fēng)控策略自動化,決策樹
下面開始正文:
風(fēng)控策略同學(xué)在挖掘有效的風(fēng)控規(guī)則的時(shí)候,經(jīng)常需要基于業(yè)務(wù)經(jīng)驗(yàn),將那幾個(gè)特征進(jìn)行組合形成風(fēng)控策略,會導(dǎo)致在特征組合的時(shí)候浪費(fèi)大量的時(shí)間,我們有沒有什么方法,替代人工的分析,直接得出策略組合呢,決策樹就是其中的一個(gè)選擇,可以實(shí)現(xiàn)自動化的挖掘大批量的策略組合。
在眾多的算法中,決策樹整體分類準(zhǔn)確率不高,但是部分葉子節(jié)點(diǎn)的準(zhǔn)確率卻可以很高,因此我們可以提取決策樹的葉子規(guī)則,并篩選準(zhǔn)確率比較高的葉子節(jié)點(diǎn),作為風(fēng)控策略挖掘手段,并進(jìn)行策略推薦,替代人工或者輔助人工,大大提高策略發(fā)現(xiàn)的效率于效果。
本文介紹了如何在風(fēng)控策略中使用決策樹算法來挖掘有效的規(guī)則,并會分享自己編寫的提取函數(shù),此套代碼會在極短的時(shí)間挖掘上千條規(guī)則,快速且有效,目標(biāo)就是:風(fēng)控策略自動化,然后干掉自己。
策略節(jié)選
一、數(shù)據(jù)說明及讀取
1、數(shù)據(jù)集信息
數(shù)據(jù)從真實(shí)場景和實(shí)際應(yīng)用出發(fā),利用個(gè)人的基本身份信息、個(gè)人的住房公積金繳存和貸款等數(shù)據(jù)信息,來建立準(zhǔn)確的風(fēng)險(xiǎn)控制模型,來預(yù)測用戶是否會逾期還款。一共提供了40000帶標(biāo)簽訓(xùn)練集樣本,數(shù)據(jù)僅有一張表,一共有19個(gè)基本特征,且均不包含任何缺失值。
2、數(shù)據(jù)屬性信息
標(biāo)簽:label是否逾期(是 = 1,否 = 0)。
特征:包含以下19個(gè)變量,名稱和含義如下。
3、讀取數(shù)據(jù)
#數(shù)據(jù)讀取import pandas as pdimport numpy as nppd.set_option('display.max_columns', None)#顯示所有的列path = '/Users/wuzhengxiang/Documents/DataSets/RizhaoGongJiJin/train.csv'train = pd.read_csv(path).fillna(-1)train.columnsIndex(['id', 'XINGBIE', 'CSNY', 'HYZK', 'ZHIYE', 'ZHICHEN', 'ZHIWU', 'XUELI', 'DWJJLX', 'DWSSHY', 'GRJCJS', 'GRZHZT', 'GRZHYE', 'GRZHSNJZYE', 'GRZHDNGJYE', 'GRYJCE', 'DWYJCE', 'DKFFE', 'DKYE', 'DKLL', 'label'], dtype='object')
train.head()#查看前面的數(shù)據(jù) id XINGBIE CSNY HYZK ZHIYE ZHICHEN ZHIWU XUELI DWJJLX