
SAS決策樹(shù):信貸風(fēng)險(xiǎn)建模試驗(yàn)
一、 概論 決策樹(shù)通過(guò)應(yīng)用一系列簡(jiǎn)單的規(guī)則建立起對(duì)觀測(cè)數(shù)據(jù)的分類(lèi)。決策樹(shù)對(duì)于觀測(cè)值的分類(lèi)建立在變量的輸入值基礎(chǔ)上。每條規(guī)則都是在前一條規(guī)則形成的層次的基礎(chǔ)上對(duì)觀測(cè)數(shù)據(jù)的進(jìn)一步劃分,而最終建立的劃分層次稱(chēng)為決策樹(shù),每個(gè)劃分段稱(chēng)為決策樹(shù)的一個(gè)結(jié)點(diǎn)。最初的未進(jìn)行劃分的片段包括所有的觀測(cè)數(shù)據(jù)稱(chēng)作決策樹(shù)的根結(jié)點(diǎn)。一個(gè)結(jié)點(diǎn)和它所有的后續(xù)結(jié)點(diǎn)共同構(gòu)成一顆子樹(shù)。決策樹(shù)中最底層的結(jié)點(diǎn)叫做葉子。觀測(cè)數(shù)據(jù)都將會(huì)被分配到其中的一個(gè)葉子之中。 二、 建立決策樹(shù)實(shí)例 本文將引用SAS軟件自帶數(shù)據(jù)(SAMPSIO.HMEQ)建立決策樹(shù),用來(lái)分析是否應(yīng)該同意客戶(hù)的家庭資產(chǎn)抵押貸款。該數(shù)據(jù)集包含5,960個(gè)觀測(cè)數(shù)據(jù)并存放在抽樣數(shù)據(jù)庫(kù)中。BAD目標(biāo)變量是一個(gè)二進(jìn)制變量用于指明貸款申請(qǐng)者是有可能拖欠貸款者還是可信的。這種不利情況可能在1189個(gè)案例中發(fā)生的可能性19.95%。該數(shù)據(jù)集中有12解釋變量用于建立決策樹(shù)。 (一)建立決策樹(shù)的變量要求 決策樹(shù)的建立需要一個(gè)目標(biāo)變量(響應(yīng)變量),以及至少一個(gè)輸入變量(自變量、解釋變量)。響應(yīng)變量和解釋變量的設(shè)置在輸入數(shù)據(jù)源結(jié)點(diǎn)中設(shè)置。 (二)結(jié)點(diǎn)總攬 建立的決策樹(shù)數(shù)據(jù)分析過(guò)程包括一下三個(gè)結(jié)點(diǎn)Input Data Source、Data Partition以及決策樹(shù)結(jié)點(diǎn),最終建立結(jié)果如圖(1):
圖(1) (三)新建 數(shù)據(jù)挖掘項(xiàng)目 1、 SAS的命令窗口輸入命令 miner,進(jìn)入數(shù)據(jù)挖掘窗口。 2、 在菜單欄中選擇 文件 —〉新建—〉項(xiàng)目,彈出新建數(shù)據(jù)挖據(jù)項(xiàng)目 如 圖(2)。
圖 (2) 3、 在Create new project 窗口中點(diǎn)擊 Create 按鈕,進(jìn)入new tree 項(xiàng)目。并為新的數(shù)據(jù)項(xiàng)目更名為:Tree Node。 (四)建立輸入數(shù)據(jù)源結(jié)點(diǎn) 添加一個(gè) 輸入數(shù)據(jù)源 結(jié)點(diǎn),為本次數(shù)據(jù)分析建立起數(shù)據(jù)源。 1.1.1 增加一個(gè) Input Data Source 結(jié)點(diǎn),選擇項(xiàng)目列表下方的Tools 選項(xiàng)。在列表中選擇 Input Data Source結(jié)點(diǎn),點(diǎn)擊鼠標(biāo)左鍵將Input Data Source拖入右側(cè)的工作空間。 1.1.2 雙擊工作空間Input Data Source 結(jié)點(diǎn),進(jìn)入Input Data Source的設(shè)置窗口。 1.1.3 在Input Data Source設(shè)置窗口中的Data項(xiàng)中點(diǎn)擊Select按鈕,選擇數(shù)據(jù)源。進(jìn)入選擇 SAS Data Set窗口。在Library項(xiàng)選擇SAMPSIO—〉 HMEQ。 如圖(3)。
圖(3) 1.1.4 點(diǎn)擊ok,回到Input Data Source設(shè)置窗口,選擇Variables項(xiàng),在variables項(xiàng)中找到BAD數(shù)據(jù)項(xiàng),在BAD行 Model Role 項(xiàng)上點(diǎn)擊鼠標(biāo)右鍵選擇Set Model Role選項(xiàng)—〉Target項(xiàng),如圖(4)。
圖(4) 1.1.5 關(guān)閉Input Data Source設(shè)置窗口,并保存。 (五)建立 Data Partition 結(jié)點(diǎn) Data Partition結(jié)點(diǎn)主要將元數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)、驗(yàn)證數(shù)據(jù)和測(cè)試數(shù)據(jù)。其中訓(xùn)練數(shù)據(jù)用于生成決策樹(shù)輪廓,驗(yàn)證數(shù)據(jù)用于比較響應(yīng)變量的觀測(cè)值和預(yù)測(cè)值,而測(cè)試數(shù)據(jù)使用不多。 1. 像拖入Input Data Source結(jié)點(diǎn)一樣,將Data Partition從左側(cè)列表框拖入右側(cè)的工作平臺(tái)。 2. 建立 Input Data Source 結(jié)點(diǎn) 和 Data Partition結(jié)點(diǎn)之間的連接。如圖(5)。
圖(5) 3. 雙擊Data Partition 圖標(biāo),進(jìn)入屬性設(shè)置界面,設(shè)置屬性如圖(6)
圖(6) 4. 關(guān)閉該窗口,并保存。 (六)建立 Tree Node 結(jié)點(diǎn) Tree Node節(jié)點(diǎn)是進(jìn)行決策樹(shù)分析的中心結(jié)點(diǎn),對(duì)它的不同設(shè)置和操作將對(duì)數(shù)據(jù)集建立起不同的決策樹(shù)模型。 1. 像拖入Input Data Source結(jié)點(diǎn)一樣,將 Tree 從左側(cè)列表框拖入右側(cè)的工作平臺(tái)。 2. 建立 Data Partition 結(jié)點(diǎn) 和 Tree 結(jié)點(diǎn)之間的連接。如圖(7)。
圖(7) 3. 雙擊tree圖標(biāo),進(jìn)入相關(guān)屬性設(shè)置界面,相關(guān)標(biāo)簽屬性和設(shè)置介紹如下: 1) Data 標(biāo)簽:該標(biāo)簽中展示了前一結(jié)點(diǎn)數(shù)據(jù)集的名稱(chēng)和相關(guān)的描述,這些數(shù)據(jù)集包括訓(xùn)練數(shù)據(jù)和驗(yàn)證數(shù)據(jù)等。如圖(8) 。
圖(8) 2) Variables標(biāo)簽:variables標(biāo)簽中可以看到觀測(cè)數(shù)據(jù)集各數(shù)據(jù)項(xiàng)的相關(guān)情況,如圖(9),
圖(9) A. 在每一個(gè)標(biāo)題頭上點(diǎn)擊鼠標(biāo)左鍵,可以按該列對(duì)表格中各項(xiàng)進(jìn)行排序。 B. 其中可以在Status屬性中列中單擊鼠標(biāo)右鍵選擇Set Status將Use狀態(tài)更改為Don’t Use狀態(tài)。 C. 在Model Role 列點(diǎn)擊鼠標(biāo)右鍵選擇 edit target profile 將變量進(jìn)行目標(biāo)變量和解釋變量之間的轉(zhuǎn)化。 3) Basic標(biāo)簽:在Basic 標(biāo)簽中,可以指定劃分規(guī)則以及與決策樹(shù)大小相關(guān)的各種參數(shù)值。下面是一個(gè)有關(guān)Basic標(biāo)簽各項(xiàng)的一個(gè)展示如圖(10)。
圖(10) A. 其中劃分規(guī)則(splitting criteria)可以根據(jù)目標(biāo)變量的度量方面進(jìn)行選擇。 對(duì)于定性或二進(jìn)制的目標(biāo)變量,可以選擇以下劃分規(guī)則: 檢驗(yàn)(默認(rèn))——Pearson 檢驗(yàn)用于衡量對(duì)目標(biāo)變量建立分支結(jié)點(diǎn),其默認(rèn)顯著性指標(biāo)為 0.20 。 熵值約簡(jiǎn)——通過(guò)對(duì)熵值大小的衡量反映結(jié)點(diǎn)不純性也成為熵不純性。 基尼系數(shù)約簡(jiǎn)——通過(guò)對(duì)基尼系數(shù)大小的衡量反映結(jié)點(diǎn)不純性也成為Gini 不純性。 對(duì)于連續(xù)型目標(biāo)變量,可以選擇以下兩種劃分規(guī)則: F 檢驗(yàn)(默認(rèn))——F檢驗(yàn)的P值與結(jié)點(diǎn)一致性有關(guān),默認(rèn)顯著性指標(biāo)為 0.20。 一致性約簡(jiǎn)——該約簡(jiǎn)基于結(jié)點(diǎn)的均方差檢驗(yàn)。 本例中由于目標(biāo)變量是家庭資產(chǎn)抵押貸款為二元變量, 檢驗(yàn)是一個(gè)比較合適的劃分規(guī)則。 B. 同時(shí)可以在Basic標(biāo)簽指定以下相關(guān)屬性值: Minimum number of observations in a leaf(default = 1) Observations required for a split search. 該選項(xiàng)保證劃分的結(jié)點(diǎn)都有觀測(cè)數(shù)據(jù),并且對(duì)于比該項(xiàng)指定的觀測(cè)值還要少的結(jié)點(diǎn)不進(jìn)行繼續(xù)劃分 Maximum number of branches from a node(default= 2) Maximum depth of tree (default = 6) Splitting rules saved in each node (default = 5) Surrogate rules saved in each node (default = 0) Treat missing as an acceptable value. 4)Advanced標(biāo)簽,其中可以進(jìn)行以下設(shè)置: A. 評(píng)估度量模型的選擇 評(píng)估度量模型是基于從有效的數(shù)據(jù)中獲得的決策樹(shù)結(jié)果中選擇出最佳的決策樹(shù)模型,對(duì)于范疇型目標(biāo)變量或間斷型目標(biāo)變量會(huì)有不同的評(píng)估度量模型選擇。 B. 自定子樹(shù)模型 Advanced標(biāo)簽中的子樹(shù)選項(xiàng)中指定怎樣選擇整個(gè)增長(zhǎng)樹(shù)中選擇子樹(shù)。一個(gè)大型的決策樹(shù)會(huì)對(duì)那些隨機(jī)選擇的選練數(shù)據(jù)很好的適應(yīng),但對(duì)新數(shù)據(jù)進(jìn)行預(yù)測(cè)上表現(xiàn)不佳。該選項(xiàng)就在于設(shè)定怎樣判斷一棵決策樹(shù)已經(jīng)足夠大了。 C. 選擇p值調(diào)整方法的選擇 如果既沒(méi)有選擇 檢驗(yàn)也沒(méi)有選擇F檢驗(yàn),就需要指定一種方法調(diào)整p值。 D. 在決策樹(shù)建立過(guò)程中合并收益或損失表 下面是Advanced標(biāo)簽各項(xiàng)的一個(gè)展示,如圖(11)
圖(11) 5.關(guān)閉tree結(jié)點(diǎn)屬性設(shè)置窗口并保存。 (七)運(yùn)行決策樹(shù)結(jié)點(diǎn) 在設(shè)置完成決策樹(shù)結(jié)點(diǎn)之后,有四種方法來(lái)運(yùn)行決策樹(shù)結(jié)點(diǎn): A 如果該結(jié)點(diǎn)已經(jīng)關(guān)閉: 在tree結(jié)點(diǎn)上右擊鼠標(biāo)并選擇Run選項(xiàng)。 在菜單欄中選擇 操作—〉運(yùn)行。 B 如果該結(jié)點(diǎn)仍處于打開(kāi)狀態(tài): 選擇 工具—〉運(yùn)行樹(shù)狀模型 在快捷方式欄中選擇 運(yùn)行樹(shù)模型的圖標(biāo) 三、瀏覽決策樹(shù)執(zhí)行結(jié)果 運(yùn)行完決策樹(shù)結(jié)點(diǎn),會(huì)出現(xiàn)如圖(12),選擇 Yes 就可以看到決策樹(shù)的執(zhí)行結(jié)果
圖 (12) 其中主要的窗口如圖(13)所示: (一) 綜合窗體
圖(13) 對(duì)于圖的解釋可以參看SAS提供的幫助文件,地址為: emgui.hlp/a000106004.htm#a000471388 或在SAS幫助文件中搜索 Tree Node 察看 Layout of the Tree Results Browser (二) 查看樹(shù)狀結(jié)構(gòu)圖 在菜單欄中選擇查看—〉樹(shù)狀結(jié)構(gòu) ,可以看到決策樹(shù)執(zhí)行結(jié)果以樹(shù)狀形式展現(xiàn),如圖 (14)。
圖 (14) 圖 (14)描述了典型的模型分析輸出結(jié)果,分析是通過(guò)分裂的方式進(jìn)行的。在圖的上部是決策樹(shù)模型的根結(jié)點(diǎn),包含了所有的可能的觀測(cè)數(shù)據(jù),根結(jié)點(diǎn)中處于中間列出了訓(xùn)練數(shù)據(jù)為總共為4172個(gè),19.9%可信任(不能貸款),而80.1%不可信任(可以貸款),處于右側(cè)的數(shù)據(jù)是驗(yàn)證數(shù)據(jù)結(jié)果,共有 1788個(gè)驗(yàn)證數(shù)據(jù),其中20.1%可信任(不能貸款),而79.9%不可信任(可以貸款)。在過(guò)程的進(jìn)一步,客戶(hù)被分成了兩組,根據(jù)變量 DEBTING的級(jí)別值,這個(gè)變量是最能區(qū)分的變量。組的左側(cè)觀測(cè)數(shù)據(jù)3225條記錄中有93.0%的客戶(hù)記錄是可信的(DEBTING<45.1848),右側(cè)947條觀測(cè)記錄中36.3%的客戶(hù)記錄是可信的(DEBTING>=45.1848)。接著對(duì)于選用變量VALUE,以各條記錄的 VALUE屬性值與662969.5進(jìn)行比較進(jìn)行下一步劃分,右側(cè)以DELINQ變量進(jìn)行下一步劃分。左側(cè)經(jīng)過(guò)VALUE屬性的劃分后,第三層第二個(gè)結(jié)點(diǎn)在這一步停止。第一個(gè)結(jié)點(diǎn)則繼續(xù)根據(jù)DELINQ屬性值繼續(xù)劃分,最終到達(dá)葉子結(jié)點(diǎn)。 其中樹(shù)狀結(jié)構(gòu)的每一個(gè)結(jié)點(diǎn)所列項(xiàng)目如圖(15):
圖 (15) (三)以文本形式保存規(guī)則 在SAS中在查看決策樹(shù)運(yùn)行結(jié)果是可以將決策樹(shù)的結(jié)果以base語(yǔ)言的形式保存為文本文件,選擇菜單欄中的 文件 項(xiàng)—〉保存規(guī)則項(xiàng)。最終存儲(chǔ)結(jié)果如圖(16)??梢詫⒃摱纬绦驈?fù)制到SAS的編輯窗口直接運(yùn)行而不需要打開(kāi)企業(yè)數(shù)據(jù)挖掘模塊。
圖 (16) 四、互動(dòng)式建立決策樹(shù)過(guò)程 除了上述自動(dòng)由機(jī)器建立數(shù)據(jù)庫(kù)的方法外,SAS還提供了一種與用戶(hù)交互式的建立決策樹(shù)的過(guò)程,該過(guò)程要求用戶(hù)有一定的決策樹(shù)算法的相關(guān)知識(shí)以及對(duì)原數(shù)據(jù)的十分了解。過(guò)程如下: (一) 首先需要從新定義Input Data Source和 Data Partition結(jié)點(diǎn),參數(shù)設(shè)置同上。 (二) 運(yùn)行Data Partition結(jié)點(diǎn) (三) 添加tree結(jié)點(diǎn),連接tree結(jié)點(diǎn)和Data Partition結(jié)點(diǎn), 在tree結(jié)點(diǎn)的圖標(biāo)上右擊鼠標(biāo)選擇 Interactive屬性,進(jìn)入 Interactive Training:Tree窗體 ,如圖(17)。
圖(17) (四) 在樹(shù)環(huán)狀圖上點(diǎn)擊鼠標(biāo)右鍵,選擇 Create Rules選項(xiàng),進(jìn)入建立規(guī)則窗體如圖 (18)。
圖(18) (五) 如圖(18)所示以列 Logworth 屬性為標(biāo)準(zhǔn)選擇值最大的進(jìn)入規(guī)則,點(diǎn)擊ok,DPW2項(xiàng)成為劃分決策樹(shù)的一個(gè)指標(biāo),如圖(19)。
圖 (19) 圖 (19)中面板分為五部分,各部分內(nèi)容反映如下: l 圖中標(biāo)示 1 的部分,是關(guān)于屬性DPM12的密度分布圖。 l 圖中標(biāo)示 2 的部分,是決策樹(shù)的環(huán)形圖。 l 圖中標(biāo)示 3 的部分,是根據(jù)決策樹(shù)規(guī)則對(duì)觀測(cè)數(shù)據(jù)進(jìn)行劃分過(guò)程的錯(cuò)分率分布圖。 l 圖中標(biāo)示 4 的部分,是觀測(cè)數(shù)據(jù)(藍(lán)色)和驗(yàn)證數(shù)據(jù)(紅色)的分支密度圖。 l 圖中標(biāo)示 5 的部分,是關(guān)于屬性的密度分布圖的總體瀏覽。 (六) 重復(fù)上述步驟,可形成用戶(hù)自己的決策樹(shù)。 |
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶(hù) ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱(chēng) BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢(xún)到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢(xún)結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢(xún)結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專(zhuān)注于從單 ...
2025-07-09year_month數(shù)據(jù)類(lèi)型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類(lèi)型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門(mén)控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專(zhuān)業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03