
SAS決策樹:信貸風(fēng)險建模試驗
一、 概論 決策樹通過應(yīng)用一系列簡單的規(guī)則建立起對觀測數(shù)據(jù)的分類。決策樹對于觀測值的分類建立在變量的輸入值基礎(chǔ)上。每條規(guī)則都是在前一條規(guī)則形成的層次的基礎(chǔ)上對觀測數(shù)據(jù)的進一步劃分,而最終建立的劃分層次稱為決策樹,每個劃分段稱為決策樹的一個結(jié)點。最初的未進行劃分的片段包括所有的觀測數(shù)據(jù)稱作決策樹的根結(jié)點。一個結(jié)點和它所有的后續(xù)結(jié)點共同構(gòu)成一顆子樹。決策樹中最底層的結(jié)點叫做葉子。觀測數(shù)據(jù)都將會被分配到其中的一個葉子之中。 二、 建立決策樹實例 本文將引用SAS軟件自帶數(shù)據(jù)(SAMPSIO.HMEQ)建立決策樹,用來分析是否應(yīng)該同意客戶的家庭資產(chǎn)抵押貸款。該數(shù)據(jù)集包含5,960個觀測數(shù)據(jù)并存放在抽樣數(shù)據(jù)庫中。BAD目標(biāo)變量是一個二進制變量用于指明貸款申請者是有可能拖欠貸款者還是可信的。這種不利情況可能在1189個案例中發(fā)生的可能性19.95%。該數(shù)據(jù)集中有12解釋變量用于建立決策樹。 (一)建立決策樹的變量要求 決策樹的建立需要一個目標(biāo)變量(響應(yīng)變量),以及至少一個輸入變量(自變量、解釋變量)。響應(yīng)變量和解釋變量的設(shè)置在輸入數(shù)據(jù)源結(jié)點中設(shè)置。 (二)結(jié)點總攬 建立的決策樹數(shù)據(jù)分析過程包括一下三個結(jié)點Input Data Source、Data Partition以及決策樹結(jié)點,最終建立結(jié)果如圖(1):
圖(1) (三)新建 數(shù)據(jù)挖掘項目 1、 SAS的命令窗口輸入命令 miner,進入數(shù)據(jù)挖掘窗口。 2、 在菜單欄中選擇 文件 —〉新建—〉項目,彈出新建數(shù)據(jù)挖據(jù)項目 如 圖(2)。
圖 (2) 3、 在Create new project 窗口中點擊 Create 按鈕,進入new tree 項目。并為新的數(shù)據(jù)項目更名為:Tree Node。 (四)建立輸入數(shù)據(jù)源結(jié)點 添加一個 輸入數(shù)據(jù)源 結(jié)點,為本次數(shù)據(jù)分析建立起數(shù)據(jù)源。 1.1.1 增加一個 Input Data Source 結(jié)點,選擇項目列表下方的Tools 選項。在列表中選擇 Input Data Source結(jié)點,點擊鼠標(biāo)左鍵將Input Data Source拖入右側(cè)的工作空間。 1.1.2 雙擊工作空間Input Data Source 結(jié)點,進入Input Data Source的設(shè)置窗口。 1.1.3 在Input Data Source設(shè)置窗口中的Data項中點擊Select按鈕,選擇數(shù)據(jù)源。進入選擇 SAS Data Set窗口。在Library項選擇SAMPSIO—〉 HMEQ。 如圖(3)。
圖(3) 1.1.4 點擊ok,回到Input Data Source設(shè)置窗口,選擇Variables項,在variables項中找到BAD數(shù)據(jù)項,在BAD行 Model Role 項上點擊鼠標(biāo)右鍵選擇Set Model Role選項—〉Target項,如圖(4)。
圖(4) 1.1.5 關(guān)閉Input Data Source設(shè)置窗口,并保存。 (五)建立 Data Partition 結(jié)點 Data Partition結(jié)點主要將元數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)、驗證數(shù)據(jù)和測試數(shù)據(jù)。其中訓(xùn)練數(shù)據(jù)用于生成決策樹輪廓,驗證數(shù)據(jù)用于比較響應(yīng)變量的觀測值和預(yù)測值,而測試數(shù)據(jù)使用不多。 1. 像拖入Input Data Source結(jié)點一樣,將Data Partition從左側(cè)列表框拖入右側(cè)的工作平臺。 2. 建立 Input Data Source 結(jié)點 和 Data Partition結(jié)點之間的連接。如圖(5)。
圖(5) 3. 雙擊Data Partition 圖標(biāo),進入屬性設(shè)置界面,設(shè)置屬性如圖(6)
圖(6) 4. 關(guān)閉該窗口,并保存。 (六)建立 Tree Node 結(jié)點 Tree Node節(jié)點是進行決策樹分析的中心結(jié)點,對它的不同設(shè)置和操作將對數(shù)據(jù)集建立起不同的決策樹模型。 1. 像拖入Input Data Source結(jié)點一樣,將 Tree 從左側(cè)列表框拖入右側(cè)的工作平臺。 2. 建立 Data Partition 結(jié)點 和 Tree 結(jié)點之間的連接。如圖(7)。
圖(7) 3. 雙擊tree圖標(biāo),進入相關(guān)屬性設(shè)置界面,相關(guān)標(biāo)簽屬性和設(shè)置介紹如下: 1) Data 標(biāo)簽:該標(biāo)簽中展示了前一結(jié)點數(shù)據(jù)集的名稱和相關(guān)的描述,這些數(shù)據(jù)集包括訓(xùn)練數(shù)據(jù)和驗證數(shù)據(jù)等。如圖(8) 。
圖(8) 2) Variables標(biāo)簽:variables標(biāo)簽中可以看到觀測數(shù)據(jù)集各數(shù)據(jù)項的相關(guān)情況,如圖(9),
圖(9) A. 在每一個標(biāo)題頭上點擊鼠標(biāo)左鍵,可以按該列對表格中各項進行排序。 B. 其中可以在Status屬性中列中單擊鼠標(biāo)右鍵選擇Set Status將Use狀態(tài)更改為Don’t Use狀態(tài)。 C. 在Model Role 列點擊鼠標(biāo)右鍵選擇 edit target profile 將變量進行目標(biāo)變量和解釋變量之間的轉(zhuǎn)化。 3) Basic標(biāo)簽:在Basic 標(biāo)簽中,可以指定劃分規(guī)則以及與決策樹大小相關(guān)的各種參數(shù)值。下面是一個有關(guān)Basic標(biāo)簽各項的一個展示如圖(10)。
圖(10) A. 其中劃分規(guī)則(splitting criteria)可以根據(jù)目標(biāo)變量的度量方面進行選擇。 對于定性或二進制的目標(biāo)變量,可以選擇以下劃分規(guī)則: 檢驗(默認(rèn))——Pearson 檢驗用于衡量對目標(biāo)變量建立分支結(jié)點,其默認(rèn)顯著性指標(biāo)為 0.20 。 熵值約簡——通過對熵值大小的衡量反映結(jié)點不純性也成為熵不純性。 基尼系數(shù)約簡——通過對基尼系數(shù)大小的衡量反映結(jié)點不純性也成為Gini 不純性。 對于連續(xù)型目標(biāo)變量,可以選擇以下兩種劃分規(guī)則: F 檢驗(默認(rèn))——F檢驗的P值與結(jié)點一致性有關(guān),默認(rèn)顯著性指標(biāo)為 0.20。 一致性約簡——該約簡基于結(jié)點的均方差檢驗。 本例中由于目標(biāo)變量是家庭資產(chǎn)抵押貸款為二元變量, 檢驗是一個比較合適的劃分規(guī)則。 B. 同時可以在Basic標(biāo)簽指定以下相關(guān)屬性值: Minimum number of observations in a leaf(default = 1) Observations required for a split search. 該選項保證劃分的結(jié)點都有觀測數(shù)據(jù),并且對于比該項指定的觀測值還要少的結(jié)點不進行繼續(xù)劃分 Maximum number of branches from a node(default= 2) Maximum depth of tree (default = 6) Splitting rules saved in each node (default = 5) Surrogate rules saved in each node (default = 0) Treat missing as an acceptable value. 4)Advanced標(biāo)簽,其中可以進行以下設(shè)置: A. 評估度量模型的選擇 評估度量模型是基于從有效的數(shù)據(jù)中獲得的決策樹結(jié)果中選擇出最佳的決策樹模型,對于范疇型目標(biāo)變量或間斷型目標(biāo)變量會有不同的評估度量模型選擇。 B. 自定子樹模型 Advanced標(biāo)簽中的子樹選項中指定怎樣選擇整個增長樹中選擇子樹。一個大型的決策樹會對那些隨機選擇的選練數(shù)據(jù)很好的適應(yīng),但對新數(shù)據(jù)進行預(yù)測上表現(xiàn)不佳。該選項就在于設(shè)定怎樣判斷一棵決策樹已經(jīng)足夠大了。 C. 選擇p值調(diào)整方法的選擇 如果既沒有選擇 檢驗也沒有選擇F檢驗,就需要指定一種方法調(diào)整p值。 D. 在決策樹建立過程中合并收益或損失表 下面是Advanced標(biāo)簽各項的一個展示,如圖(11)
圖(11) 5.關(guān)閉tree結(jié)點屬性設(shè)置窗口并保存。 (七)運行決策樹結(jié)點 在設(shè)置完成決策樹結(jié)點之后,有四種方法來運行決策樹結(jié)點: A 如果該結(jié)點已經(jīng)關(guān)閉: 在tree結(jié)點上右擊鼠標(biāo)并選擇Run選項。 在菜單欄中選擇 操作—〉運行。 B 如果該結(jié)點仍處于打開狀態(tài): 選擇 工具—〉運行樹狀模型 在快捷方式欄中選擇 運行樹模型的圖標(biāo) 三、瀏覽決策樹執(zhí)行結(jié)果 運行完決策樹結(jié)點,會出現(xiàn)如圖(12),選擇 Yes 就可以看到決策樹的執(zhí)行結(jié)果
圖 (12) 其中主要的窗口如圖(13)所示: (一) 綜合窗體
圖(13) 對于圖的解釋可以參看SAS提供的幫助文件,地址為: emgui.hlp/a000106004.htm#a000471388 或在SAS幫助文件中搜索 Tree Node 察看 Layout of the Tree Results Browser (二) 查看樹狀結(jié)構(gòu)圖 在菜單欄中選擇查看—〉樹狀結(jié)構(gòu) ,可以看到決策樹執(zhí)行結(jié)果以樹狀形式展現(xiàn),如圖 (14)。
圖 (14) 圖 (14)描述了典型的模型分析輸出結(jié)果,分析是通過分裂的方式進行的。在圖的上部是決策樹模型的根結(jié)點,包含了所有的可能的觀測數(shù)據(jù),根結(jié)點中處于中間列出了訓(xùn)練數(shù)據(jù)為總共為4172個,19.9%可信任(不能貸款),而80.1%不可信任(可以貸款),處于右側(cè)的數(shù)據(jù)是驗證數(shù)據(jù)結(jié)果,共有 1788個驗證數(shù)據(jù),其中20.1%可信任(不能貸款),而79.9%不可信任(可以貸款)。在過程的進一步,客戶被分成了兩組,根據(jù)變量 DEBTING的級別值,這個變量是最能區(qū)分的變量。組的左側(cè)觀測數(shù)據(jù)3225條記錄中有93.0%的客戶記錄是可信的(DEBTING<45.1848),右側(cè)947條觀測記錄中36.3%的客戶記錄是可信的(DEBTING>=45.1848)。接著對于選用變量VALUE,以各條記錄的 VALUE屬性值與662969.5進行比較進行下一步劃分,右側(cè)以DELINQ變量進行下一步劃分。左側(cè)經(jīng)過VALUE屬性的劃分后,第三層第二個結(jié)點在這一步停止。第一個結(jié)點則繼續(xù)根據(jù)DELINQ屬性值繼續(xù)劃分,最終到達(dá)葉子結(jié)點。 其中樹狀結(jié)構(gòu)的每一個結(jié)點所列項目如圖(15):
圖 (15) (三)以文本形式保存規(guī)則 在SAS中在查看決策樹運行結(jié)果是可以將決策樹的結(jié)果以base語言的形式保存為文本文件,選擇菜單欄中的 文件 項—〉保存規(guī)則項。最終存儲結(jié)果如圖(16)??梢詫⒃摱纬绦驈?fù)制到SAS的編輯窗口直接運行而不需要打開企業(yè)數(shù)據(jù)挖掘模塊。
圖 (16) 四、互動式建立決策樹過程 除了上述自動由機器建立數(shù)據(jù)庫的方法外,SAS還提供了一種與用戶交互式的建立決策樹的過程,該過程要求用戶有一定的決策樹算法的相關(guān)知識以及對原數(shù)據(jù)的十分了解。過程如下: (一) 首先需要從新定義Input Data Source和 Data Partition結(jié)點,參數(shù)設(shè)置同上。 (二) 運行Data Partition結(jié)點 (三) 添加tree結(jié)點,連接tree結(jié)點和Data Partition結(jié)點, 在tree結(jié)點的圖標(biāo)上右擊鼠標(biāo)選擇 Interactive屬性,進入 Interactive Training:Tree窗體 ,如圖(17)。
圖(17) (四) 在樹環(huán)狀圖上點擊鼠標(biāo)右鍵,選擇 Create Rules選項,進入建立規(guī)則窗體如圖 (18)。
圖(18) (五) 如圖(18)所示以列 Logworth 屬性為標(biāo)準(zhǔn)選擇值最大的進入規(guī)則,點擊ok,DPW2項成為劃分決策樹的一個指標(biāo),如圖(19)。
圖 (19) 圖 (19)中面板分為五部分,各部分內(nèi)容反映如下: l 圖中標(biāo)示 1 的部分,是關(guān)于屬性DPM12的密度分布圖。 l 圖中標(biāo)示 2 的部分,是決策樹的環(huán)形圖。 l 圖中標(biāo)示 3 的部分,是根據(jù)決策樹規(guī)則對觀測數(shù)據(jù)進行劃分過程的錯分率分布圖。 l 圖中標(biāo)示 4 的部分,是觀測數(shù)據(jù)(藍(lán)色)和驗證數(shù)據(jù)(紅色)的分支密度圖。 l 圖中標(biāo)示 5 的部分,是關(guān)于屬性的密度分布圖的總體瀏覽。 (六) 重復(fù)上述步驟,可形成用戶自己的決策樹。 |
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10