99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線(xiàn)電話(huà):13121318867

登錄
首頁(yè)精彩閱讀SAS決策樹(shù):信貸風(fēng)險(xiǎn)建模試驗(yàn)
SAS決策樹(shù):信貸風(fēng)險(xiǎn)建模試驗(yàn)
2015-12-07
收藏

SAS決策樹(shù):信貸風(fēng)險(xiǎn)建模試驗(yàn)




信貸風(fēng)險(xiǎn)建模試驗(yàn) 一、 概論 決策樹(shù)通過(guò)應(yīng)用一系列簡(jiǎn)單的規(guī)則建立起對(duì)觀測(cè)數(shù)據(jù)的分類(lèi)。決策樹(shù)對(duì)于觀測(cè)值的分類(lèi)建立在變量的輸入值基礎(chǔ)上。每條規(guī)則都是在前一條規(guī)則形成的層次的基礎(chǔ)上對(duì)觀測(cè)數(shù)據(jù)的進(jìn)一步劃分,而最終建立的劃分層次稱(chēng)為決策樹(shù),每個(gè)劃分段稱(chēng)為決策樹(shù)

一、 概論

決策樹(shù)通過(guò)應(yīng)用一系列簡(jiǎn)單的規(guī)則建立起對(duì)觀測(cè)數(shù)據(jù)的分類(lèi)。決策樹(shù)對(duì)于觀測(cè)值的分類(lèi)建立在變量的輸入值基礎(chǔ)上。每條規(guī)則都是在前一條規(guī)則形成的層次的基礎(chǔ)上對(duì)觀測(cè)數(shù)據(jù)的進(jìn)一步劃分,而最終建立的劃分層次稱(chēng)為決策樹(shù),每個(gè)劃分段稱(chēng)為決策樹(shù)的一個(gè)結(jié)點(diǎn)。最初的未進(jìn)行劃分的片段包括所有的觀測(cè)數(shù)據(jù)稱(chēng)作決策樹(shù)的根結(jié)點(diǎn)。一個(gè)結(jié)點(diǎn)和它所有的后續(xù)結(jié)點(diǎn)共同構(gòu)成一顆子樹(shù)。決策樹(shù)中最底層的結(jié)點(diǎn)叫做葉子。觀測(cè)數(shù)據(jù)都將會(huì)被分配到其中的一個(gè)葉子之中。

二、 建立決策樹(shù)實(shí)例

本文將引用SAS軟件自帶數(shù)據(jù)(SAMPSIO.HMEQ)建立決策樹(shù),用來(lái)分析是否應(yīng)該同意客戶(hù)的家庭資產(chǎn)抵押貸款。該數(shù)據(jù)集包含5,960個(gè)觀測(cè)數(shù)據(jù)并存放在抽樣數(shù)據(jù)庫(kù)中。BAD目標(biāo)變量是一個(gè)二進(jìn)制變量用于指明貸款申請(qǐng)者是有可能拖欠貸款者還是可信的。這種不利情況可能在1189個(gè)案例中發(fā)生的可能性19.95%。該數(shù)據(jù)集中有12解釋變量用于建立決策樹(shù)。

(一)建立決策樹(shù)的變量要求

決策樹(shù)的建立需要一個(gè)目標(biāo)變量(響應(yīng)變量),以及至少一個(gè)輸入變量(自變量、解釋變量)。響應(yīng)變量和解釋變量的設(shè)置在輸入數(shù)據(jù)源結(jié)點(diǎn)中設(shè)置。

(二)結(jié)點(diǎn)總攬

建立的決策樹(shù)數(shù)據(jù)分析過(guò)程包括一下三個(gè)結(jié)點(diǎn)Input Data Source、Data Partition以及決策樹(shù)結(jié)點(diǎn),最終建立結(jié)果如圖(1):

 

圖(1)

(三)新建 數(shù)據(jù)挖掘項(xiàng)目

1、 SAS的命令窗口輸入命令 miner,進(jìn)入數(shù)據(jù)挖掘窗口。

2、 在菜單欄中選擇 文件 —〉新建—〉項(xiàng)目,彈出新建數(shù)據(jù)挖據(jù)項(xiàng)目 如 圖(2)。

 

圖 (2)

3、 在Create new project 窗口中點(diǎn)擊 Create 按鈕,進(jìn)入new tree 項(xiàng)目。并為新的數(shù)據(jù)項(xiàng)目更名為:Tree Node。

(四)建立輸入數(shù)據(jù)源結(jié)點(diǎn)

添加一個(gè) 輸入數(shù)據(jù)源 結(jié)點(diǎn),為本次數(shù)據(jù)分析建立起數(shù)據(jù)源。

1.1.1 增加一個(gè) Input Data Source 結(jié)點(diǎn),選擇項(xiàng)目列表下方的Tools 選項(xiàng)。在列表中選擇 Input Data Source結(jié)點(diǎn),點(diǎn)擊鼠標(biāo)左鍵將Input Data Source拖入右側(cè)的工作空間。

1.1.2 雙擊工作空間Input Data Source 結(jié)點(diǎn),進(jìn)入Input Data Source的設(shè)置窗口。

1.1.3 在Input Data Source設(shè)置窗口中的Data項(xiàng)中點(diǎn)擊Select按鈕,選擇數(shù)據(jù)源。進(jìn)入選擇 SAS Data Set窗口。在Library項(xiàng)選擇SAMPSIO—〉 HMEQ。

如圖(3)。

 

圖(3)

1.1.4 點(diǎn)擊ok,回到Input Data Source設(shè)置窗口,選擇Variables項(xiàng),在variables項(xiàng)中找到BAD數(shù)據(jù)項(xiàng),在BAD行 Model Role 項(xiàng)上點(diǎn)擊鼠標(biāo)右鍵選擇Set Model Role選項(xiàng)—〉Target項(xiàng),如圖(4)。

 

圖(4)

1.1.5 關(guān)閉Input Data Source設(shè)置窗口,并保存。

(五)建立 Data Partition 結(jié)點(diǎn)

Data Partition結(jié)點(diǎn)主要將元數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)、驗(yàn)證數(shù)據(jù)和測(cè)試數(shù)據(jù)。其中訓(xùn)練數(shù)據(jù)用于生成決策樹(shù)輪廓,驗(yàn)證數(shù)據(jù)用于比較響應(yīng)變量的觀測(cè)值和預(yù)測(cè)值,而測(cè)試數(shù)據(jù)使用不多。

1. 像拖入Input Data Source結(jié)點(diǎn)一樣,將Data Partition從左側(cè)列表框拖入右側(cè)的工作平臺(tái)。

2. 建立 Input Data Source 結(jié)點(diǎn) 和 Data Partition結(jié)點(diǎn)之間的連接。如圖(5)。

 

圖(5)

3. 雙擊Data Partition 圖標(biāo),進(jìn)入屬性設(shè)置界面,設(shè)置屬性如圖(6)

 

圖(6)

4. 關(guān)閉該窗口,并保存。

(六)建立 Tree Node 結(jié)點(diǎn)

Tree Node節(jié)點(diǎn)是進(jìn)行決策樹(shù)分析的中心結(jié)點(diǎn),對(duì)它的不同設(shè)置和操作將對(duì)數(shù)據(jù)集建立起不同的決策樹(shù)模型。

1. 像拖入Input Data Source結(jié)點(diǎn)一樣,將 Tree 從左側(cè)列表框拖入右側(cè)的工作平臺(tái)。

2. 建立 Data Partition 結(jié)點(diǎn) 和 Tree 結(jié)點(diǎn)之間的連接。如圖(7)。

 

圖(7)

3. 雙擊tree圖標(biāo),進(jìn)入相關(guān)屬性設(shè)置界面,相關(guān)標(biāo)簽屬性和設(shè)置介紹如下:

1) Data 標(biāo)簽:該標(biāo)簽中展示了前一結(jié)點(diǎn)數(shù)據(jù)集的名稱(chēng)和相關(guān)的描述,這些數(shù)據(jù)集包括訓(xùn)練數(shù)據(jù)和驗(yàn)證數(shù)據(jù)等。如圖(8) 。

 

圖(8)

2) Variables標(biāo)簽:variables標(biāo)簽中可以看到觀測(cè)數(shù)據(jù)集各數(shù)據(jù)項(xiàng)的相關(guān)情況,如圖(9),

 

圖(9)

A. 在每一個(gè)標(biāo)題頭上點(diǎn)擊鼠標(biāo)左鍵,可以按該列對(duì)表格中各項(xiàng)進(jìn)行排序。

B. 其中可以在Status屬性中列中單擊鼠標(biāo)右鍵選擇Set Status將Use狀態(tài)更改為Don’t Use狀態(tài)。

C. 在Model Role 列點(diǎn)擊鼠標(biāo)右鍵選擇 edit target profile 將變量進(jìn)行目標(biāo)變量和解釋變量之間的轉(zhuǎn)化。

3) Basic標(biāo)簽:在Basic 標(biāo)簽中,可以指定劃分規(guī)則以及與決策樹(shù)大小相關(guān)的各種參數(shù)值。下面是一個(gè)有關(guān)Basic標(biāo)簽各項(xiàng)的一個(gè)展示如圖(10)。

 

圖(10)

A. 其中劃分規(guī)則(splitting criteria)可以根據(jù)目標(biāo)變量的度量方面進(jìn)行選擇。

對(duì)于定性或二進(jìn)制的目標(biāo)變量,可以選擇以下劃分規(guī)則:

 檢驗(yàn)(默認(rèn))——Pearson 檢驗(yàn)用于衡量對(duì)目標(biāo)變量建立分支結(jié)點(diǎn),其默認(rèn)顯著性指標(biāo)為 0.20 。

 熵值約簡(jiǎn)——通過(guò)對(duì)熵值大小的衡量反映結(jié)點(diǎn)不純性也成為熵不純性。

 基尼系數(shù)約簡(jiǎn)——通過(guò)對(duì)基尼系數(shù)大小的衡量反映結(jié)點(diǎn)不純性也成為Gini 不純性。

對(duì)于連續(xù)型目標(biāo)變量,可以選擇以下兩種劃分規(guī)則:

 F 檢驗(yàn)(默認(rèn))——F檢驗(yàn)的P值與結(jié)點(diǎn)一致性有關(guān),默認(rèn)顯著性指標(biāo)為 0.20。

 一致性約簡(jiǎn)——該約簡(jiǎn)基于結(jié)點(diǎn)的均方差檢驗(yàn)。

本例中由于目標(biāo)變量是家庭資產(chǎn)抵押貸款為二元變量, 檢驗(yàn)是一個(gè)比較合適的劃分規(guī)則。

B. 同時(shí)可以在Basic標(biāo)簽指定以下相關(guān)屬性值:

  Minimum number of observations in a leaf(default = 1)

  Observations required for a split search. 該選項(xiàng)保證劃分的結(jié)點(diǎn)都有觀測(cè)數(shù)據(jù),并且對(duì)于比該項(xiàng)指定的觀測(cè)值還要少的結(jié)點(diǎn)不進(jìn)行繼續(xù)劃分

  Maximum number of branches from a node(default= 2)

  Maximum depth of tree (default = 6)

  Splitting rules saved in each node (default = 5)

  Surrogate rules saved in each node (default = 0)

  Treat missing as an acceptable value.

4)Advanced標(biāo)簽,其中可以進(jìn)行以下設(shè)置:

A. 評(píng)估度量模型的選擇

評(píng)估度量模型是基于從有效的數(shù)據(jù)中獲得的決策樹(shù)結(jié)果中選擇出最佳的決策樹(shù)模型,對(duì)于范疇型目標(biāo)變量或間斷型目標(biāo)變量會(huì)有不同的評(píng)估度量模型選擇。

B. 自定子樹(shù)模型

Advanced標(biāo)簽中的子樹(shù)選項(xiàng)中指定怎樣選擇整個(gè)增長(zhǎng)樹(shù)中選擇子樹(shù)。一個(gè)大型的決策樹(shù)會(huì)對(duì)那些隨機(jī)選擇的選練數(shù)據(jù)很好的適應(yīng),但對(duì)新數(shù)據(jù)進(jìn)行預(yù)測(cè)上表現(xiàn)不佳。該選項(xiàng)就在于設(shè)定怎樣判斷一棵決策樹(shù)已經(jīng)足夠大了。

C. 選擇p值調(diào)整方法的選擇

如果既沒(méi)有選擇 檢驗(yàn)也沒(méi)有選擇F檢驗(yàn),就需要指定一種方法調(diào)整p值。

D. 在決策樹(shù)建立過(guò)程中合并收益或損失表

下面是Advanced標(biāo)簽各項(xiàng)的一個(gè)展示,如圖(11)

 

圖(11)

5.關(guān)閉tree結(jié)點(diǎn)屬性設(shè)置窗口并保存。

(七)運(yùn)行決策樹(shù)結(jié)點(diǎn)

在設(shè)置完成決策樹(shù)結(jié)點(diǎn)之后,有四種方法來(lái)運(yùn)行決策樹(shù)結(jié)點(diǎn):

  A 如果該結(jié)點(diǎn)已經(jīng)關(guān)閉:

在tree結(jié)點(diǎn)上右擊鼠標(biāo)并選擇Run選項(xiàng)。

在菜單欄中選擇 操作—〉運(yùn)行。

  B 如果該結(jié)點(diǎn)仍處于打開(kāi)狀態(tài):

選擇 工具—〉運(yùn)行樹(shù)狀模型

在快捷方式欄中選擇 運(yùn)行樹(shù)模型的圖標(biāo)

三、瀏覽決策樹(shù)執(zhí)行結(jié)果

運(yùn)行完決策樹(shù)結(jié)點(diǎn),會(huì)出現(xiàn)如圖(12),選擇 Yes 就可以看到決策樹(shù)的執(zhí)行結(jié)果

 

圖 (12)

其中主要的窗口如圖(13)所示:

(一) 綜合窗體

 

圖(13)

對(duì)于圖的解釋可以參看SAS提供的幫助文件,地址為:

emgui.hlp/a000106004.htm#a000471388

或在SAS幫助文件中搜索 Tree Node 察看

Layout of the Tree Results Browser

(二) 查看樹(shù)狀結(jié)構(gòu)圖

在菜單欄中選擇查看—〉樹(shù)狀結(jié)構(gòu) ,可以看到決策樹(shù)執(zhí)行結(jié)果以樹(shù)狀形式展現(xiàn),如圖 (14)。

 

圖 (14)

圖 (14)描述了典型的模型分析輸出結(jié)果,分析是通過(guò)分裂的方式進(jìn)行的。在圖的上部是決策樹(shù)模型的根結(jié)點(diǎn),包含了所有的可能的觀測(cè)數(shù)據(jù),根結(jié)點(diǎn)中處于中間列出了訓(xùn)練數(shù)據(jù)為總共為4172個(gè),19.9%可信任(不能貸款),而80.1%不可信任(可以貸款),處于右側(cè)的數(shù)據(jù)是驗(yàn)證數(shù)據(jù)結(jié)果,共有 1788個(gè)驗(yàn)證數(shù)據(jù),其中20.1%可信任(不能貸款),而79.9%不可信任(可以貸款)。在過(guò)程的進(jìn)一步,客戶(hù)被分成了兩組,根據(jù)變量 DEBTING的級(jí)別值,這個(gè)變量是最能區(qū)分的變量。組的左側(cè)觀測(cè)數(shù)據(jù)3225條記錄中有93.0%的客戶(hù)記錄是可信的(DEBTING<45.1848),右側(cè)947條觀測(cè)記錄中36.3%的客戶(hù)記錄是可信的(DEBTING>=45.1848)。接著對(duì)于選用變量VALUE,以各條記錄的 VALUE屬性值與662969.5進(jìn)行比較進(jìn)行下一步劃分,右側(cè)以DELINQ變量進(jìn)行下一步劃分。左側(cè)經(jīng)過(guò)VALUE屬性的劃分后,第三層第二個(gè)結(jié)點(diǎn)在這一步停止。第一個(gè)結(jié)點(diǎn)則繼續(xù)根據(jù)DELINQ屬性值繼續(xù)劃分,最終到達(dá)葉子結(jié)點(diǎn)。

其中樹(shù)狀結(jié)構(gòu)的每一個(gè)結(jié)點(diǎn)所列項(xiàng)目如圖(15):

 

圖 (15)

(三)以文本形式保存規(guī)則

在SAS中在查看決策樹(shù)運(yùn)行結(jié)果是可以將決策樹(shù)的結(jié)果以base語(yǔ)言的形式保存為文本文件,選擇菜單欄中的 文件 項(xiàng)—〉保存規(guī)則項(xiàng)。最終存儲(chǔ)結(jié)果如圖(16)??梢詫⒃摱纬绦驈?fù)制到SAS的編輯窗口直接運(yùn)行而不需要打開(kāi)企業(yè)數(shù)據(jù)挖掘模塊。

 

圖 (16)

四、互動(dòng)式建立決策樹(shù)過(guò)程

除了上述自動(dòng)由機(jī)器建立數(shù)據(jù)庫(kù)的方法外,SAS還提供了一種與用戶(hù)交互式的建立決策樹(shù)的過(guò)程,該過(guò)程要求用戶(hù)有一定的決策樹(shù)算法的相關(guān)知識(shí)以及對(duì)原數(shù)據(jù)的十分了解。過(guò)程如下:

(一) 首先需要從新定義Input Data Source和 Data Partition結(jié)點(diǎn),參數(shù)設(shè)置同上。

(二) 運(yùn)行Data Partition結(jié)點(diǎn)

(三) 添加tree結(jié)點(diǎn),連接tree結(jié)點(diǎn)和Data Partition結(jié)點(diǎn), 在tree結(jié)點(diǎn)的圖標(biāo)上右擊鼠標(biāo)選擇 Interactive屬性,進(jìn)入 Interactive Training:Tree窗體 ,如圖(17)。

 

圖(17)

(四) 在樹(shù)環(huán)狀圖上點(diǎn)擊鼠標(biāo)右鍵,選擇 Create Rules選項(xiàng),進(jìn)入建立規(guī)則窗體如圖 (18)。

 

圖(18)

(五) 如圖(18)所示以列 Logworth 屬性為標(biāo)準(zhǔn)選擇值最大的進(jìn)入規(guī)則,點(diǎn)擊ok,DPW2項(xiàng)成為劃分決策樹(shù)的一個(gè)指標(biāo),如圖(19)。

 

圖 (19)

圖 (19)中面板分為五部分,各部分內(nèi)容反映如下:

l 圖中標(biāo)示 1 的部分,是關(guān)于屬性DPM12的密度分布圖。

l 圖中標(biāo)示 2 的部分,是決策樹(shù)的環(huán)形圖。

l 圖中標(biāo)示 3 的部分,是根據(jù)決策樹(shù)規(guī)則對(duì)觀測(cè)數(shù)據(jù)進(jìn)行劃分過(guò)程的錯(cuò)分率分布圖。

l 圖中標(biāo)示 4 的部分,是觀測(cè)數(shù)據(jù)(藍(lán)色)和驗(yàn)證數(shù)據(jù)(紅色)的分支密度圖。

l 圖中標(biāo)示 5 的部分,是關(guān)于屬性的密度分布圖的總體瀏覽。

(六) 重復(fù)上述步驟,可形成用戶(hù)自己的決策樹(shù)。


數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線(xiàn)
立即咨詢(xún)
客服在線(xiàn)
立即咨詢(xún)
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶(hù)后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說(shuō)明請(qǐng)參見(jiàn):http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }