99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話：13121318867

登錄

數(shù)據(jù)挖掘十大算法之CART詳解

2017-03-16

CART生成

CART假設決策樹是二叉樹，內(nèi)部結(jié)點特征的取值為“是”和“否”，左分支是取值為“是”的分支，右分支是取值為“否”的分支。這樣的決策樹等價于遞歸地二分每個特征，將輸入空間即特征空間劃分為有限個單元，并在這些單元上確定預測的概率分布，也就是在輸入給定的條件下輸出的條件概率分布。

CART算法由以下兩步組成：

決策樹生成：基于訓練數(shù)據(jù)集生成決策樹，生成的決策樹要盡量大；

決策樹剪枝：用驗證數(shù)據(jù)集對已生成的樹進行剪枝并選擇最優(yōu)子樹，這時損失函數(shù)最小作為剪枝的標準。

CART決策樹的生成就是遞歸地構(gòu)建二叉決策樹的過程。CART決策樹既可以用于分類也可以用于回歸。本文我們僅討論用于分類的CART。對分類樹而言，CART用Gini系數(shù)最小化準則來進行特征選擇，生成二叉樹。 CART生成算法如下：

輸入：訓練數(shù)據(jù)集D，停止計算的條件：
輸出：CART決策樹。

根據(jù)訓練數(shù)據(jù)集，從根結(jié)點開始，遞歸地對每個結(jié)點進行以下操作，構(gòu)建二叉決策樹：

設結(jié)點的訓練數(shù)據(jù)集為D，計算現(xiàn)有特征對該數(shù)據(jù)集的Gini系數(shù)。此時，對每一個特征A，對其可能取的每個值a，根據(jù)樣本點對A=a的測試為“是”或 “否”將D分割成D1和D2兩部分，計算A=a時的Gini系數(shù)。

在所有可能的特征A以及它們所有可能的切分點a中，選擇Gini系數(shù)最小的特征及其對應的切分點作為最優(yōu)特征與最優(yōu)切分點。依最優(yōu)特征與最優(yōu)切分點，從現(xiàn)結(jié)點生成兩個子結(jié)點，將訓練數(shù)據(jù)集依特征分配到兩個子結(jié)點中去。

對兩個子結(jié)點遞歸地調(diào)用步驟l~2，直至滿足停止條件。

生成CART決策樹。

算法停止計算的條件是結(jié)點中的樣本個數(shù)小于預定閾值，或樣本集的Gini系數(shù)小于預定閾值（樣本基本屬于同一類），或者沒有更多特征。

一個具體的例子

下面來看一個具體的例子。我們使用《數(shù)據(jù)挖掘十大算法之決策樹詳解（1）》中圖4-6所示的數(shù)據(jù)集來作為示例，為了便于后面的敘述，我們將其再列出如下：

首先對數(shù)據(jù)集非類標號屬性{是否有房，婚姻狀況，年收入}分別計算它們的Gini系數(shù)增益，取Gini系數(shù)增益值最大的屬性作為決策樹的根節(jié)點屬性。根節(jié)點的Gini系數(shù)

當根據(jù)是否有房來進行劃分時，Gini系數(shù)增益計算過程為

若按婚姻狀況屬性來劃分，屬性婚姻狀況有三個可能的取值{married，single，divorced}，分別計算劃分后的

{married} | {single,divorced}

{single} | {married,divorced}

{divorced} | {single,married}

的Gini系數(shù)增益。
當分組為{married} | {single,divorced}時，Sl表示婚姻狀況取值為married的分組，Sr表示婚姻狀況取值為single或者divorced的分組

對比計算結(jié)果，根據(jù)婚姻狀況屬性來劃分根節(jié)點時取Gini系數(shù)增益最大的分組作為劃分結(jié)果，也就是{married} | {single,divorced}。

最后考慮年收入屬性，我們發(fā)現(xiàn)它是一個連續(xù)的數(shù)值類型。我們在前面的文章里已經(jīng)專門介紹過如何應對這種類型的數(shù)據(jù)劃分了。對此還不是很清楚的朋友可以參考之前的文章，這里不再贅述。

對于年收入屬性為數(shù)值型屬性，首先需要對數(shù)據(jù)按升序排序，然后從小到大依次用相鄰值的中間值作為分隔將樣本劃分為兩組。例如當面對年收入為60和70這兩個值時，我們算得其中間值為65。倘若以中間值65作為分割點。Sl作為年收入小于65的樣本，Sr表示年收入大于等于65的樣本，于是則得Gini系數(shù)增益為

其他值的計算同理可得，我們不再逐一給出計算過程，僅列出結(jié)果如下（最終我們?nèi)∑渲惺沟迷鲆孀畲蠡哪莻€二分準則來作為構(gòu)建二叉樹的準則）：

注意，這與我們之前在《數(shù)據(jù)挖掘十大算法之決策樹詳解（1）》中得到的結(jié)果是一致的。最大化增益等價于最小化子女結(jié)點的不純性度量（Gini系數(shù)）的加權(quán)平均值，之前的表里我們列出的是Gini系數(shù)的加權(quán)平均值，現(xiàn)在的表里給出的是Gini系數(shù)增益?，F(xiàn)在我們希望最大化Gini系數(shù)的增益。根據(jù)計算知道，三個屬性劃分根節(jié)點的增益最大的有兩個：年收入屬性和婚姻狀況，他們的增益都為0.12。此時，選取首先出現(xiàn)的屬性作為第一次劃分。

接下來，采用同樣的方法，分別計算剩下屬性，其中根節(jié)點的Gini系數(shù)為（此時是否拖欠貸款的各有3個records）

與前面的計算過程類似，對于是否有房屬性，可得

對于年收入屬性則有：

最后我們構(gòu)建的CART如下圖所示：

最后我們總結(jié)一下，CART和C4.5的主要區(qū)別：

C4.5采用信息增益率來作為分支特征的選擇標準，而CART則采用Gini系數(shù)；

C4.5不一定是二叉樹，但CART一定是二叉樹。

關(guān)于過擬合以及剪枝

決策樹很容易發(fā)生過擬合，也就是由于對train數(shù)據(jù)集適應得太好，反而在test數(shù)據(jù)集上表現(xiàn)得不好。這個時候我們要么是通過閾值控制終止條件避免樹形結(jié)構(gòu)分支過細，要么就是通過對已經(jīng)形成的決策樹進行剪枝來避免過擬合。另外一個克服過擬合的手段就是基于Bootstrap的思想建立隨機森林（Random Forest）。

CDA數(shù)據(jù)分析師考試相關(guān)入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

決策樹特征過擬合數(shù)據(jù)挖掘特征空間隨機森林損失函數(shù) 決策樹剪枝

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇圖論在大數(shù)據(jù)分析中的作用！

下一篇CDA認證再升一檔！與國家共同推進大數(shù)據(jù)人才培養(yǎng)標準教育事業(yè)！

CDA報考指南

報考流程
考試時間
報名費用
聯(lián)系我們

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

京公網(wǎng)安備 11010802034615號經(jīng)營許可證編號：京B2-20210330

聯(lián)系電話：13321103290 (微信同號)

CDA教材
CDA題庫
CDA大綱

客服在線

立即咨詢

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊

') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進行初始化 // 參數(shù)1：配置參數(shù) // 參數(shù)2：回調(diào)，回調(diào)的第一個參數(shù)驗證碼對象，之后可以使用它調(diào)用相應的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須，不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式，包括：float，popup width: "280px", https: true // 更多配置參數(shù)說明請參見：http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'！'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'！'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

數(shù)據(jù)挖掘十大算法之CART詳解

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

【CDA干貨】LSTM 模型輸入長度選擇技巧：提升序列建 ...

CDA 數(shù)據(jù)分析師報考條件詳解與準備指南 ...

【CDA干貨】數(shù)據(jù)透視表中兩列相乘合計的實用指南 ...

CDA 認證考試大綱 2025 重磅更新：一二級考綱變化匯 ...

BI 大數(shù)據(jù)分析師：連接數(shù)據(jù)與業(yè)務的價值轉(zhuǎn)化者 ...

SQL 在預測分析中的應用：從數(shù)據(jù)查詢到趨勢預判 ...

數(shù)據(jù)查詢結(jié)束后：分析師的收尾工作與價值深化 ...

CDA 數(shù)據(jù)分析師考試：從報考到取證的全攻略 ...

【CDA干貨】單樣本趨勢性檢驗：捕捉數(shù)據(jù)背后的時間 ...

year_month數(shù)據(jù)類型：時間維度的精準切片 ...

CDA 備考干貨：Python 在數(shù)據(jù)分析中的核心應用與實 ...

【CDA干貨】SPSS 中的 Mann-Kendall 檢驗：數(shù)據(jù)趨勢 ...

備戰(zhàn) CDA 數(shù)據(jù)分析師考試：需要多久？如何規(guī)劃？ ...

【CDA干貨】LSTM 輸出不確定的成因、影響與應對策略 ...

統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用 ...

CDA數(shù)據(jù)分析師證書考試全攻略

剖析 CDA 數(shù)據(jù)分析師考試題型：解鎖高效備考與答題 ...

【CDA干貨】SQL Server 字符串截取轉(zhuǎn)日期：解鎖數(shù)據(jù) ...

CDA 數(shù)據(jù)分析師視角：從數(shù)據(jù)迷霧中探尋商業(yè)真相 ...

CDA 數(shù)據(jù)分析師：開啟數(shù)據(jù)職業(yè)發(fā)展新征程 ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

數(shù)據(jù)挖掘十大算法之CART詳解

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

【CDA干貨】LSTM 模型輸入長度選擇技巧：提升序列建 ...

CDA 數(shù)據(jù)分析師報考條件詳解與準備指南 ...

【CDA干貨】數(shù)據(jù)透視表中兩列相乘合計的實用指南 ...

CDA 認證考試大綱 2025 重磅更新：一二級考綱變化匯 ...

BI 大數(shù)據(jù)分析師：連接數(shù)據(jù)與業(yè)務的價值轉(zhuǎn)化者 ...

SQL 在預測分析中的應用：從數(shù)據(jù)查詢到趨勢預判 ...

數(shù)據(jù)查詢結(jié)束后：分析師的收尾工作與價值深化 ...

CDA 數(shù)據(jù)分析師考試：從報考到取證的全攻略 ...

【CDA干貨】單樣本趨勢性檢驗：捕捉數(shù)據(jù)背后的時間 ...

year_month數(shù)據(jù)類型：時間維度的精準切片 ...

CDA 備考干貨：Python 在數(shù)據(jù)分析中的核心應用與實 ...

【CDA干貨】SPSS 中的 Mann-Kendall 檢驗：數(shù)據(jù)趨勢 ...

備戰(zhàn) CDA 數(shù)據(jù)分析師考試：需要多久？如何規(guī)劃？ ...

【CDA干貨】LSTM 輸出不確定的成因、影響與應對策略 ...

統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用 ...

CDA數(shù)據(jù)分析師證書考試全攻略

剖析 CDA 數(shù)據(jù)分析師考試題型：解鎖高效備考與答題 ...

【CDA干貨】SQL Server 字符串截取轉(zhuǎn)日期：解鎖數(shù)據(jù) ...

CDA 數(shù)據(jù)分析師視角：從數(shù)據(jù)迷霧中探尋商業(yè)真相 ...

CDA 數(shù)據(jù)分析師：開啟數(shù)據(jù)職業(yè)發(fā)展新征程 ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

備戰(zhàn) CDA 數(shù)據(jù)分析師考試：需要多久？如何規(guī)劃？ ...

【CDA干貨】LSTM 輸出不確定的成因、影響與應對策略 ...