
數(shù)據(jù)挖掘十大算法之CART詳解
CART生成
CART假設決策樹是二叉樹,內(nèi)部結(jié)點特征的取值為“是”和“否”,左分支是取值為“是”的分支,右分支是取值為“否”的分支。這樣的決策樹等價于遞歸地二分每個特征,將輸入空間即特征空間劃分為有限個單元,并在這些單元上確定預測的概率分布,也就是在輸入給定的條件下輸出的條件概率分布。
CART算法由以下兩步組成:
決策樹生成:基于訓練數(shù)據(jù)集生成決策樹,生成的決策樹要盡量大;
決策樹剪枝:用驗證數(shù)據(jù)集對已生成的樹進行剪枝并選擇最優(yōu)子樹,這時損失函數(shù)最小作為剪枝的標準。
CART決策樹的生成就是遞歸地構(gòu)建二叉決策樹的過程。CART決策樹既可以用于分類也可以用于回歸。本文我們僅討論用于分類的CART。對分類樹而言,CART用Gini系數(shù)最小化準則來進行特征選擇,生成二叉樹。 CART生成算法如下:
輸入:訓練數(shù)據(jù)集D,停止計算的條件:
輸出:CART決策樹。
根據(jù)訓練數(shù)據(jù)集,從根結(jié)點開始,遞歸地對每個結(jié)點進行以下操作,構(gòu)建二叉決策樹:
設結(jié)點的訓練數(shù)據(jù)集為D,計算現(xiàn)有特征對該數(shù)據(jù)集的Gini系數(shù)。此時,對每一個特征A,對其可能取的每個值a,根據(jù)樣本點對A=a的測試為“是”或 “否”將D分割成D1和D2兩部分,計算A=a時的Gini系數(shù)。
在所有可能的特征A以及它們所有可能的切分點a中,選擇Gini系數(shù)最小的特征及其對應的切分點作為最優(yōu)特征與最優(yōu)切分點。依最優(yōu)特征與最優(yōu)切分點,從現(xiàn)結(jié)點生成兩個子結(jié)點,將訓練數(shù)據(jù)集依特征分配到兩個子結(jié)點中去。
對兩個子結(jié)點遞歸地調(diào)用步驟l~2,直至滿足停止條件。
生成CART決策樹。
算法停止計算的條件是結(jié)點中的樣本個數(shù)小于預定閾值,或樣本集的Gini系數(shù)小于預定閾值(樣本基本屬于同一類),或者沒有更多特征。
一個具體的例子
下面來看一個具體的例子。我們使用《數(shù)據(jù)挖掘十大算法之決策樹詳解(1)》中圖4-6所示的數(shù)據(jù)集來作為示例,為了便于后面的敘述,我們將其再列出如下:
首先對數(shù)據(jù)集非類標號屬性{是否有房,婚姻狀況,年收入}分別計算它們的Gini系數(shù)增益,取Gini系數(shù)增益值最大的屬性作為決策樹的根節(jié)點屬性。根節(jié)點的Gini系數(shù)
當根據(jù)是否有房來進行劃分時,Gini系數(shù)增益計算過程為
若按婚姻狀況屬性來劃分,屬性婚姻狀況有三個可能的取值{married,single,divorced},分別計算劃分后的
{married} | {single,divorced}
{single} | {married,divorced}
{divorced} | {single,married}
的Gini系數(shù)增益。
當分組為{married} | {single,divorced}時,Sl表示婚姻狀況取值為married的分組,Sr表示婚姻狀況取值為single或者divorced的分組
對比計算結(jié)果,根據(jù)婚姻狀況屬性來劃分根節(jié)點時取Gini系數(shù)增益最大的分組作為劃分結(jié)果,也就是{married} | {single,divorced}。
最后考慮年收入屬性,我們發(fā)現(xiàn)它是一個連續(xù)的數(shù)值類型。我們在前面的文章里已經(jīng)專門介紹過如何應對這種類型的數(shù)據(jù)劃分了。對此還不是很清楚的朋友可以參考之前的文章,這里不再贅述。
對于年收入屬性為數(shù)值型屬性,首先需要對數(shù)據(jù)按升序排序,然后從小到大依次用相鄰值的中間值作為分隔將樣本劃分為兩組。例如當面對年收入為60和70這兩個值時,我們算得其中間值為65。倘若以中間值65作為分割點。Sl作為年收入小于65的樣本,Sr表示年收入大于等于65的樣本,于是則得Gini系數(shù)增益為
其他值的計算同理可得,我們不再逐一給出計算過程,僅列出結(jié)果如下(最終我們?nèi)∑渲惺沟迷鲆孀畲蠡哪莻€二分準則來作為構(gòu)建二叉樹的準則):
注意,這與我們之前在《數(shù)據(jù)挖掘十大算法之決策樹詳解(1)》中得到的結(jié)果是一致的。最大化增益等價于最小化子女結(jié)點的不純性度量(Gini系數(shù))的加權(quán)平均值,之前的表里我們列出的是Gini系數(shù)的加權(quán)平均值,現(xiàn)在的表里給出的是Gini系數(shù)增益?,F(xiàn)在我們希望最大化Gini系數(shù)的增益。根據(jù)計算知道,三個屬性劃分根節(jié)點的增益最大的有兩個:年收入屬性和婚姻狀況,他們的增益都為0.12。此時,選取首先出現(xiàn)的屬性作為第一次劃分。
接下來,采用同樣的方法,分別計算剩下屬性,其中根節(jié)點的Gini系數(shù)為(此時是否拖欠貸款的各有3個records)
與前面的計算過程類似,對于是否有房屬性,可得
對于年收入屬性則有:
最后我們構(gòu)建的CART如下圖所示:
最后我們總結(jié)一下,CART和C4.5的主要區(qū)別:
C4.5采用信息增益率來作為分支特征的選擇標準,而CART則采用Gini系數(shù);
C4.5不一定是二叉樹,但CART一定是二叉樹。
決策樹很容易發(fā)生過擬合,也就是由于對train數(shù)據(jù)集適應得太好,反而在test數(shù)據(jù)集上表現(xiàn)得不好。這個時候我們要么是通過閾值控制終止條件避免樹形結(jié)構(gòu)分支過細,要么就是通過對已經(jīng)形成的決策樹進行剪枝來避免過擬合。另外一個克服過擬合的手段就是基于Bootstrap的思想建立隨機森林(Random Forest)。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03