
多變量分析:分類決策樹CHAID&CRT
今天我們來說說分類決策樹的應(yīng)用和操作!主要包括CHAID&CRT,是非常好用和有價(jià)值的多變量分析技術(shù),
CHAID——Chi-squared Automatic Interaction Detector卡方自交互偵測決策樹
CRT——Classification Regression Tree分類回歸樹;
CHAID和CART是最有名的分類樹方法,主要用于預(yù)測和分類。在市場研究中經(jīng)常用于市場細(xì)分和客戶促銷研究,屬于監(jiān)督類分析技術(shù)。其中,樹根節(jié)點(diǎn)是獨(dú)立變量-因變量,例如:使用水平、購買傾向、用戶或非用戶、客戶類型、套餐類別、細(xì)分類別等。子節(jié)點(diǎn)基于獨(dú)立變量和其他分類變量(父節(jié)點(diǎn)),按照卡方顯著性不斷劃分或組合為樹狀結(jié)構(gòu)。預(yù)測變量一般也是非數(shù)量型的分類變量。
CHAID最常用,但獨(dú)立變量只能是分類變量,也就是離散性的,CRT可以處理數(shù)量型變量,有時(shí)候二者結(jié)合使用。CHAID和CRT都可以處理非數(shù)量型和定序性變量。
分類樹方法產(chǎn)生真實(shí)的細(xì)分類別,這種類是基于一個(gè)獨(dú)立變量得到的一種規(guī)則和細(xì)分市場。也就是說,每一個(gè)樹葉都是一個(gè)細(xì)分市場。
下面我們通過一個(gè)案例來操作SPSS軟件的分類決策樹模塊
假設(shè)我們有一個(gè)移動(dòng)業(yè)務(wù)數(shù)據(jù),包含有客戶的性別、年齡、語音費(fèi)用、數(shù)據(jù)費(fèi)用、客戶等級(jí)、支付方式和促銷套餐變量。我們現(xiàn)在期望能夠得到針對(duì)不同的促銷套餐來分析“客戶畫像”,這樣有利于針對(duì)性的促銷!也就是不同套餐客戶特征描述!
因變量是促銷套餐,其它是預(yù)測變量或自變量!
我們看到,首先要求我們定義變量的測量等級(jí)并定義好變量變標(biāo)和值標(biāo)!因?yàn)椋珻HAID和CRT具有智能特性,也就是自交互檢驗(yàn)和自回歸能力,所以對(duì)變量測量尺度要求嚴(yán)格!
為什么說變量測量等級(jí)重要呢?例如,我們有個(gè)變量叫學(xué)歷(1-初中、2-高中、3-大專、4-本科、5-碩士以上),如果我們?cè)O(shè)定為定序變量,則決策樹可以自動(dòng)組合分類,但無論如何都是順序組合,也就是說可能(1-初中、2-高中、3-大專)為一類,(4-本科、5-碩士以上)為一類,但絕對(duì)不會(huì)把1和5合并一類;如果我們定義為名義變量,則可以任意學(xué)歷組合為某類了!
基本原理:基于目標(biāo)變量(獨(dú)立變量)自我分層的樹狀結(jié)構(gòu),根結(jié)點(diǎn)是因變量,預(yù)測變量根據(jù)卡方顯著性程度不斷自動(dòng)生成父節(jié)點(diǎn)和子節(jié)點(diǎn),卡方顯著性越高,越先成為預(yù)測根結(jié)點(diǎn)的變量,程序自動(dòng)歸并預(yù)測變量的不同類,使之成為卡方顯著性。程序根據(jù)預(yù)先設(shè)定的樹狀水平數(shù)停止。最后每一個(gè)葉結(jié)點(diǎn)就是一個(gè)細(xì)分市場。當(dāng)預(yù)測變量較多且都是分類變量時(shí),CHAID分類最適宜。
預(yù)測變量大部分都是人口統(tǒng)計(jì)資料,使研究者很快就可以找出不同細(xì)分市場特征。傳統(tǒng)的交互分析對(duì)多維交叉表和歸并類是一項(xiàng)繁重的工作。
首先,我們確定因變量后,放入其它自變量。接下來,我們要選擇CHAID的驗(yàn)證和條件參數(shù)!一般來講:我們主要設(shè)定父節(jié)點(diǎn)和子節(jié)點(diǎn)的數(shù)量,以及規(guī)定樹狀結(jié)構(gòu)的水平數(shù),如何生長!分類樹將根據(jù)設(shè)定參數(shù)決定樹的增長和停止!通常,我們考察總的樣本量大小,父節(jié)點(diǎn)是子節(jié)點(diǎn)的兩倍,當(dāng)然如果設(shè)定的太小,樹會(huì)非常茂盛,得到很多非常小的細(xì)分市場,可能沒有實(shí)際營銷意義!樹的水平數(shù)也是同樣道理!
其它還有很多參數(shù)可以設(shè)定,比如分割樣本,錯(cuò)誤分類成本,利潤等,分類決策樹可以直接輸出結(jié)果和SPSS語法或SQL語法規(guī)則?。裕?/span>
因?yàn)闃浔容^大,看不清楚,我們需要在樹查看器中分析!
從查看器中我們可以看到,客戶等級(jí)最顯著,也最重要,首先跑上來!針對(duì)低端客戶,賬單支付方式重要,對(duì)于預(yù)付話費(fèi)的人來講,數(shù)據(jù)業(yè)務(wù)小于50.73的主要是Y類套餐!這樣我們就可以看到這個(gè)類別的特征了!
最后的分類預(yù)測正確分類84.4%。
下面是生成的SQL語法規(guī)則:
UPDATE <TABLE>
SET nod_001 = 4, pre_001 = 5, prb_001 = 0.974026
WHERE ((客戶等級(jí) IS NULL) OR 客戶等級(jí) <> 2 AND 客戶等級(jí) <> 3) AND ((數(shù)據(jù)業(yè)務(wù) IS NULL) OR (數(shù)據(jù)業(yè)務(wù) <= 38.754));
我們可以把語法規(guī)則嵌入在分析系統(tǒng)中就可以實(shí)現(xiàn)商業(yè)智能和營銷了!
當(dāng)然,CRT基本方法和解讀方式都是一樣的!
總結(jié):CHAID和CRT基本操作過程
指定CHAID或CRT分類樹
規(guī)定目標(biāo)變量和預(yù)測變量
設(shè)定預(yù)測變量的測量等級(jí),非數(shù)量型變量也可預(yù)先合并分類。
規(guī)定樹狀結(jié)構(gòu)的水平數(shù)。
指定節(jié)點(diǎn)包含的最小樣本數(shù)量。
自動(dòng)生成分類樹。
考察分類樹的結(jié)構(gòu)。
分析Gain Table.
分析錯(cuò)誤分類風(fēng)險(xiǎn)比。
重新設(shè)定分類樹參數(shù)。
生成SQL語言,SPSS規(guī)則語法將樣本歸類。
分類決策樹因?yàn)榫哂凶詣?dòng)偵測的智能特點(diǎn),所以在數(shù)據(jù)分析時(shí),特別是多變量分析中就不再喜歡用傳統(tǒng)的交互分析了,因?yàn)橛肅HAID和CRT方便多了!
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03