
“決策樹”——數(shù)據(jù)挖掘、數(shù)據(jù)分析
決策樹是一個預(yù)測模型;他代表的是對象屬性與對象值之間的一種映射關(guān)系。樹中每個節(jié)點(diǎn)表示某個對象,而每個分叉路徑則代表的某個可能的屬性值,而每個葉結(jié)點(diǎn)則對應(yīng)從根節(jié)點(diǎn)到該葉節(jié)點(diǎn)所經(jīng)歷的路徑所表示的對象的值。決策樹僅有單一輸出,若欲有復(fù)數(shù)輸出,可以建立獨(dú)立的決策樹以處理不同輸出。 決策樹的實(shí)現(xiàn)首先要有一些先驗(yàn)(已經(jīng)知道結(jié)果的歷史)數(shù)據(jù)做訓(xùn)練,通過分析訓(xùn)練數(shù)據(jù)得到每個屬性對結(jié)果的影響的大小,這里我們通過一種叫做信息增益的理論去描述它,期間也涉及到熵的概念。數(shù)據(jù)挖掘中決策樹是一種經(jīng)常要用到的技術(shù),可以用于分析數(shù)據(jù),同樣也可以用來作預(yù)測(就像上面的銀行官員用他來預(yù)測貸款風(fēng)險)。
從數(shù)據(jù)產(chǎn)生決策樹的機(jī)器學(xué)習(xí)技術(shù)叫做決策樹學(xué)習(xí), 通俗說就是決策樹。
一個決策樹包含三種類型的節(jié)點(diǎn): 1.決策節(jié)點(diǎn)——通常用矩形框來表式 2.機(jī)會節(jié)點(diǎn)——通常用圓圈來表式 3.終結(jié)點(diǎn)——通常用三角形來表示
決策樹學(xué)習(xí)也是資料探勘中一個普通的方法。在這里,每個決策樹都表述了一種樹型結(jié)構(gòu),它由它的分支來對該類型的對象依靠屬性進(jìn)行分類。每個決策樹可以依靠對源數(shù)據(jù)庫的分割進(jìn)行數(shù)據(jù)測試。這個過程可以遞歸式的對樹進(jìn)行修剪。 當(dāng)不能再進(jìn)行分割或一個單獨(dú)的類可以被應(yīng)用于某一分支時,遞歸過程就完成了。另外,隨機(jī)森林分類器將許多決策樹結(jié)合起來以提升分類的正確率。
優(yōu)點(diǎn):
1) 可以生成可以理解的規(guī)則;
2) 計算量相對來說不是很大;
3) 可以處理連續(xù)和種類字段;
缺點(diǎn):
1) 對連續(xù)性的字段比較難預(yù)測;
2) 對有時間順序的數(shù)據(jù),需要很多預(yù)處理的工作;
3) 當(dāng)類別太多時,錯誤可能就會增加的比較快;
4) 一般的算法分類的時候,只是根據(jù)一個字段來分類。
科學(xué)的決策是現(xiàn)代管理者的一項重要職責(zé)。我們在企業(yè)管理實(shí)踐中,常遇到的情景是:若干個可行性方案制訂出來了,分析一下企業(yè)內(nèi)、外部環(huán)境,大部分條件是己知的,但還存在一定的不確定因素。每個方案的執(zhí)行都可能出現(xiàn)幾種結(jié)果,各種結(jié)果的出現(xiàn)有一定的概率,企業(yè)決策存在著一定的勝算,也存在著一定的風(fēng)險。這時,決策的標(biāo)準(zhǔn)只能是期望值。即,各種狀態(tài)下的加權(quán)平均值。
針對上述問題,用決策樹法來解決不失為一種好的選擇。
決策樹法作為一種決策技術(shù),已被廣泛地應(yīng)用于企業(yè)的投資決策之中,它是隨機(jī)決策模型中最常見、最普及的一種規(guī)策模式和方法此方法,有效地控制了決策帶來的風(fēng)險。所謂決策樹法,就是運(yùn)用樹狀圖表示各決策的期望值,通過計算,最終優(yōu)選出效益最大、成本最小的決策方法。決策樹法屬于風(fēng)險型決策方法,不同于確定型決策方法,二者適用的條件也不同。應(yīng)用決策樹決策方法必須具備以下條件:
①具有決策者期望達(dá)到的明確目標(biāo);
?、诖嬖跊Q策者可以選擇的兩個以上的可行備選方案;
?、啻嬖谥鴽Q策者無法控制的兩種以上的自然狀態(tài)(如氣候變化、市場行情、經(jīng)濟(jì)發(fā)展動向等);
④不同行動方案在不同自然狀態(tài)下的收益值或損失值(簡稱損益值)可以計算出來;
⑤決策者能估計出不同的自然狀態(tài)發(fā)生概率。
決策樹法的決策程序如下:
(1)繪制樹狀圖,根據(jù)已知條件排列出各個方案和每一方案的各種自然狀態(tài)。
(2)將各狀態(tài)概率及損益值標(biāo)于概率枝上。
(3)計算各個方案期望值并將其標(biāo)于該方案對應(yīng)的狀態(tài)結(jié)點(diǎn)上。
(4)進(jìn)行剪枝,比較各個方案的期望值,并標(biāo)于方案枝上,將期望值小的(即劣等方案剪掉)所剩的最后方案為最佳方案。
決策樹法在企業(yè)決策中有著廣泛的應(yīng)用。下面舉一實(shí)例說明其應(yīng)用。某企業(yè)在下年度有甲、乙兩種產(chǎn)品方案可供選擇。每種方案都面I臨滯銷、一般、和暢銷三種市場狀態(tài)。各狀態(tài)的概率和損益值如下:
根據(jù)給出的條件運(yùn)用決策樹法選擇一個最佳決策方案。
解題方法如下:
由此可以看出,決策樹法的決策過程就是利用了概率論的原理,并且利用一種樹形圖作為分析工具。其基本原理是用決策點(diǎn)代表決策問題,用方案分枝代表可供選擇的方案,用概率分枝代表方案可能出現(xiàn)的各種結(jié)果,經(jīng)過對各種方案在各種結(jié)果條件下?lián)p益值的計算比較,為決策者提供決策依據(jù)。
從以上介紹可以看出決策樹法具有許多優(yōu)點(diǎn):條理清晰,程序嚴(yán)嚴(yán)謹(jǐn),定量、定性分析相結(jié)合,方法簡單,易于掌握,應(yīng)用性強(qiáng),適用范圍廣等。人們逐漸認(rèn)識到,在投資方案比較選擇時考慮時間因素,建立時間可比原則和條件的重要性。當(dāng)今的社會經(jīng)濟(jì)活動中,競爭日趨激烈,現(xiàn)代企業(yè)的經(jīng)營方向面臨著許多可供選擇的方案,如何用最少的資源,贏得最大的利潤以及最大限度地降低企業(yè)的經(jīng)營風(fēng)險,是企業(yè)決策者經(jīng)常面對的決策問題,決策樹法能簡單明了地幫助企業(yè)決策層分析企業(yè)的經(jīng)營風(fēng)險和經(jīng)營方向。必然地,隨著經(jīng)濟(jì)的不斷發(fā)展,企業(yè)需要做出決策的數(shù)量會不斷地增加,而決策質(zhì)量的提高取決于決策方法的科學(xué)化。企業(yè)的決策水平提高了,企業(yè)的管理水平就一定會提高。
西蒙說:管理就是決策。
決策樹是確定生產(chǎn)能力方案的一條簡捷的途徑。決策樹不僅可以幫助人們理解問題,還可以幫助人們解決問題。決策樹是一種通過圖示羅列解題的有關(guān)步驟以及各步驟發(fā)生的條件與結(jié)果的一種方法。近年來出現(xiàn)的許多專門軟件包可以用來建立和分析決策樹,利用這些專門軟件包,解決問題就變得更為簡便了。
決策樹由決策結(jié)點(diǎn)、機(jī)會結(jié)點(diǎn)與結(jié)點(diǎn)間的分枝連線組成。通常,人們用方框表示決策結(jié)點(diǎn),用圓圈表示機(jī)會結(jié)點(diǎn),從決策結(jié)點(diǎn)引出的分枝連線表示決策者可作出的選擇,從機(jī)會結(jié)點(diǎn)引出的分枝連線表示機(jī)會結(jié)點(diǎn)所示事件發(fā)生的概率。
在利用決策樹解題時,應(yīng)從決策樹末端起,從后向前,步步推進(jìn)到決策樹的始端。在向前推進(jìn)的過程中,應(yīng)在每一階段計算事件發(fā)生的期望值。需特別注意:如果決策樹所處理問題的計劃期較長,計算時應(yīng)考慮資金的時間價值。
計算完畢后,開始對決策樹進(jìn)行剪枝,在每個決策結(jié)點(diǎn)刪去除了最高期望值以外的其他所有分枝,最后步步推進(jìn)到第一個決策結(jié)點(diǎn),這時就找到了問題的最佳方案。
下面以南方醫(yī)院供應(yīng)公司為例,看一看如何利用決策樹作出合適的生產(chǎn)能力計劃。
南方醫(yī)院供應(yīng)公司是一家制造醫(yī)護(hù)人員的工裝大褂的公司。該公司正在考慮擴(kuò)大生產(chǎn)能力。它可以有以下幾個選擇:1、什么也不做;2、建一個小廠;3、建一個中型廠;4、建一個大廠。新增加的設(shè)備將生產(chǎn)一種新型的大褂,目前該產(chǎn)品的潛力或市場還是未知數(shù)。如果建一個大廠且市場較好就可實(shí)現(xiàn)$100,000的利潤。如果市場不好則會導(dǎo)致$90,000的損失。但是,如果市場較好,建中型廠將會獲得$ 60,000,小型廠將會獲得$40,000,市場不好則建中型廠將會損失$10,000,小型廠將會損失$5,000。當(dāng)然,還有一個選擇就是什么也不干。最近的市場研究表明市場好的概率是0.4,也就是說市場不好的概率是0.6。參下圖:
在這些數(shù)據(jù)的基礎(chǔ)上,能產(chǎn)生最大的預(yù)期貨幣價值(EMV)的選擇就可找到。
EMV(建大廠)=(0.4)*($100,000)+(0.6)*(-$90,000)=-$14,000
EMV(中型廠)=(0.4) *($ 600,000))+(0.6)* (-$10,000)=+$18,000
EMV(建小廠)=(0.4)* ($40,000)+(0.6)*(-$5,000)=+$13,000
EMV(不建廠)=$0
根據(jù)EMV標(biāo)準(zhǔn),南方公司應(yīng)該建一個中型廠。
施工企業(yè)在同一時期內(nèi)有多個工程項目可以參加投標(biāo),由于本企業(yè)資源條件有限,不可能將這些項目都承包下來,這類問題可用分析風(fēng)險決策的決策樹法來進(jìn)行定量分析。
繪制方法
1.先畫一個方框作為出發(fā)點(diǎn),這個方框又稱為決策點(diǎn)
2.從決策點(diǎn)向右引出若干根直線或折線每根直線或折線代表一個方案,這些直線或折線稱為方案枝
3.每個方案枝的彩A畫,個圓圈,這個圓圈稱為概率分叉點(diǎn),也稱為自然狀態(tài)點(diǎn)
4.從自然狀態(tài)點(diǎn)引出若干根直線或折代表各自然狀態(tài)的分枝這些直線或折線稱為概率分枝
5.在概率分枝的AFaM標(biāo)明各自然狀態(tài)的損益值
決策樹的分析最佳方案過程是比較各方案的損益值哪個方案的期望值最大則該方案為最佳方案
【例】某市屬建筑公司面臨A, B兩項工程。因受本單位資源條件限制,只能選擇其中一項工程投標(biāo)或者這兩項過程均不參加投標(biāo)。根據(jù)過去類似工程投標(biāo)的經(jīng)驗(yàn)數(shù)據(jù),A工程投高標(biāo)的中標(biāo)概率為0.3,投低標(biāo)的中標(biāo)概率為0.8,編制該工程投標(biāo)文件的費(fèi)用為4萬元;B工程投高標(biāo)的中標(biāo)概率為0.5,投低標(biāo)的中標(biāo)概率為0.6,編制該工程投標(biāo)文件的費(fèi)用為2.5 萬元各方案承包的效果、概率、損益值如表1所示
計算決策樹上各機(jī)會點(diǎn)的期望值,并將計算出來的期望值標(biāo)注在各機(jī)會點(diǎn)上方
機(jī)會點(diǎn)⑦: 180×0.3 + 120×0.5+ 60×0.2= 126
機(jī)會點(diǎn)②: 126×0.3 - 4×0.7=35
機(jī)會點(diǎn)⑧: 125×0.2+ 75×0.7 + 0×0.1=77.5
機(jī)會點(diǎn)③: 77.5×0.8- 4×0.2 = 61.2
機(jī)會點(diǎn)⑨: 115×0.4 + 75×0.5 + 40×0.1 = 87.5
機(jī)會點(diǎn)④: 87.5×0.5- 2.5×0.5 = 42.5
機(jī)會點(diǎn)⑩: 90×0.2 + 40×0.5 - 20×0.3 =32
機(jī)會點(diǎn)⑤: 32×0.6- 2.5×0.4=18
機(jī)會點(diǎn)⑥: 0
選擇最佳方案
方案枝上機(jī)會點(diǎn)③的期望值(61.2)最大方案(A低標(biāo)) 為最佳方案,該施工企業(yè)應(yīng)對A工程投低標(biāo)。
利用excel研究決策樹
今天隨便瀏覽微博,突然發(fā)現(xiàn)Excel也能做決策樹。立刻凌亂了。本人真是見識淺薄了。隨即百度了一下,下了一個決策樹的加載項,也就是宏,然后試著運(yùn)行了一下。發(fā)現(xiàn)感覺還可以,雖然比起R,spss的決策樹過程稍微復(fù)雜點(diǎn),但是還是很靠譜的。你完全懂得樹是如何生成的,挺靠譜的。有人說決策樹是白箱,有人說是灰箱,不同的軟件實(shí)現(xiàn)過程有點(diǎn)差別。
R做決策樹的包是基于Breiman(名字沒拼錯吧)的那本《regression tree and decision tree》,具體的可以參考手冊,R的特點(diǎn)就是事先數(shù)據(jù)準(zhǔn)備好,然后按照規(guī)定的數(shù)據(jù)結(jié)構(gòu)輸入,調(diào)用函數(shù),設(shè)置參數(shù)即可。
spss也是類似,只不過spss的算法選擇沒有R的包那么多。
excel完全是自己按照數(shù)據(jù)來畫一棵決策樹,自己控制樹的生長,是一種不同的體驗(yàn)。首先下載treeplan宏,加載之后,點(diǎn)擊生成一棵新樹。然后根據(jù)數(shù)據(jù)的實(shí)際情況,把相應(yīng)的節(jié)點(diǎn)改變?yōu)楦?jié)點(diǎn),再生成新樹枝。這個宏的選項還不是很多,但是對于一般商業(yè)用的數(shù)據(jù)挖掘我感覺是夠用了。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10