2020-06-18
閱讀量:
2948
決策樹(shù)中經(jīng)常用熵作為判別條件而不是基尼不純度?基尼不純度是什么?
絕大部分情況下熵(entropy)和基尼指數(shù)(Gini Index)在決策樹(shù)節(jié)點(diǎn)分裂時(shí)做出的決策都是等價(jià)的。
先看一下如何定義節(jié)點(diǎn)分裂時(shí)的不純度函數(shù)(impurity)有三種(假設(shè)有k個(gè)類(lèi)別):

不難看出,三個(gè)函數(shù)均為凸函數(shù)。只不過(guò)誤分率(函數(shù)1)是分段線性函數(shù)(piece-wise linear),有時(shí)候節(jié)點(diǎn)分裂會(huì)無(wú)法降低不純度。所以函數(shù)2和3一般是常采用的手段,它們的優(yōu)勢(shì)如下:
- 二者均為凸函數(shù)
- 二者都可以微分所以便于數(shù)值計(jì)算
- 二者都可以代表的函數(shù)1的誤差上界(upper bound)
正因?yàn)樗鼈兌际枪饣购瘮?shù)且為訓(xùn)練誤分函數(shù)的錯(cuò)誤上界,所以不僅保證了每次節(jié)點(diǎn)分裂整體的不純度函數(shù)會(huì)下降且更適合運(yùn)算。在絕大部分情況下,二者都是等價(jià)的,只有2%的情況下可能會(huì)有不同的分裂決策。如果非要說(shuō)不同的話,就是熵的計(jì)算會(huì)需要求log,所以可能預(yù)算開(kāi)銷(xiāo)更大。但是求log是防止計(jì)算溢出的利器,特別適合用于處理極小概率的情況,所以并非只有缺點(diǎn)。






評(píng)論(0)


暫無(wú)數(shù)據(jù)
CDA考試動(dòng)態(tài)
CDA報(bào)考指南
推薦帖子
0條評(píng)論
0條評(píng)論
0條評(píng)論