99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
2018-10-23 閱讀量: 1016
決策樹(shù)的特性?

決策樹(shù)基于樹(shù)結(jié)構(gòu)進(jìn)行決策,與人類在面臨問(wèn)題的時(shí)候處理機(jī)制十分類似。其特點(diǎn)在于需要選擇一個(gè)屬性進(jìn)行分支,在分支的過(guò)程中選擇信息增益最大的屬性。 在劃分中我們希望決策樹(shù)的分支節(jié)點(diǎn)所包含的樣本屬于同一類別,即節(jié)點(diǎn)的純度越來(lái)越高。決策樹(shù)計(jì)算量簡(jiǎn)單,可解釋性強(qiáng),比較適合處理有缺失屬性值的樣本,能夠處理不相關(guān)的特征,但是容易過(guò)擬合,需要使用剪枝或者隨機(jī)森林。 信息增益是熵減去條件熵,代表信息不確定性較少的程度,信息增益越大,說(shuō)明不確定性降低的越大,因此說(shuō)明該特征對(duì)分類來(lái)說(shuō)很重要。由于信息增益準(zhǔn)則會(huì)對(duì)數(shù)目較多的屬性有所偏好,因此一般用信息增益率。其中分母可以看作為屬性自身的熵。取值可能性越多,屬性的熵越大。

Cart決策樹(shù)使用基尼指數(shù)來(lái)選擇劃分屬性,直觀的來(lái)說(shuō),Gini(D)反映了從數(shù)據(jù)集D中隨機(jī)抽取兩個(gè)樣本,其類別標(biāo)記不一致的概率,因此基尼指數(shù)越小數(shù)據(jù)集D的純度越高,一般為了防止過(guò)擬合要進(jìn)行剪枝,有預(yù)剪枝和后剪枝,一般用cross validation集進(jìn)行剪枝。

連續(xù)值和缺失值的處理,對(duì)于連續(xù)屬性a,將a在D上出現(xiàn)的不同的取值進(jìn)行排序,基于劃分點(diǎn)t將D分為兩個(gè)子集。一般對(duì)每一個(gè)連續(xù)的兩個(gè)取值的中點(diǎn)作為劃分點(diǎn),然后根據(jù)信息增益選擇最大的。與離散屬性不同,若當(dāng)前節(jié)點(diǎn)劃分屬性為連續(xù)屬性,該屬性還可以作為其后代的劃分屬性。

0.0000
3
關(guān)注作者
收藏
評(píng)論(0)

發(fā)表評(píng)論

暫無(wú)數(shù)據(jù)
推薦帖子