99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
2018-10-23 閱讀量: 975
決策樹的特性?

決策樹基于樹結(jié)構(gòu)進行決策,與人類在面臨問題的時候處理機制十分類似。其特點在于需要選擇一個屬性進行分支,在分支的過程中選擇信息增益最大的屬性。 在劃分中我們希望決策樹的分支節(jié)點所包含的樣本屬于同一類別,即節(jié)點的純度越來越高。決策樹計算量簡單,可解釋性強,比較適合處理有缺失屬性值的樣本,能夠處理不相關(guān)的特征,但是容易過擬合,需要使用剪枝或者隨機森林。 信息增益是熵減去條件熵,代表信息不確定性較少的程度,信息增益越大,說明不確定性降低的越大,因此說明該特征對分類來說很重要。由于信息增益準則會對數(shù)目較多的屬性有所偏好,因此一般用信息增益率。其中分母可以看作為屬性自身的熵。取值可能性越多,屬性的熵越大。

Cart決策樹使用基尼指數(shù)來選擇劃分屬性,直觀的來說,Gini(D)反映了從數(shù)據(jù)集D中隨機抽取兩個樣本,其類別標記不一致的概率,因此基尼指數(shù)越小數(shù)據(jù)集D的純度越高,一般為了防止過擬合要進行剪枝,有預(yù)剪枝和后剪枝,一般用cross validation集進行剪枝。

連續(xù)值和缺失值的處理,對于連續(xù)屬性a,將a在D上出現(xiàn)的不同的取值進行排序,基于劃分點t將D分為兩個子集。一般對每一個連續(xù)的兩個取值的中點作為劃分點,然后根據(jù)信息增益選擇最大的。與離散屬性不同,若當前節(jié)點劃分屬性為連續(xù)屬性,該屬性還可以作為其后代的劃分屬性。

0.0000
3
關(guān)注作者
收藏
評論(0)

發(fā)表評論

暫無數(shù)據(jù)
推薦帖子