99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
2018-11-22 閱讀量: 1581
隨機(jī)森林有什么作用?

已知樹模型是高方差,低偏差模型。結(jié)果,他們傾向于過度擬合訓(xùn)練數(shù)據(jù)。如果我們重新概述樹模型的作用,如果我們不修剪它或引入早期停止標(biāo)準(zhǔn),如每個(gè)葉節(jié)點(diǎn)的最小實(shí)例數(shù),那么這是很吸引人的。好吧,它嘗試沿著要素分割數(shù)據(jù),直到實(shí)例純粹關(guān)于目標(biāo)要素的值,沒有剩余數(shù)據(jù),或者沒有剩余的要素來吐出數(shù)據(jù)集。如果以上之一成立,我們會(huì)生成一個(gè)葉節(jié)點(diǎn)。結(jié)果是樹模型生長到最大深度,并且試圖盡可能精確地重塑訓(xùn)練數(shù)據(jù),這很容易導(dǎo)致過度擬合。像(ID3或CART)這樣的經(jīng)典樹模型的另一個(gè)缺點(diǎn)是它們相對不穩(wěn)定。

例如,考慮使用分類縮放的特征* A *作為“根節(jié)點(diǎn)特征”的情況。接下來,此功能將從子樹中不再存在的數(shù)據(jù)集中替換?,F(xiàn)在想象一下我們替換數(shù)據(jù)集中的單行的情況,這種變化導(dǎo)致現(xiàn)在特征* B *分別具有最大信息增益或方差減少的情況。那是什么意思?好吧,功能* B *現(xiàn)在優(yōu)于功能* A *作為“根節(jié)點(diǎn)功能”,這導(dǎo)致完全不同的樹,因?yàn)槲覀円呀?jīng)更改了數(shù)據(jù)集中的單個(gè)實(shí)例。這種情況不僅可能發(fā)生在根節(jié)點(diǎn),也可能發(fā)生在樹的所有內(nèi)部節(jié)點(diǎn)。

隨機(jī)森林方法基于兩個(gè)概念,稱為裝袋和子空間采樣。Bagging是* bootstrap聚合*的簡短形式。在這里,我們創(chuàng)建了大量數(shù)據(jù)集,其長度與從原始數(shù)據(jù)集中取出的原始數(shù)據(jù)集相同(包裝中的* bootstrap *)。然后,我們?yōu)槊總€(gè)自舉數(shù)據(jù)集訓(xùn)練一個(gè)樹模型,并將這些模型的多數(shù)預(yù)測作為我們的預(yù)測(套袋中的*聚合*)用于看不見的查詢實(shí)例。這里我們采用回歸樹模型的均值或中位數(shù)以及分類樹模型的模式。

你可能會(huì)問我們?yōu)槭裁匆锰鎿Q樣品來抽樣?好吧,讓我們假設(shè)我們的原始數(shù)據(jù)集有100個(gè)實(shí)例(行),我們想要?jiǎng)?chuàng)建一個(gè)由10棵樹組成的隨機(jī)森林模型,其中每棵樹都在與原始數(shù)據(jù)集相同長度的數(shù)據(jù)集上進(jìn)行訓(xùn)練。如果我們現(xiàn)在從原始數(shù)據(jù)集中抽取100個(gè)樣本而不進(jìn)行替換,會(huì)發(fā)生什么?確切地說,沒有什么,因?yàn)槲覀儽扔髡f簡單地將數(shù)據(jù)集從一個(gè)容器轉(zhuǎn)移到另一個(gè)容器。如果我們這樣做10次并在每個(gè)數(shù)據(jù)集上訓(xùn)練一個(gè)樹模型,我們將獲得完全相同數(shù)據(jù)集的10倍(假設(shè)相同的模型參數(shù))。如果我們現(xiàn)在預(yù)測一個(gè)看不見的查詢實(shí)例并對10個(gè)樹模型的結(jié)果進(jìn)行平均,即運(yùn)行隨機(jī)森林程序,我們就沒有任何好處。這讓我們回到最初的問題,為什么我們使用套袋方法?我們使用套袋方法(記住重新采樣),因?yàn)槲覀冎绬蝹€(gè)樹模型對數(shù)據(jù)的變化非常敏感并且具有很大的差異。為解決此問題,我們在不同組合的數(shù)據(jù)集上創(chuàng)建多個(gè)模型,并獲取其預(yù)測的平均值。在這里,我們應(yīng)用這樣的原則:平均多個(gè)模型的方差可以減少方差。

0.0000
3
關(guān)注作者
收藏
評論(0)

發(fā)表評論

暫無數(shù)據(jù)
推薦帖子