2018-10-25
閱讀量:
1786
隨機(jī)森林的優(yōu)點(diǎn)和缺點(diǎn)
隨機(jī)森林(Random Forest)是屬于集成學(xué)習(xí)的一種組合分類算法(確切說是屬于bagging),集成學(xué)習(xí)的核心思想就是將若干個(gè)弱(基)分類器組合起來,得到一個(gè)分類性能顯著優(yōu)越的強(qiáng)分類器。如果各弱分類器之前沒有強(qiáng)依賴關(guān)系、可并行生成,就可以使用隨機(jī)森林算法。?
??隨機(jī)森林利用自主抽樣法(bootstrap)從原數(shù)據(jù)集中有放回地抽取多個(gè)樣本,對(duì)抽取的樣本先用弱分類器—決策樹進(jìn)行訓(xùn)練,然后把這些決策樹組合在一起,通過投票得出最終的分類或預(yù)測(cè)結(jié)果。
隨機(jī)森林的優(yōu)點(diǎn):
- 隨機(jī)森林能處理很高維度的數(shù)據(jù)(也就是很多特征的數(shù)據(jù)),并且不用做特征選擇
- 在訓(xùn)練完之后,隨機(jī)森林能給出哪些特征比較重要
- 模型的泛化能力較強(qiáng)
- 訓(xùn)練模型時(shí)速度快,成并行化方式,即樹之間相互獨(dú)立
- 模型可以處理不平衡數(shù)據(jù),平衡誤差
- 最終訓(xùn)練結(jié)果,可以對(duì)特種額排序,選擇比較重要的特征
- 隨機(jī)森林有袋外數(shù)據(jù)(OOB),因此不需要單獨(dú)劃分交叉驗(yàn)證集
- 對(duì)缺失值、異常值不敏感
- 模型訓(xùn)練結(jié)果準(zhǔn)確度高
- 相對(duì)Bagging能夠收斂于更小的泛化誤差
- 如果有很大一部分的特征遺失,用RF算法仍然可以維持準(zhǔn)確度。
隨機(jī)森林的缺點(diǎn):
- 對(duì)于小數(shù)據(jù)或者低維數(shù)據(jù)(特征較少的數(shù)據(jù)),可能不能產(chǎn)生很好的分類。
- 當(dāng)數(shù)據(jù)噪聲比較大時(shí),會(huì)產(chǎn)生過擬合現(xiàn)象
- 對(duì)有不同取值的屬性的數(shù)據(jù),取值劃分較多的屬性會(huì)對(duì)隨機(jī)森林產(chǎn)生更大的影響,所以隨機(jī)森林在這種數(shù)據(jù)上產(chǎn)出的屬性權(quán)值是不可信的。
- 執(zhí)行數(shù)據(jù)雖然比boosting等快(隨機(jī)森林屬于bagging),但比單只決策樹慢多了。
- 可能有很多相似的決策樹,掩蓋了真實(shí)的結(jié)果。






評(píng)論(0)


暫無數(shù)據(jù)
CDA考試動(dòng)態(tài)
CDA報(bào)考指南
推薦帖子
0條評(píng)論
0條評(píng)論
0條評(píng)論