男人扒开女人腿桶到爽免费,丁香花成

809669515

2018-10-25 閱讀量: 1786

隨機(jī)森林的優(yōu)點(diǎn)和缺點(diǎn)

隨機(jī)森林（Random Forest）是屬于集成學(xué)習(xí)的一種組合分類算法（確切說是屬于bagging），集成學(xué)習(xí)的核心思想就是將若干個(gè)弱（基）分類器組合起來，得到一個(gè)分類性能顯著優(yōu)越的強(qiáng)分類器。如果各弱分類器之前沒有強(qiáng)依賴關(guān)系、可并行生成，就可以使用隨機(jī)森林算法。?

??隨機(jī)森林利用自主抽樣法（bootstrap）從原數(shù)據(jù)集中有放回地抽取多個(gè)樣本，對(duì)抽取的樣本先用弱分類器—決策樹進(jìn)行訓(xùn)練，然后把這些決策樹組合在一起，通過投票得出最終的分類或預(yù)測(cè)結(jié)果。

隨機(jī)森林的優(yōu)點(diǎn)：

隨機(jī)森林能處理很高維度的數(shù)據(jù)（也就是很多特征的數(shù)據(jù)），并且不用做特征選擇
在訓(xùn)練完之后，隨機(jī)森林能給出哪些特征比較重要
模型的泛化能力較強(qiáng)
訓(xùn)練模型時(shí)速度快，成并行化方式，即樹之間相互獨(dú)立
模型可以處理不平衡數(shù)據(jù)，平衡誤差
最終訓(xùn)練結(jié)果，可以對(duì)特種額排序，選擇比較重要的特征
隨機(jī)森林有袋外數(shù)據(jù)（OOB），因此不需要單獨(dú)劃分交叉驗(yàn)證集
對(duì)缺失值、異常值不敏感
模型訓(xùn)練結(jié)果準(zhǔn)確度高
相對(duì)Bagging能夠收斂于更小的泛化誤差
如果有很大一部分的特征遺失，用RF算法仍然可以維持準(zhǔn)確度。

隨機(jī)森林的缺點(diǎn)：

對(duì)于小數(shù)據(jù)或者低維數(shù)據(jù)（特征較少的數(shù)據(jù)），可能不能產(chǎn)生很好的分類。
當(dāng)數(shù)據(jù)噪聲比較大時(shí)，會(huì)產(chǎn)生過擬合現(xiàn)象
對(duì)有不同取值的屬性的數(shù)據(jù)，取值劃分較多的屬性會(huì)對(duì)隨機(jī)森林產(chǎn)生更大的影響,所以隨機(jī)森林在這種數(shù)據(jù)上產(chǎn)出的屬性權(quán)值是不可信的。
執(zhí)行數(shù)據(jù)雖然比boosting等快（隨機(jī)森林屬于bagging），但比單只決策樹慢多了。
可能有很多相似的決策樹，掩蓋了真實(shí)的結(jié)果。