隨機(jī)森林:
XGboost:
lightBGM:算法和XGboost非常的像,但是穩(wěn)定性還有點(diǎn)考量
集成算法的種類:
bagging:裝代法的核心思想是構(gòu)建多個(gè)相互獨(dú)立的評估器,然后對其預(yù)測進(jìn)行平均或多數(shù)表決原則來決定集 成評估器的結(jié)果。裝袋法的代表模型就是隨機(jī)森林
boosting:提升法中,基評估器是相關(guān)的,是按順序一一構(gòu)建的。其核心思想是結(jié)合弱評估器的力量一次次對 難以評估的樣本進(jìn)行預(yù)測,從而構(gòu)成一個(gè)強(qiáng)評估器。提升法的代表模型有Adaboost和梯度提升 樹。
bagging方法:
bagging方法過程:從m樣本中有放回的抽取m個(gè)樣本(每次抽樣獨(dú)立),抽n次,刪除n個(gè)抽樣數(shù)據(jù)集中的重復(fù)值。分別使用n次抽樣的結(jié)果對弱分類器模型進(jìn)行訓(xùn)練(可以是同一種算法,也可以是不同種類的算法,同一種模型中randomstate設(shè)置不同值也可以)。使用這n個(gè)訓(xùn)練好的模型對測試集數(shù)據(jù)進(jìn)行預(yù)測,n次預(yù)測結(jié)果中通過投票的方式(例如采用少數(shù)服從多數(shù))來決定最后的測試集預(yù)測結(jié)果。
有放回的抽樣的原因:因?yàn)槊看纬闃邮仟?dú)立的,為保證每個(gè)樣本在每次抽取中被抽到的概率一樣,因此要進(jìn)行有放回的抽樣。
抽樣之后去重的原因:模型中不允許數(shù)據(jù)集中有重復(fù)行。
采樣集和采樣集之間是相互獨(dú)立的,訓(xùn)練出來的分類器之間也是相互獨(dú)立的
效率比boosting的效率要高
基分類器之間是并行的關(guān)系
boosting:
在當(dāng)前的迭代中,使用弱分類器模型對帶樣本權(quán)重(一個(gè)樣本一個(gè)權(quán)重)的數(shù)據(jù)集進(jìn)行擬合,增大預(yù)測錯誤的樣本的權(quán)重,減少預(yù)測正確樣本的權(quán)重,從而讓下一個(gè)模型更改自己的復(fù)雜度,更加小心的對待這一次預(yù)測錯的樣本的信息,從而整體上不斷進(jìn)行提升。
一般來說boosting都會將決策樹作為弱分類器
訓(xùn)練好的模型在對測試集進(jìn)行預(yù)測的時(shí)候,測試集的樣本是不需要設(shè)置測試集樣本的權(quán)重
boosting算法最后是整體效果越來越好,而不是里面的弱分類器隨著迭代效果越來越好
boosting是一個(gè)過擬合的算法
組合策略:
連續(xù)型標(biāo)簽:可以使用平均法,用每個(gè)弱分類器的預(yù)測結(jié)果與權(quán)重,進(jìn)行加權(quán)平均。bagging的權(quán)重都一直
離散型的變量:投票法,少數(shù)服從多少的方式取結(jié)果;或者加權(quán)平均,計(jì)算出來的結(jié)果離1更近,則結(jié)果為1更接近0則結(jié)果取0
Bagging VS Boosting
1. 樣本選擇上
Bagging:訓(xùn)練集是在原始集中有放回選取的,從原始集中選出的各輪訓(xùn)練集之間是獨(dú)立 的。
Boosting:每一輪的訓(xùn)練集不變,只是訓(xùn)練集中每個(gè)樣例在分類器中的權(quán)重發(fā)生變化,而權(quán) 值是根據(jù)上一輪的分類結(jié)果進(jìn)行調(diào)整。
2. 樣例權(quán)重
Bagging:使用均勻取樣,每個(gè)樣例的權(quán)重相等。
Boosting:根據(jù)錯誤率不斷調(diào)整樣例的權(quán)重,錯誤率越大則權(quán)重越大,因此Boosting的分類 精度要優(yōu)于Bagging。
3. 預(yù)測函數(shù)
Bagging:所有預(yù)測函數(shù)的權(quán)重相等。
Boosting:每個(gè)弱分類器都有相應(yīng)的權(quán)重,對于分類誤差小的分類器會有更大的權(quán)重。
4. 并行計(jì)算
Bagging:各個(gè)預(yù)測函數(shù)可以并行生成,對于極為耗時(shí)的學(xué)習(xí)方法,Bagging可通過并行訓(xùn)練 節(jié)省大量時(shí)間開銷。
Boosting:各個(gè)預(yù)測函數(shù)只能順序生成,因?yàn)楹笠粋€(gè)模型參數(shù)需要前一輪模型的結(jié)果。
5. 過擬合和欠擬合
單個(gè)評估器存在過擬合問題的時(shí)候,Bagging能在一定程度上解決過擬合問題,而Boosting 可能會加劇過擬合的問題。
單個(gè)評估其學(xué)習(xí)能力較弱的時(shí)候,Bagging無法提升模型表現(xiàn),Boosting有一定可能提升模 型的表現(xiàn)。
6. 算法目標(biāo)
Bagging:降低方差,提高模型整體的穩(wěn)定性。
Boosting:降低偏差,提高模型整體的精確度。
Bagging和Boosting都可以有效地提高分類的準(zhǔn)確性。在大多數(shù)數(shù)據(jù)集中,Boosting的準(zhǔn)確 性要高于Bagging。








暫無數(shù)據(jù)