99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
2021-05-21 閱讀量: 3041
XGBT importance_type 參數(shù)解釋

importance_type (str, 默認值為 'weight') – 選擇輸出的哪一種重要程度。可選的5類重要程度如下所示:


(1)"weight":在所有的樹中,一個feature總共多少次被用于分割數(shù)據(jù)。


分析:


這個指標是一個變量被用于分割的絕對次數(shù),這就造成了這個指標的缺點。對于定類變量和定序變量,由于他們天生能用于分割的點就比較少,很容易被"weight"指標所忽略。


一個簡單的例子就是,假如我們的模型要預(yù)測一個人脫發(fā)是否嚴重,那我們可以引入一些定距變量如體溫,定比變量如身高、體重;我們當然也可以引入定類變量和定序變量,例如一個人“是否面臨每周996加班的問題”。


很顯然,根據(jù)常識我們知道“是否996加班”對于脫發(fā)是有很大影響的。但是由于它是一個二分類的變量,只能取0或者1,也就是天生只能有一個分類的點,這樣就導(dǎo)致被模型使用的次數(shù)會降低。


而身高、體重這種連續(xù)性的變量,模型可以找到很多的分割點,就可以不斷地被模型使用。例如,體重可以劃分為(50, 60]、(60,70]、(70,80]、(80,90]、(90,100]......由于這類變量先天就可以提供很多的分割點,模型就可以反復(fù)地去使用這些變量分割數(shù)據(jù)。雖然分割的次數(shù)很多,但是可能每次分割完以后都分得不很清楚,對結(jié)果的貢獻也不大,最糟糕的情況是光增加過擬合了,對模型最終表現(xiàn)完全沒有幫助。在這里,身高體重雖然用的次數(shù)多,但是如果我們最后比較一下誰更能把“是否脫發(fā)”分的清楚,可能“身高體重”會比“是否996加班”這個變量差得遠得多。


(2)"gain":使用該feature的所有分割的平均信息增益(average gain),也就是節(jié)點分裂時,該特征帶來信息增益(目標函數(shù))優(yōu)化的平均值,是通過取每個feature對模型中每棵樹的貢獻來計算對應(yīng)特征對模型的相對貢獻。與其feature性相比,這個指標的值越高,意味著它對生成預(yù)測更重要。


分析:


這個衡量指標能夠克服"weight"存在的問題。信息增益可以真正地反映一個指標對于把預(yù)測的Y的label分清楚,做了多大的貢獻。這個是我比較推薦的計算方法,同時XGBoost的Sklearn API也把"gain"作為了計算feature importance的默認方法。


這里求的是所有用到這個feature的來分裂的節(jié)點的信息增益的均值。


(3)"cover":所有使用到該feature的分割的平均覆蓋率。


分析:


這個指標的含義是節(jié)點樣本目標函數(shù)二階導(dǎo)數(shù)的和。具體解釋在XGBoost的官方GitHub倉庫的R語言接口下面的有解釋,詳見相關(guān)倉庫內(nèi)容的第35行:


code{cover}: the sum of second order gradient of training data classified to the leaf, if it is square loss, this simply corresponds to the number of instances in that branch. Deeper in the tree a node is, lower this metric will be

有時候,gain 排出來的順序的頭尾部值差距較大,這是因為信息增益計算時,后續(xù)的優(yōu)化可能都不是一個量級。類似于神經(jīng)網(wǎng)絡(luò)在優(yōu)化損失函數(shù)時,后續(xù)的量綱可能是十倍、百倍的差異。所以,綜上而言,如果有下游業(yè)務(wù)方,可以用 cover 的特征重要性計算方法。當然,如果是單純的模型調(diào)優(yōu),gain 能指出最重要的特征。這些特征,某些場景下還能總結(jié)成硬規(guī)則。


(4)"total_gain":所有使用到該feature的分割的總增益。


(5)"total_cover":所有使用到該feature的分割的總覆蓋率。


54.8496
0
關(guān)注作者
收藏
評論(0)

發(fā)表評論

暫無數(shù)據(jù)
推薦帖子