2021-03-10
閱讀量:
1147
什么時候用啞變量,什么時候用獨熱編碼?
a 啞變量的截距是基準類別的值,啞變量的回歸系數(shù)表示的是某類別和基準類別之間的平均差異;
b 若線性模型有截距項,用啞變量,因為多余的自由度可以被統(tǒng)攝到截距項intercept里去;
c 若線性模型有截距項,且使用正則化,用獨熱編碼,因為正則化會約束系數(shù),使各變量地位相等,從而處理多余特征;
d 無截距項,使用獨熱編碼
e 樹模型不建議使用二進制類型的編碼,因為會加深樹的深度,或者減小節(jié)點分裂增益
最好是選擇正則化 + one-hot編碼;啞變量編碼也可以使用,不過最好選擇前者。對于樹模型,不推薦使用定類編碼,因為樣本切分不均衡時,增益效果甚微





評論(0)


暫無數(shù)據(jù)
推薦帖子
0條評論
0條評論
0條評論
0條評論