在工業(yè)界,很少直接將連續(xù)值作為邏輯回歸模型的特征輸入,而是將連續(xù)特征離散化為一系列0、1特征交給邏輯回歸模型,這樣做的優(yōu)勢有以下幾點(diǎn):
0. 離散特征的增加和減少都很容易,易于模型的快速迭代;
1. 稀疏向量內(nèi)積乘法運(yùn)算速度快,計(jì)算結(jié)果方便存儲,容易擴(kuò)展;
2. 離散化后的特征對異常數(shù)據(jù)有很強(qiáng)的魯棒性:比如一個(gè)特征是年齡>30是1,否則0。如果特征沒有離散化,一個(gè)異常數(shù)據(jù)“年齡300歲”會給模型造成很大的干擾;
3. 邏輯回歸屬于廣義線性模型,表達(dá)能力受限;單變量離散化為N個(gè)后,每個(gè)變量有單獨(dú)的權(quán)重,相當(dāng)于為模型引入了非線性,能夠提升模型表達(dá)能力,加大擬合;
4. 離散化后可以進(jìn)行特征交叉,由M+N個(gè)變量變?yōu)镸*N個(gè)變量,進(jìn)一步引入非線性,提升表達(dá)能力;
5. 特征離散化后,模型會更穩(wěn)定,比如如果對用戶年齡離散化,20-30作為一個(gè)區(qū)間,不會因?yàn)橐粋€(gè)用戶年齡長了一歲就變成一個(gè)完全不同的人。當(dāng)然處于區(qū)間相鄰處的樣本會剛好相反,所以怎么劃分區(qū)間是門學(xué)問;
6. 特征離散化以后,起到了簡化了邏輯回歸模型的作用,降低了模型過擬合的風(fēng)險(xiǎn)。
李沐曾經(jīng)說過:模型是使用離散特征還是連續(xù)特征,其實(shí)是一個(gè)“海量離散特征+簡單模型” 同 “少量連續(xù)特征+復(fù)雜模型”的權(quán)衡。既可以離散化用線性模型,也可以用連續(xù)特征加深度學(xué)習(xí)。就看是喜歡折騰特征還是折騰模型了。








暫無數(shù)據(jù)