2018-10-19
閱讀量:
2574
數(shù)據(jù)分箱是干啥的?有什么作用
一、數(shù)據(jù)分箱的情景有三種:
- 某些數(shù)值自變量在測(cè)量時(shí)存在隨機(jī)誤差,需要對(duì)數(shù)值進(jìn)行平滑以消除噪音
- 有些數(shù)值自變量有大量不重復(fù)的取值,對(duì)于使用<、>、=等基本操作符的算法(如決策樹(shù))而言,如果能減少這些不重復(fù)取值的個(gè)數(shù),就能提高算法的速度
- 有些算法只能使用分類(lèi)自變量,需要把數(shù)值變量離散化
二、數(shù)據(jù)分箱的方法有兩大類(lèi),有監(jiān)督的分箱方法和無(wú)監(jiān)督的分箱方法。
有監(jiān)督的分箱方法:
- 假設(shè)因變量為分類(lèi)變量,可取值1,…,J。令pl(j)表示第l個(gè)分箱內(nèi)因變量取值為j的觀測(cè)的比例,l=1,…,k,j=1,…,J;那么第l個(gè)分箱的熵值為Jj=1[-pl(j)×log(pl(j))]。如果第l個(gè)分箱內(nèi)因變量各類(lèi)別的比例相等,即pl(1)=…=pl(J)=1/J,那么第l個(gè)分箱的熵值達(dá)到最大值;如果第l個(gè)分箱內(nèi)因變量只有一種取值,即某個(gè)pl(j)等于1而其他類(lèi)別的比例等于0,那么第l個(gè)分箱的熵值達(dá)到最小值。
- 令rl表示第l個(gè)分箱的觀測(cè)數(shù)占所有觀測(cè)數(shù)的比例;那么總熵值為kl= ?1rl×Jj=1[-pl(j)×log(pl(j ?))]。需要使總熵值達(dá)到最小,也就是使分箱能夠最大限度地區(qū)分因變量的各類(lèi)別。
無(wú)監(jiān)督的分箱方法:
假設(shè)要將某個(gè)自變量的觀測(cè)值分為k個(gè)分箱,一些常用的分箱方法有:
(1)等寬分箱:將變量的取值范圍分為k個(gè)等寬的區(qū)間,每個(gè)區(qū)間當(dāng)作一個(gè)分箱。
(2)等頻分箱:把觀測(cè)值按照從小到大的順序排列,根據(jù)觀測(cè)的個(gè)數(shù)等分為k部分,每部分當(dāng)作一個(gè)分箱,例如,數(shù)值最小的1/k比例的觀測(cè)形成第一個(gè)分箱,等等。
(3)基于k均值聚類(lèi)的分箱:使用k均值聚類(lèi)法將觀測(cè)值聚為k類(lèi),但在聚類(lèi)過(guò)程中需要保證分箱的有序性:第一個(gè)分箱中所有觀測(cè)值都要小于第二個(gè)分箱中的觀測(cè)值,第二個(gè)分箱中所有觀測(cè)值都要小于第三個(gè)分箱中的觀測(cè)值,等等。






評(píng)論(0)


暫無(wú)數(shù)據(jù)
CDA考試動(dòng)態(tài)
CDA報(bào)考指南
推薦帖子
0條評(píng)論
0條評(píng)論
0條評(píng)論
0條評(píng)論