2018-10-19
閱讀量:
2630
數(shù)據(jù)分箱是干啥的?有什么作用
一、數(shù)據(jù)分箱的情景有三種:
- 某些數(shù)值自變量在測量時存在隨機誤差,需要對數(shù)值進行平滑以消除噪音
- 有些數(shù)值自變量有大量不重復的取值,對于使用<、>、=等基本操作符的算法(如決策樹)而言,如果能減少這些不重復取值的個數(shù),就能提高算法的速度
- 有些算法只能使用分類自變量,需要把數(shù)值變量離散化
二、數(shù)據(jù)分箱的方法有兩大類,有監(jiān)督的分箱方法和無監(jiān)督的分箱方法。
有監(jiān)督的分箱方法:
- 假設因變量為分類變量,可取值1,…,J。令pl(j)表示第l個分箱內因變量取值為j的觀測的比例,l=1,…,k,j=1,…,J;那么第l個分箱的熵值為Jj=1[-pl(j)×log(pl(j))]。如果第l個分箱內因變量各類別的比例相等,即pl(1)=…=pl(J)=1/J,那么第l個分箱的熵值達到最大值;如果第l個分箱內因變量只有一種取值,即某個pl(j)等于1而其他類別的比例等于0,那么第l個分箱的熵值達到最小值。
- 令rl表示第l個分箱的觀測數(shù)占所有觀測數(shù)的比例;那么總熵值為kl= ?1rl×Jj=1[-pl(j)×log(pl(j ?))]。需要使總熵值達到最小,也就是使分箱能夠最大限度地區(qū)分因變量的各類別。
無監(jiān)督的分箱方法:
假設要將某個自變量的觀測值分為k個分箱,一些常用的分箱方法有:
(1)等寬分箱:將變量的取值范圍分為k個等寬的區(qū)間,每個區(qū)間當作一個分箱。
(2)等頻分箱:把觀測值按照從小到大的順序排列,根據(jù)觀測的個數(shù)等分為k部分,每部分當作一個分箱,例如,數(shù)值最小的1/k比例的觀測形成第一個分箱,等等。
(3)基于k均值聚類的分箱:使用k均值聚類法將觀測值聚為k類,但在聚類過程中需要保證分箱的有序性:第一個分箱中所有觀測值都要小于第二個分箱中的觀測值,第二個分箱中所有觀測值都要小于第三個分箱中的觀測值,等等。






評論(0)


暫無數(shù)據(jù)
推薦帖子
0條評論
0條評論
0條評論