99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
2018-10-19 閱讀量: 2630
數(shù)據(jù)分箱是干啥的?有什么作用

一、數(shù)據(jù)分箱的情景有三種:

  • 某些數(shù)值自變量在測量時存在隨機誤差,需要對數(shù)值進行平滑以消除噪音
  • 有些數(shù)值自變量有大量不重復的取值,對于使用<、>、=等基本操作符的算法(如決策樹)而言,如果能減少這些不重復取值的個數(shù),就能提高算法的速度
  • 有些算法只能使用分類自變量,需要把數(shù)值變量離散化

二、數(shù)據(jù)分箱的方法有兩大類,有監(jiān)督的分箱方法和無監(jiān)督的分箱方法。

有監(jiān)督的分箱方法:

  • 假設因變量為分類變量,可取值1,…,J。令pl(j)表示第l個分箱內因變量取值為j的觀測的比例,l=1,…,k,j=1,…,J;那么第l個分箱的熵值為Jj=1[-pl(j)×log(pl(j))]。如果第l個分箱內因變量各類別的比例相等,即pl(1)=…=pl(J)=1/J,那么第l個分箱的熵值達到最大值;如果第l個分箱內因變量只有一種取值,即某個pl(j)等于1而其他類別的比例等于0,那么第l個分箱的熵值達到最小值。
  • 令rl表示第l個分箱的觀測數(shù)占所有觀測數(shù)的比例;那么總熵值為kl= ?1rl×Jj=1[-pl(j)×log(pl(j ?))]。需要使總熵值達到最小,也就是使分箱能夠最大限度地區(qū)分因變量的各類別。

無監(jiān)督的分箱方法:

假設要將某個自變量的觀測值分為k個分箱,一些常用的分箱方法有:

(1)等寬分箱:將變量的取值范圍分為k個等寬的區(qū)間,每個區(qū)間當作一個分箱。

(2)等頻分箱:把觀測值按照從小到大的順序排列,根據(jù)觀測的個數(shù)等分為k部分,每部分當作一個分箱,例如,數(shù)值最小的1/k比例的觀測形成第一個分箱,等等。

(3)基于k均值聚類的分箱:使用k均值聚類法將觀測值聚為k類,但在聚類過程中需要保證分箱的有序性:第一個分箱中所有觀測值都要小于第二個分箱中的觀測值,第二個分箱中所有觀測值都要小于第三個分箱中的觀測值,等等。

0.0199
5
關注作者
收藏
評論(0)

發(fā)表評論

暫無數(shù)據(jù)
推薦帖子