99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
2018-10-19 閱讀量: 2574
數(shù)據(jù)分箱是干啥的?有什么作用

一、數(shù)據(jù)分箱的情景有三種:

  • 某些數(shù)值自變量在測(cè)量時(shí)存在隨機(jī)誤差,需要對(duì)數(shù)值進(jìn)行平滑以消除噪音
  • 有些數(shù)值自變量有大量不重復(fù)的取值,對(duì)于使用<、>、=等基本操作符的算法(如決策樹(shù))而言,如果能減少這些不重復(fù)取值的個(gè)數(shù),就能提高算法的速度
  • 有些算法只能使用分類(lèi)自變量,需要把數(shù)值變量離散化

二、數(shù)據(jù)分箱的方法有兩大類(lèi),有監(jiān)督的分箱方法和無(wú)監(jiān)督的分箱方法。

有監(jiān)督的分箱方法:

  • 假設(shè)因變量為分類(lèi)變量,可取值1,…,J。令pl(j)表示第l個(gè)分箱內(nèi)因變量取值為j的觀測(cè)的比例,l=1,…,k,j=1,…,J;那么第l個(gè)分箱的熵值為Jj=1[-pl(j)×log(pl(j))]。如果第l個(gè)分箱內(nèi)因變量各類(lèi)別的比例相等,即pl(1)=…=pl(J)=1/J,那么第l個(gè)分箱的熵值達(dá)到最大值;如果第l個(gè)分箱內(nèi)因變量只有一種取值,即某個(gè)pl(j)等于1而其他類(lèi)別的比例等于0,那么第l個(gè)分箱的熵值達(dá)到最小值。
  • 令rl表示第l個(gè)分箱的觀測(cè)數(shù)占所有觀測(cè)數(shù)的比例;那么總熵值為kl= ?1rl×Jj=1[-pl(j)×log(pl(j ?))]。需要使總熵值達(dá)到最小,也就是使分箱能夠最大限度地區(qū)分因變量的各類(lèi)別。

無(wú)監(jiān)督的分箱方法:

假設(shè)要將某個(gè)自變量的觀測(cè)值分為k個(gè)分箱,一些常用的分箱方法有:

(1)等寬分箱:將變量的取值范圍分為k個(gè)等寬的區(qū)間,每個(gè)區(qū)間當(dāng)作一個(gè)分箱。

(2)等頻分箱:把觀測(cè)值按照從小到大的順序排列,根據(jù)觀測(cè)的個(gè)數(shù)等分為k部分,每部分當(dāng)作一個(gè)分箱,例如,數(shù)值最小的1/k比例的觀測(cè)形成第一個(gè)分箱,等等。

(3)基于k均值聚類(lèi)的分箱:使用k均值聚類(lèi)法將觀測(cè)值聚為k類(lèi),但在聚類(lèi)過(guò)程中需要保證分箱的有序性:第一個(gè)分箱中所有觀測(cè)值都要小于第二個(gè)分箱中的觀測(cè)值,第二個(gè)分箱中所有觀測(cè)值都要小于第三個(gè)分箱中的觀測(cè)值,等等。

0.0199
5
關(guān)注作者
收藏
評(píng)論(0)

發(fā)表評(píng)論

暫無(wú)數(shù)據(jù)
推薦帖子