99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
2021-11-15 閱讀量: 1915
熵和信息的概念

信息的基本作用就是減少人們對事物的不確定性,或者是增加對事物的確定性。

不確定性函數(shù)f是概率P的減函數(shù)

P增加——>不確定性 減少——>信息熵減少——>信息增益為正。

p越大,不確定性越小,信息(驚奇度)越少

信息=驚奇度

信息增益:熵 - 條件熵。表示在一個條件下,信息不確定性減少的程度。

變量的不確定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。

我們如何來衡量信息量的多少呢? 我們用信息熵來橫向信息中包含的信息量的多少。

Shannon 借鑒了熱力學的概念,把信息中排除了冗余后的平均信息量稱為“信息熵”,信息熵簡稱為熵。

我們用一個隨機變量來舉例進行信息熵的概念。

比如我們有一個隨機變量Y,Y只可能取兩個值,我們把這兩個取值稱為兩個事件,分別是事件1和事件2,在不給任何條件的情況下,Y取1的概率為P1=0.6,Y取2的概率為P2=0.4。

我們認為變量Y的不確定性可以用如下熵公式來衡量:

兩個獨立符號所產生的不確定性應等于各自不確定性之和

熵函數(shù):

image.png 注:這里的log是以2為底的。

p越大,f(P)越小,f是P的減函數(shù)

image.png

熵函數(shù)f(P)的名字叫不確定性函數(shù),它是關于P的減函數(shù)

事件1的不確定性是 -log0.6

事件2的不確定性是 -log0.4

隨機變量Y的不確定性

=H(Y)

=事件1發(fā)生的概率*事件1的不確定性+事件2發(fā)生的概率*事件2的不確定性

=p1*(-log0.6)+p2*(-log0.4)

=0.9709505944546686

然后我們考慮兩種比較極端的情況

1.如果事件1發(fā)生的概率為0.5,事件2發(fā)生的概率為0.5,則H(Y)=1

2.如果事件1發(fā)生的概率為1,事件2發(fā)生的概率為0,則H(Y)=0

接下來介紹一下信息增益

信息增益:熵 - 條件熵。表示在一個條件下,信息不確定性減少的程度。

通俗地講,Y(明天是否下雨)是一個隨機變量,Y的熵可以算出來, X(明天是否陰天)也是隨機變量,在給定X情況下Y的信息熵我們如果也知道的話(此處需要知道其聯(lián)合概率分布或是通過數(shù)據估計)即是條件熵。

Y的熵減去X條件下Y的熵,就是信息增益。

用具體的數(shù)值來舉例說明,原本明天是否下雨的信息熵是0.9,給定X之后的條件熵是0.3,這樣相減后為0.6。在獲得X這個信息后,下雨信息不確定性減少了0.6,不確定減少了很多,所以信息增益大。也就是說,是否陰天這個信息對明天是否下雨這一推斷來說非常重要。

所以在特征選擇的時候常常用信息增益(IG),如果信息增益大的話,那么這個特征對于分類來說很重要,決策樹就是這樣來找特征的。






99.1680
0
關注作者
收藏
評論(0)

發(fā)表評論

暫無數(shù)據
推薦帖子