信息的基本作用就是減少人們對(duì)事物的不確定性,或者是增加對(duì)事物的確定性。
不確定性函數(shù)f是概率P的減函數(shù)
P增加——>不確定性 減少——>信息熵減少——>信息增益為正。
p越大,不確定性越小,信息(驚奇度)越少
信息=驚奇度
信息增益:熵 - 條件熵。表示在一個(gè)條件下,信息不確定性減少的程度。
變量的不確定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。
我們?nèi)绾蝸?lái)衡量信息量的多少呢? 我們用信息熵來(lái)橫向信息中包含的信息量的多少。
Shannon 借鑒了熱力學(xué)的概念,把信息中排除了冗余后的平均信息量稱為“信息熵”,信息熵簡(jiǎn)稱為熵。
我們用一個(gè)隨機(jī)變量來(lái)舉例進(jìn)行信息熵的概念。
比如我們有一個(gè)隨機(jī)變量Y,Y只可能取兩個(gè)值,我們把這兩個(gè)取值稱為兩個(gè)事件,分別是事件1和事件2,在不給任何條件的情況下,Y取1的概率為P1=0.6,Y取2的概率為P2=0.4。
我們認(rèn)為變量Y的不確定性可以用如下熵公式來(lái)衡量:
兩個(gè)獨(dú)立符號(hào)所產(chǎn)生的不確定性應(yīng)等于各自不確定性之和
熵函數(shù):
注:這里的log是以2為底的。
p越大,f(P)越小,f是P的減函數(shù)
熵函數(shù)f(P)的名字叫不確定性函數(shù),它是關(guān)于P的減函數(shù)
事件1的不確定性是 -log0.6
事件2的不確定性是 -log0.4
隨機(jī)變量Y的不確定性
=H(Y)
=事件1發(fā)生的概率*事件1的不確定性+事件2發(fā)生的概率*事件2的不確定性
=p1*(-log0.6)+p2*(-log0.4)
=0.9709505944546686
然后我們考慮兩種比較極端的情況
1.如果事件1發(fā)生的概率為0.5,事件2發(fā)生的概率為0.5,則H(Y)=1
2.如果事件1發(fā)生的概率為1,事件2發(fā)生的概率為0,則H(Y)=0
接下來(lái)介紹一下信息增益
信息增益:熵 - 條件熵。表示在一個(gè)條件下,信息不確定性減少的程度。
通俗地講,Y(明天是否下雨)是一個(gè)隨機(jī)變量,Y的熵可以算出來(lái), X(明天是否陰天)也是隨機(jī)變量,在給定X情況下Y的信息熵我們?nèi)绻仓赖脑挘ù颂幮枰榔渎?lián)合概率分布或是通過(guò)數(shù)據(jù)估計(jì))即是條件熵。
Y的熵減去X條件下Y的熵,就是信息增益。
用具體的數(shù)值來(lái)舉例說(shuō)明,原本明天是否下雨的信息熵是0.9,給定X之后的條件熵是0.3,這樣相減后為0.6。在獲得X這個(gè)信息后,下雨信息不確定性減少了0.6,不確定減少了很多,所以信息增益大。也就是說(shuō),是否陰天這個(gè)信息對(duì)明天是否下雨這一推斷來(lái)說(shuō)非常重要。
所以在特征選擇的時(shí)候常常用信息增益(IG),如果信息增益大的話,那么這個(gè)特征對(duì)于分類來(lái)說(shuō)很重要,決策樹(shù)就是這樣來(lái)找特征的。








暫無(wú)數(shù)據(jù)