信息熵的公式
先拋出信息熵公式如下:
其中
代表隨機(jī)事件X為
的概率,下面來逐步介紹信息熵的公式來源!
信息量
信息量是對(duì)信息的度量,就跟時(shí)間的度量是秒一樣,當(dāng)我們考慮一個(gè)離散的隨機(jī)變量x的時(shí)候,當(dāng)我們觀察到的這個(gè)變量的一個(gè)具體值的時(shí)候,我們接收到了多少信息呢?
多少信息用信息量來衡量,我們接受到的信息量跟具體發(fā)生的事件有關(guān)。
信息的大小跟隨機(jī)事件的概率有關(guān)。越小概率的事情發(fā)生了產(chǎn)生的信息量越大,如湖南產(chǎn)生的地震了;越大概率的事情發(fā)生了產(chǎn)生的信息量越小,如太陽(yáng)從東邊升起來了(100%確定發(fā)生嘛,沒什么信息量)。這很好理解!
因此一個(gè)具體事件的信息量應(yīng)該是隨著其發(fā)生概率而遞減的(即信息熵與概率成反比),且不能為負(fù)。
但是這個(gè)表示信息量函數(shù)的形式怎么找呢?
隨著概率增大而減少的函數(shù)形式太多了!不要著急,我們還有下面這條性質(zhì)
如果我們有倆個(gè)不相關(guān)的事件x和y,那么我們觀察到的倆個(gè)事件同時(shí)發(fā)生時(shí)獲得的信息應(yīng)該等于觀察到的事件各自發(fā)生時(shí)獲得的信息之和,即:
h(x,y) = h(x) + h(y)
由于x,y是倆個(gè)不相關(guān)的事件,那么滿足p(x,y) = p(x)*p(y).
根據(jù)上面推導(dǎo),我們很容易看出h(x)一定與p(x)的對(duì)數(shù)有關(guān)(因?yàn)橹挥袑?duì)數(shù)形式的真數(shù)相乘之后,能夠?qū)?yīng)對(duì)數(shù)的相加形式,可以試試)。因此我們有信息量公式如下:
下面解決倆個(gè)疑問?
(1)為什么有一個(gè)負(fù)號(hào)
其中,負(fù)號(hào)是為了確保信息一定是正數(shù)或者是0,總不能為負(fù)數(shù)吧!
(2)為什么底數(shù)為2
這是因?yàn)?,我們只需要信息量滿足低概率事件x對(duì)應(yīng)于高的信息量。那么對(duì)數(shù)的選擇是任意的。我們只是遵循信息論的普遍傳統(tǒng),使用2作為對(duì)數(shù)的底!
信息熵
下面我們正式引出信息熵。
信息量度量的是一個(gè)具體事件發(fā)生了所帶來的信息,而熵則是在結(jié)果出來之前對(duì)可能產(chǎn)生的信息量的期望——考慮該隨機(jī)變量的所有可能取值,即所有可能發(fā)生事件所帶來的信息量的期望。即
轉(zhuǎn)換一下為:
最終我們的公式來源推導(dǎo)完成了。
這里我再說一個(gè)對(duì)信息熵的理解。信息熵還可以作為一個(gè)系統(tǒng)復(fù)雜程度的度量,如果系統(tǒng)越復(fù)雜,出現(xiàn)不同情況的種類越多,那么他的信息熵是比較大的。
如果一個(gè)系統(tǒng)越簡(jiǎn)單,出現(xiàn)情況種類很少(極端情況為1種情況,那么對(duì)應(yīng)概率為1,那么對(duì)應(yīng)的信息熵為0),此時(shí)的信息熵較小。





