99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁(yè)大數(shù)據(jù)時(shí)代信息熵與方差-聯(lián)系與區(qū)別
信息熵與方差-聯(lián)系與區(qū)別
2016-04-05
收藏
    熵的概念很早就在物理學(xué)中出現(xiàn),熱力學(xué)中的熵用于衡量物質(zhì)狀態(tài)的混亂程度?;艚鹪凇稌r(shí)間簡(jiǎn)歷》中也對(duì)熵有著有趣的表述:一個(gè)常有人打掃清潔的屋子,熵值低,一個(gè)不打掃的屋子,熵值就高,自然界的物質(zhì)都傾向于向熵值高的方向運(yùn)動(dòng)…顯然熵就是混亂程度的指標(biāo)。
    信息熵來(lái)源于香農(nóng)的信息論,其含義與物理學(xué)的熵是近似的,也就是衡量信息的混亂程度,也是度量信息含量多少的重要指標(biāo)。例如,北京動(dòng)物園里有馬、牛、蛇、羊四種動(dòng)物,而上海動(dòng)物園則只有馬和牛兩種動(dòng)物,此時(shí)顯然北京動(dòng)物園動(dòng)物品種更多,信息熵大,信息含量就比上海動(dòng)物園大。下面是信息熵的計(jì)算公式:
     
    方差來(lái)源于統(tǒng)計(jì)學(xué)家對(duì)于數(shù)據(jù)分布的研究,發(fā)現(xiàn)方差能夠衡量一個(gè)隨機(jī)變量的離散程度與信息量的多少。例如,北京人民身高的方差比全國(guó)人民小,說(shuō)明同樣是身高,全國(guó)人民比北京人民差異性更大,離散程度更高,當(dāng)然信息量也就比北京人民大。下面是方差的計(jì)算公式:

    這里,兩個(gè)概念在信息量多少的表達(dá)上有著重疊的地方,而且在機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘的一些算法中,兩者都有很多的運(yùn)用。例如決策樹算法使用信息熵之差信息增益來(lái)衡量自變量對(duì)于因變量的重要程度,文本挖掘中信息熵用來(lái)衡量單詞是否具有代表性,主成份分析中協(xié)方差矩陣的特征根表達(dá)了信息量的大小,回歸分析中(協(xié))方差作為衡量變量間信息重疊的重要指標(biāo)…貌似都是在說(shuō)信息量…
    那么兩者到底是一回事還是有很大區(qū)別呢?這里,講理論沒(méi)有太好的效果,必須要?jiǎng)邮炙闼悴拍芾斫鈨烧叩膮^(qū)別與聯(lián)系。
    這里在python中產(chǎn)生了三組服從正態(tài)分布隨機(jī)變量,樣本含量都為10000,其標(biāo)準(zhǔn)差依次為15,20,25,30,35均值都為100,此時(shí)再計(jì)算這三組隨機(jī)變量的信息熵,結(jié)果是此時(shí)信息熵和方差大小無(wú)關(guān),這里說(shuō)明了方差與信息熵在表達(dá)信息量大小時(shí)不能混用,有意思的是,在固定方差的情況下,信息熵卻與樣本含量有關(guān),這里分樣本量分別為2500,5000,7500,10000,12500:

 

    究其原因,信息熵強(qiáng)調(diào)隨機(jī)變量中元素類別的不一致性,而方差強(qiáng)調(diào)隨機(jī)變量中元素取值的不一致性。在以上示例中,計(jì)算機(jī)隨機(jī)生成的隨機(jī)變量是一個(gè)連續(xù)變量,取值各不相同,在樣本量一定的情況下,無(wú)論隨機(jī)如何變化,方差如何變化,其類別均是一定的,每一個(gè)元素出現(xiàn)的概率都是一定的,即1/樣本量,所以信息熵此時(shí)永遠(yuǎn)不變,但是樣本量變化時(shí)(取值也各不一樣),類別也跟著變化,元素出現(xiàn)的概率跟著變化(1/樣本量會(huì)變化),最終導(dǎo)致信息熵變化。
    既然信息熵強(qiáng)調(diào)隨機(jī)變量的類別,那么在分類型的隨機(jī)變量中與方差有什么區(qū)別與連續(xù)呢?下面在python中生成了五組隨機(jī)變量x1-x5,變量類型為二元型,具體取值見(jiàn)下圖:

    從X1到X5分別計(jì)算它們的信息熵和方差,結(jié)果如下:
    信息熵與方差
    將信息熵與方差綜合繪制到一張散點(diǎn)圖上:

    此時(shí)信息熵與方差呈現(xiàn)正向高度相關(guān),此時(shí),信息熵與方差在衡量隨機(jī)變量信息量大小時(shí),可以起到相同的作用。這時(shí)因?yàn)榇藭r(shí)隨機(jī)變量中,各個(gè)元素的取值與類別是一致的,取值大小和類別多少在這里是高度統(tǒng)一的,所以兩者都可適用。
    但是,需要特別注意的是,在很多二元乃至更多分類隨機(jī)變量中,類別本身?yè)碛鞋F(xiàn)實(shí)意義,但是類別的取值大小并沒(méi)有現(xiàn)實(shí)意義。比如人口統(tǒng)計(jì)學(xué)指標(biāo)中的性別,男和女抽象為0和1,僅僅是一種指代的符號(hào),數(shù)值本身沒(méi)有意義,類似的還有民族、居住地等,商業(yè)數(shù)據(jù)中,也有很多的例子,比如貸款類型、市場(chǎng)大區(qū)等。所以此時(shí)方差雖然可以計(jì)算,但無(wú)意義,衡量信息量大小只能用信息熵。
    那么,有沒(méi)有這么一種情況,隨機(jī)變量本身既強(qiáng)調(diào)類別的含義,同時(shí)也強(qiáng)調(diào)類別本身取值的大小呢?當(dāng)然有,最典型的例子就是對(duì)連續(xù)變量離散化(分箱),在很多數(shù)據(jù)分析的情景中,需要對(duì)連續(xù)變量離散化以滿足后續(xù)要求,比如年齡,在進(jìn)行醫(yī)學(xué)統(tǒng)計(jì)(藥品療效檢驗(yàn)、病因分析)、商業(yè)統(tǒng)計(jì)(用戶畫像、客戶細(xì)分)的研究中,一般會(huì)將年齡離散化為幾個(gè)大類,比如18-24歲(0),24-30歲(1),30-40歲(2),40-50歲(3),50歲以上(4)等等,此時(shí),不同的年齡聚集到相應(yīng)的大類中,而年齡類別的取值越高,代表年齡越大。此時(shí),方差便有了實(shí)際含義。

    綜上所述,信息熵與方差有著很大的區(qū)別,但是又有著一定的聯(lián)系。在使用這兩個(gè)概念時(shí),需要對(duì)數(shù)據(jù)本身和兩者區(qū)別有著深入的了解,否則會(huì)出現(xiàn)錯(cuò)誤。

    致敬知乎上的大神們的理解:http://www.zhihu.com/question/36481348,這篇文章是在他們的啟發(fā)下創(chuàng)作。

推薦學(xué)習(xí)書籍

《CDA一級(jí)教材》適合CDA一級(jí)考生備考,也適合業(yè)務(wù)及數(shù)據(jù)分析崗位的從業(yè)者提升自我。完整電子版已上線CDA網(wǎng)校,累計(jì)已有10萬(wàn)+在讀~

免費(fèi)加入閱讀:https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0

數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說(shuō)明請(qǐng)參見(jiàn):http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }