99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁大數(shù)據(jù)時代信息熵與方差-聯(lián)系與區(qū)別
信息熵與方差-聯(lián)系與區(qū)別
2016-04-05
收藏
    熵的概念很早就在物理學中出現(xiàn),熱力學中的熵用于衡量物質狀態(tài)的混亂程度?;艚鹪凇稌r間簡歷》中也對熵有著有趣的表述:一個常有人打掃清潔的屋子,熵值低,一個不打掃的屋子,熵值就高,自然界的物質都傾向于向熵值高的方向運動…顯然熵就是混亂程度的指標。
    信息熵來源于香農的信息論,其含義與物理學的熵是近似的,也就是衡量信息的混亂程度,也是度量信息含量多少的重要指標。例如,北京動物園里有馬、牛、蛇、羊四種動物,而上海動物園則只有馬和牛兩種動物,此時顯然北京動物園動物品種更多,信息熵大,信息含量就比上海動物園大。下面是信息熵的計算公式:
     
    方差來源于統(tǒng)計學家對于數(shù)據(jù)分布的研究,發(fā)現(xiàn)方差能夠衡量一個隨機變量的離散程度與信息量的多少。例如,北京人民身高的方差比全國人民小,說明同樣是身高,全國人民比北京人民差異性更大,離散程度更高,當然信息量也就比北京人民大。下面是方差的計算公式:

    這里,兩個概念在信息量多少的表達上有著重疊的地方,而且在機器學習、數(shù)據(jù)挖掘的一些算法中,兩者都有很多的運用。例如決策樹算法使用信息熵之差信息增益來衡量自變量對于因變量的重要程度,文本挖掘中信息熵用來衡量單詞是否具有代表性,主成份分析中協(xié)方差矩陣的特征根表達了信息量的大小,回歸分析中(協(xié))方差作為衡量變量間信息重疊的重要指標…貌似都是在說信息量…
    那么兩者到底是一回事還是有很大區(qū)別呢?這里,講理論沒有太好的效果,必須要動手算算才能理解兩者的區(qū)別與聯(lián)系。
    這里在python中產生了三組服從正態(tài)分布隨機變量,樣本含量都為10000,其標準差依次為15,20,25,30,35均值都為100,此時再計算這三組隨機變量的信息熵,結果是此時信息熵和方差大小無關,這里說明了方差與信息熵在表達信息量大小時不能混用,有意思的是,在固定方差的情況下,信息熵卻與樣本含量有關,這里分樣本量分別為2500,5000,7500,10000,12500:

 

    究其原因,信息熵強調隨機變量中元素類別的不一致性,而方差強調隨機變量中元素取值的不一致性。在以上示例中,計算機隨機生成的隨機變量是一個連續(xù)變量,取值各不相同,在樣本量一定的情況下,無論隨機如何變化,方差如何變化,其類別均是一定的,每一個元素出現(xiàn)的概率都是一定的,即1/樣本量,所以信息熵此時永遠不變,但是樣本量變化時(取值也各不一樣),類別也跟著變化,元素出現(xiàn)的概率跟著變化(1/樣本量會變化),最終導致信息熵變化。
    既然信息熵強調隨機變量的類別,那么在分類型的隨機變量中與方差有什么區(qū)別與連續(xù)呢?下面在python中生成了五組隨機變量x1-x5,變量類型為二元型,具體取值見下圖:

    從X1到X5分別計算它們的信息熵和方差,結果如下:
    信息熵與方差
    將信息熵與方差綜合繪制到一張散點圖上:

    此時信息熵與方差呈現(xiàn)正向高度相關,此時,信息熵與方差在衡量隨機變量信息量大小時,可以起到相同的作用。這時因為此時隨機變量中,各個元素的取值與類別是一致的,取值大小和類別多少在這里是高度統(tǒng)一的,所以兩者都可適用。
    但是,需要特別注意的是,在很多二元乃至更多分類隨機變量中,類別本身擁有現(xiàn)實意義,但是類別的取值大小并沒有現(xiàn)實意義。比如人口統(tǒng)計學指標中的性別,男和女抽象為0和1,僅僅是一種指代的符號,數(shù)值本身沒有意義,類似的還有民族、居住地等,商業(yè)數(shù)據(jù)中,也有很多的例子,比如貸款類型、市場大區(qū)等。所以此時方差雖然可以計算,但無意義,衡量信息量大小只能用信息熵。
    那么,有沒有這么一種情況,隨機變量本身既強調類別的含義,同時也強調類別本身取值的大小呢?當然有,最典型的例子就是對連續(xù)變量離散化(分箱),在很多數(shù)據(jù)分析的情景中,需要對連續(xù)變量離散化以滿足后續(xù)要求,比如年齡,在進行醫(yī)學統(tǒng)計(藥品療效檢驗、病因分析)、商業(yè)統(tǒng)計(用戶畫像客戶細分)的研究中,一般會將年齡離散化為幾個大類,比如18-24歲(0),24-30歲(1),30-40歲(2),40-50歲(3),50歲以上(4)等等,此時,不同的年齡聚集到相應的大類中,而年齡類別的取值越高,代表年齡越大。此時,方差便有了實際含義。

    綜上所述,信息熵與方差有著很大的區(qū)別,但是又有著一定的聯(lián)系。在使用這兩個概念時,需要對數(shù)據(jù)本身和兩者區(qū)別有著深入的了解,否則會出現(xiàn)錯誤。

    致敬知乎上的大神們的理解:http://www.zhihu.com/question/36481348,這篇文章是在他們的啟發(fā)下創(chuàng)作。

推薦學習書籍

《CDA一級教材》適合CDA一級考生備考,也適合業(yè)務及數(shù)據(jù)分析崗位的從業(yè)者提升自我。完整電子版已上線CDA網(wǎng)校,累計已有10萬+在讀~

免費加入閱讀:https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師考試動態(tài)
數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調用 initGeetest 進行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調,回調的第一個參數(shù)驗證碼對象,之后可以使用它調用相應的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }