99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀數(shù)據(jù)挖掘中所需的概率論與數(shù)理統(tǒng)計知識(二)
數(shù)據(jù)挖掘中所需的概率論與數(shù)理統(tǒng)計知識(二)
2014-11-11
收藏

數(shù)據(jù)挖掘中所需的概率論與數(shù)理統(tǒng)計知識(二)


離散.連續(xù).多維隨機變量及其分布

2.1、幾個基本概念點

(一)樣本空間

         定義:隨機試驗E的所有結(jié)果構(gòu)成的集合稱為E的 樣本空間,記為S={e},
        稱S中的元素e為樣本點,一個元素的單點集稱為基本事件.

(二)條件概率

  1. 條件概率就是事件A在另外一個事件B已經(jīng)發(fā)生條件下的發(fā)生概率。條件概率表示為P(A|B),讀作“在B條件下A的概率”。
  2. 聯(lián)合概率表示兩個事件共同發(fā)生的概率。A與B的聯(lián)合概率表示為或者。
  3. 邊緣概率是某個事件發(fā)生的概率。邊緣概率是這樣得到的:在聯(lián)合概率中,把最終結(jié)果中不需要的那些事件合并成其事件的全概率而消失(對離散隨機變量用求和得全概率,對連續(xù)隨機變量用積分得全概率)。這稱為邊緣化(marginalization)。A的邊緣概率表示為P(A),B的邊緣概率表示為P(B)。 
 在同一個樣本空間Ω中的事件或者子集A與B,如果隨機從Ω中選出的一個元素屬于B,那么這個隨機選擇的元素還屬于A的概率就定義為在B的前提下A的條件概率。從這個定義中,我們可以得出P(A|B) = |A∩B|/|B|分子、分母都除以|Ω|得到
    有時候也稱為后驗概率。
    同時,P(A|B)與P(B|A)的關系如下所示:
    。 

(三)全概率公式和貝葉斯公式

    1、全概率公式
    假設{ Bn : n = 1, 2, 3, ... } 是一個概率空間的有限或者可數(shù)無限的分割,且每個集合Bn是一個可測集合,則對任意事件A有全概率公式:
    又因為
    所以,此處Pr(A | B)是B發(fā)生后A的條件概率,所以全概率公式又可寫作:

     在離散情況下,上述公式等于下面這個公式:。但后者在連續(xù)情況下仍然成立:此處N是任意隨機變量。這個公式還可以表達為:"A的先驗概率等于A的后驗概率的先驗期望值。 
    2、貝葉斯公式
    貝葉斯定理(Bayes' theorem),是概率論中的一個結(jié)果,它跟隨機變量的條件概率以及邊緣概率分布有關。在有些關于概率的解說中,貝葉斯定理(貝葉斯更新)能夠告知我們?nèi)绾卫眯伦C據(jù)修改已有的看法。
    通常,事件A在事件B(發(fā)生)的條件下的概率,與事件B在事件A的條件下的概率是不一樣的;然而,這兩者是有確定的關系,貝葉斯定理就是這種關系的陳述。
    如此篇blog第二部分所述“據(jù)維基百科上的介紹,貝葉斯定理實際上是關于隨機事件A和B的條件概率和邊緣概率的一則定理。
   如上所示,其中P(A|B)是在B發(fā)生的情況下A發(fā)生的可能性。在貝葉斯定理中,每個名詞都有約定俗成的名稱:
  • P(A)是A的先驗概率或邊緣概率。之所以稱為"先驗"是因為它不考慮任何B方面的因素。
  • P(A|B)是已知B發(fā)生后A的條件概率(直白來講,就是先有B而后=>才有A),也由于得自B的取值而被稱作A的后驗概率。
  • P(B|A)是已知A發(fā)生后B的條件概率(直白來講,就是先有A而后=>才有B),也由于得自A的取值而被稱作B的后驗概率。
  • P(B)是B的先驗概率或邊緣概率,也作標準化常量(normalized constant)。
    按這些術語,Bayes定理可表述為:后驗概率 = (相似度*先驗概率)/標準化常量,也就是說,后驗概率與先驗概率和相似度的乘積成正比。另外,比例P(B|A)/P(B)也有時被稱作標準相似度(standardised likelihood),Bayes定理可表述為:后驗概率 = 標準相似度*先驗概率?!?/span>
    綜上,自此便有了一個問題,如何從從條件概率推導貝葉斯定理呢?

     根據(jù)條件概率的定義,在事件B發(fā)生的條件下事件A發(fā)生的概率是

    同樣地,在事件A發(fā)生的條件下事件B發(fā)生的概率

     整理與合并這兩個方程式,我們可以找到

     這個引理有時稱作概率乘法規(guī)則。上式兩邊同除以P(B),若P(B)是非零的,我們可以得到貝葉斯 定理:

2.2、隨機變量及其分布

2.2.1、何謂隨機變量

    何謂隨機變量?即給定樣本空間,其上的實值函數(shù)稱為(實值)隨機變量。

    如果隨機變量的取值是有限的或者是可數(shù)無窮盡的值,則稱為離散隨機變量(用白話說,此類隨機變量是間斷的)。
    如果由全部實數(shù)或者由一部分區(qū)間組成,則稱為連續(xù)隨機變量,連續(xù)隨機變量的值是不可數(shù)及無窮盡的(用白話說,此類隨機變量是連續(xù)的,不間斷的):

    也就是說,隨機變量分為離散型隨機變量,和連續(xù)型隨機變量,當要求隨機變量的概率分布的時候,要分別處理之,如:

  • 針對離散型隨機變量而言,一般以加法的形式處理其概率和;
  • 而針對連續(xù)型隨機變量而言,一般以積分形式求其概率和。

    再換言之,對離散隨機變量用求和得全概率,對連續(xù)隨機變量用積分得全概率。這點包括在第4節(jié)中相關期望.方差.協(xié)方差等概念會反復用到,望讀者注意之。

2.2.2、離散型隨機變量的定義

    定義:取值至多可數(shù)的隨機變量為離散型的隨機變量。概率分布(分布律)為
    且

(一)(0-1)分布

     若X的分布律為:
     同時,p+q=1,p>0,q>0,則則稱X服從參數(shù)為p的0-1分布,或兩點分布。
    此外,(0-1)分布的分布律還可表示為:
    或
    
    我們常說的拋硬幣實驗便符合此(0-1)分布。

(二)、二項分布

    二項分布是n個獨立的是/非試驗中成功的次數(shù)的離散概率分布,其中每次試驗的成功概率為p。這樣的單次成功/失敗試驗又稱為伯努利試驗。舉個例子就是,獨立重復地拋n次硬幣,每次只有兩個可能的結(jié)果:正面,反面,概率各占1/2。
    設A在n重貝努利試驗中發(fā)生X次,則
    并稱X服從參數(shù)為p的二項分布,記為:
    與此同時,

(三)、泊松分布(Poisson分布)

        Poisson分布(法語:loi de Poisson,英語:Poisson distribution),即泊松分布,是一種統(tǒng)計與概率學里常見到的離散概率分布,由法國數(shù)學家西莫恩·德尼·泊松(Siméon-Denis Poisson)在1838年時發(fā)表。
    若隨機變量X的概率分布律為
    稱X服從參數(shù)為λ的泊松分布,記為:
    有一點提前說一下,泊松分布中,其數(shù)學期望與方差相等,都為參數(shù)λ。 
泊松分布的來源
    在二項分布的伯努力試驗中,如果試驗次數(shù)n很大,二項分布的概率p很小,且乘積λ= n p比較適中,則事件出現(xiàn)的次數(shù)的概率可以用泊松分布來逼近。事實上,二項分布可以看作泊松分布在離散時間上的對應物。證明如下。
    首先,回顧e的定義:
    二項分布的定義:
    如果令,趨于無窮時的極限:
    上述過程表明:Poisson(λ) 分布可以看成是二項分布 B(n,p) 在 np=λ,n→∞ 條件下的極限分布。
最大似然估計
    給定n個樣本值ki,希望得到從中推測出總體的泊松分布參數(shù)λ的估計。為計算最大似然估計值, 列出對數(shù)似然函數(shù):
    對函數(shù)L取相對于λ的導數(shù)并令其等于零:
    解得λ從而得到一個駐點(stationary point):
    檢查函數(shù)L的二階導數(shù),發(fā)現(xiàn)對所有的λ 與ki大于零的情況二階導數(shù)都為負。因此求得的駐點是對數(shù)似然函數(shù)L的極大值點:
    證畢。OK,上面內(nèi)容都是針對的離散型隨機變量,那如何求連續(xù)型隨機變量的分布律呢?請接著看以下內(nèi)容。

2.2.3、隨機變量分布函數(shù)定義的引出

    實際中,如上2.2.2節(jié)所述,
  • 對于離散型隨機變量而言,其所有可能的取值可以一一列舉出來,
  • 可對于非離散型隨機變量,即連續(xù)型隨機變量X而言,其所有可能的值則無法一一列舉出來,
    故連續(xù)型隨機變量也就不能像離散型隨機變量那般可以用分布律來描述它,那怎么辦呢(事實上,只有因為連續(xù),所以才可導,所以才可積分,這些東西都是相通的。當然了,連續(xù)不一定可導,但可導一定連續(xù))?
    既然無法研究其全部,那么我們可以轉(zhuǎn)而去研究連續(xù)型隨機變量所取的值在一個區(qū)間(x1,x2] 的概率:P{x1 < X <=x2 },同時注意P{x1 < X <=x2 } = P{X <=x2} - P{X <=x1},故要求P{x1 < X <=x2 } ,我們只需求出P{X <=x2} 和 P{X <=x1} 即可。
    針對隨機變量X,對應變量x,則P(X<=x) 應為x的函數(shù)。如此,便引出了分布函數(shù)的定義。
    定義:隨機變量X,對任意實數(shù)x,稱函數(shù)F(x) = P(X <=x ) 為X 的概率分布函數(shù),簡稱分布函數(shù)。
    F(x)的幾何意義如下圖所示:
    且對于任意實數(shù)x1,x2(x1
    同時,F(xiàn)(X)有以下幾點性質(zhì):

2.2.4、連續(xù)型隨機變量及其概率密度

    定義:對于隨機變量X的分布函數(shù)F(x),若存在非負的函數(shù)f(x),使對于任意實數(shù)x,有:
     則稱X為連續(xù)型隨機變量,其中f(x)稱為X的概率密度函數(shù),簡稱概率密度。連續(xù)型隨機變量的概率密度f(x)有如下性質(zhì):
  1. ;
  2. ;

(針對上述第3點性質(zhì),我重點說明下:
  1. 在上文第1.4節(jié)中,有此牛頓-萊布尼茨公式:如果函數(shù)F (x)是連續(xù)函數(shù)f(x)在區(qū)間[a, b]上的一個原函數(shù), 則;
  2. 在上文2.2.3節(jié),連續(xù)隨機變量X 而言,對于任意實數(shù)a,b(a
故結(jié)合上述兩點,便可得出上述性質(zhì)3)

    且如果概率密度函數(shù)在一點上連續(xù),那么累積分布函數(shù)可導,并且它的導數(shù):。如下圖所示:
    接下來,介紹三種連續(xù)型隨機變量的分布,由于均勻分布及指數(shù)分布比較簡單,所以,一圖以概之,下文會重點介紹正態(tài)分布
(一)、均勻分布
    若連續(xù)型隨機變量X具有概率密度
    則稱X 在區(qū)間(a,b)上服從均勻分布,記為X~U(a,b)。
    易知,f(x) >= 0,且其期望值為(a + b)/ 2。
(二)、指數(shù)分布
    若連續(xù)型隨機變量X 的概率密度為
  
    其中λ>0為常數(shù),則稱X服從參數(shù)為λ的指數(shù)分布。記為
(三)、正態(tài)分布
     在各種公式紛至沓來之前,我先說一句:正態(tài)分布沒有你想的那么神秘,它無非是研究誤差分布的一個理論,因為實踐過程中,測量值和真實值總是存在一定的差異,這個不可避免的差異即誤差,而誤差的出現(xiàn)或者分布是有規(guī)律的,而正態(tài)分布不過就是研究誤差的分布規(guī)律的一個理論。
    OK,若隨機變量服從一個位置參數(shù)為、尺度參數(shù)為的概率分布,記為: 
    則其概率密度函數(shù)為
    我們便稱這樣的分布為正態(tài)分布或高斯分布,記為:
    正態(tài)分布的數(shù)學期望值或期望值等于位置參數(shù),決定了分布的位置;其方差的開平方,即標準差等于尺度參數(shù),決定了分布的幅度。正態(tài)分布的概率密度函數(shù)曲線呈鐘形,因此人們又經(jīng)常稱之為鐘形曲線。它有以下幾點性質(zhì),如下圖所示:
    正態(tài)分布的概率密度曲線則如下圖所示:

    當固定尺度參數(shù),改變位置參數(shù)的大小時,f(x)圖形的形狀不變,只是沿著x軸作平移變換,如下圖所示:
    而當固定位置參數(shù),改變尺度參數(shù)的大小時,f(x)圖形的對稱軸不變,形狀在改變,越小,圖形越高越瘦,越大,圖形越矮越胖。如下圖所示:
    故有咱們上面的結(jié)論,在正態(tài)分布中,稱μ為位置參數(shù)(決定對稱軸位置),而 σ為尺度參數(shù)(決定曲線分散性)。同時,在自然現(xiàn)象和社會現(xiàn)象中,大量隨機變量服從或近似服從正態(tài)分布。
    而我們通常所說的標準正態(tài)分布是位置參數(shù), 尺度參數(shù)正態(tài)分布,記為:
    相關內(nèi)容如下兩圖總結(jié)所示(來源:大嘴巴漫談數(shù)據(jù)挖掘):

2.2.5、各種分布的比較

    上文中,從離散型隨機變量的分布:(0-1)分布、泊松分布、二項分布,講到了連續(xù)型隨機變量的分布:均勻分布、指數(shù)分布、正態(tài)分布,那這么多分布,其各自的期望.方差(期望方差的概念下文將予以介紹)都是多少呢?雖說,還有不少分布上文尚未介紹,不過在此,提前總結(jié)下,如下兩圖所示(摘自盛驟版的概率論與數(shù)理統(tǒng)計一書后的附錄中):
    本文中,二維.多維隨機變量及其分布不再論述。本文來自:http://www.3lll3.cn/


數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗證碼對象,之后可以使用它調(diào)用相應的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }