99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁(yè)精彩閱讀數(shù)據(jù)挖掘中所需的概率論與數(shù)理統(tǒng)計(jì)知識(shí)(二)
數(shù)據(jù)挖掘中所需的概率論與數(shù)理統(tǒng)計(jì)知識(shí)(二)
2014-11-11
收藏

數(shù)據(jù)挖掘中所需的概率論與數(shù)理統(tǒng)計(jì)知識(shí)(二)


離散.連續(xù).多維隨機(jī)變量及其分布

2.1、幾個(gè)基本概念點(diǎn)

(一)樣本空間

         定義:隨機(jī)試驗(yàn)E的所有結(jié)果構(gòu)成的集合稱為E的 樣本空間,記為S={e},
        稱S中的元素e為樣本點(diǎn),一個(gè)元素的單點(diǎn)集稱為基本事件.

(二)條件概率

  1. 條件概率就是事件A在另外一個(gè)事件B已經(jīng)發(fā)生條件下的發(fā)生概率。條件概率表示為P(A|B),讀作“在B條件下A的概率”。
  2. 聯(lián)合概率表示兩個(gè)事件共同發(fā)生的概率。A與B的聯(lián)合概率表示為或者
  3. 邊緣概率是某個(gè)事件發(fā)生的概率。邊緣概率是這樣得到的:在聯(lián)合概率中,把最終結(jié)果中不需要的那些事件合并成其事件的全概率而消失(對(duì)離散隨機(jī)變量用求和得全概率,對(duì)連續(xù)隨機(jī)變量用積分得全概率)。這稱為邊緣化(marginalization)。A的邊緣概率表示為P(A),B的邊緣概率表示為P(B)。 
 在同一個(gè)樣本空間Ω中的事件或者子集A與B,如果隨機(jī)從Ω中選出的一個(gè)元素屬于B,那么這個(gè)隨機(jī)選擇的元素還屬于A的概率就定義為在B的前提下A的條件概率。從這個(gè)定義中,我們可以得出P(A|B) = |A∩B|/|B|分子、分母都除以|Ω|得到
    有時(shí)候也稱為后驗(yàn)概率。
    同時(shí),P(A|B)與P(B|A)的關(guān)系如下所示:
    。 

(三)全概率公式和貝葉斯公式

    1、全概率公式
    假設(shè){ Bn : n = 1, 2, 3, ... } 是一個(gè)概率空間的有限或者可數(shù)無限的分割,且每個(gè)集合Bn是一個(gè)可測(cè)集合,則對(duì)任意事件A有全概率公式:
    又因?yàn)?/span>
    所以,此處Pr(A | B)是B發(fā)生后A的條件概率,所以全概率公式又可寫作:

     在離散情況下,上述公式等于下面這個(gè)公式:。但后者在連續(xù)情況下仍然成立:此處N是任意隨機(jī)變量。這個(gè)公式還可以表達(dá)為:"A的先驗(yàn)概率等于A的后驗(yàn)概率的先驗(yàn)期望值。 
    2、貝葉斯公式
    貝葉斯定理(Bayes' theorem),是概率論中的一個(gè)結(jié)果,它跟隨機(jī)變量的條件概率以及邊緣概率分布有關(guān)。在有些關(guān)于概率的解說中,貝葉斯定理(貝葉斯更新)能夠告知我們?nèi)绾卫眯伦C據(jù)修改已有的看法。
    通常,事件A在事件B(發(fā)生)的條件下的概率,與事件B在事件A的條件下的概率是不一樣的;然而,這兩者是有確定的關(guān)系,貝葉斯定理就是這種關(guān)系的陳述。
    如此篇blog第二部分所述“據(jù)維基百科上的介紹,貝葉斯定理實(shí)際上是關(guān)于隨機(jī)事件A和B的條件概率和邊緣概率的一則定理。
   如上所示,其中P(A|B)是在B發(fā)生的情況下A發(fā)生的可能性。在貝葉斯定理中,每個(gè)名詞都有約定俗成的名稱:
  • P(A)是A的先驗(yàn)概率或邊緣概率。之所以稱為"先驗(yàn)"是因?yàn)樗豢紤]任何B方面的因素。
  • P(A|B)是已知B發(fā)生后A的條件概率(直白來講,就是先有B而后=>才有A),也由于得自B的取值而被稱作A的后驗(yàn)概率。
  • P(B|A)是已知A發(fā)生后B的條件概率(直白來講,就是先有A而后=>才有B),也由于得自A的取值而被稱作B的后驗(yàn)概率。
  • P(B)是B的先驗(yàn)概率或邊緣概率,也作標(biāo)準(zhǔn)化常量(normalized constant)。
    按這些術(shù)語(yǔ),Bayes定理可表述為:后驗(yàn)概率 = (相似度*先驗(yàn)概率)/標(biāo)準(zhǔn)化常量,也就是說,后驗(yàn)概率與先驗(yàn)概率和相似度的乘積成正比。另外,比例P(B|A)/P(B)也有時(shí)被稱作標(biāo)準(zhǔn)相似度(standardised likelihood),Bayes定理可表述為:后驗(yàn)概率 = 標(biāo)準(zhǔn)相似度*先驗(yàn)概率?!?/span>
    綜上,自此便有了一個(gè)問題,如何從從條件概率推導(dǎo)貝葉斯定理呢?

     根據(jù)條件概率的定義,在事件B發(fā)生的條件下事件A發(fā)生的概率是

    同樣地,在事件A發(fā)生的條件下事件B發(fā)生的概率

     整理與合并這兩個(gè)方程式,我們可以找到

     這個(gè)引理有時(shí)稱作概率乘法規(guī)則。上式兩邊同除以P(B),若P(B)是非零的,我們可以得到貝葉斯 定理:

2.2、隨機(jī)變量及其分布

2.2.1、何謂隨機(jī)變量

    何謂隨機(jī)變量?即給定樣本空間,其上的實(shí)值函數(shù)稱為(實(shí)值)隨機(jī)變量。

    如果隨機(jī)變量的取值是有限的或者是可數(shù)無窮盡的值,則稱為離散隨機(jī)變量(用白話說,此類隨機(jī)變量是間斷的)。
    如果由全部實(shí)數(shù)或者由一部分區(qū)間組成,則稱為連續(xù)隨機(jī)變量,連續(xù)隨機(jī)變量的值是不可數(shù)及無窮盡的(用白話說,此類隨機(jī)變量是連續(xù)的,不間斷的):

    也就是說,隨機(jī)變量分為離散型隨機(jī)變量,和連續(xù)型隨機(jī)變量,當(dāng)要求隨機(jī)變量的概率分布的時(shí)候,要分別處理之,如:

  • 針對(duì)離散型隨機(jī)變量而言,一般以加法的形式處理其概率和;
  • 而針對(duì)連續(xù)型隨機(jī)變量而言,一般以積分形式求其概率和。

    再換言之,對(duì)離散隨機(jī)變量用求和得全概率,對(duì)連續(xù)隨機(jī)變量用積分得全概率。這點(diǎn)包括在第4節(jié)中相關(guān)期望.方差.協(xié)方差等概念會(huì)反復(fù)用到,望讀者注意之。

2.2.2、離散型隨機(jī)變量的定義

    定義:取值至多可數(shù)的隨機(jī)變量為離散型的隨機(jī)變量。概率分布(分布律)為
    且

(一)(0-1)分布

     若X的分布律為:
     同時(shí),p+q=1,p>0,q>0,則則稱X服從參數(shù)為p的0-1分布,或兩點(diǎn)分布。
    此外,(0-1)分布的分布律還可表示為:
    或
    
    我們常說的拋硬幣實(shí)驗(yàn)便符合此(0-1)分布。

(二)、二項(xiàng)分布

    二項(xiàng)分布是n個(gè)獨(dú)立的是/非試驗(yàn)中成功的次數(shù)的離散概率分布,其中每次試驗(yàn)的成功概率為p。這樣的單次成功/失敗試驗(yàn)又稱為伯努利試驗(yàn)。舉個(gè)例子就是,獨(dú)立重復(fù)地拋n次硬幣,每次只有兩個(gè)可能的結(jié)果:正面,反面,概率各占1/2。
    設(shè)A在n重貝努利試驗(yàn)中發(fā)生X次,則
    并稱X服從參數(shù)為p的二項(xiàng)分布,記為:
    與此同時(shí),

(三)、泊松分布(Poisson分布)

        Poisson分布(法語(yǔ):loi de Poisson,英語(yǔ):Poisson distribution),即泊松分布,是一種統(tǒng)計(jì)與概率學(xué)里常見到的離散概率分布,由法國(guó)數(shù)學(xué)家西莫恩·德尼·泊松(Siméon-Denis Poisson)在1838年時(shí)發(fā)表。
    若隨機(jī)變量X的概率分布律為
    稱X服從參數(shù)為λ的泊松分布,記為:
    有一點(diǎn)提前說一下,泊松分布中,其數(shù)學(xué)期望與方差相等,都為參數(shù)λ。 
泊松分布的來源
    在二項(xiàng)分布的伯努力試驗(yàn)中,如果試驗(yàn)次數(shù)n很大,二項(xiàng)分布的概率p很小,且乘積λ= n p比較適中,則事件出現(xiàn)的次數(shù)的概率可以用泊松分布來逼近。事實(shí)上,二項(xiàng)分布可以看作泊松分布在離散時(shí)間上的對(duì)應(yīng)物。證明如下。
    首先,回顧e的定義:
    二項(xiàng)分布的定義:
    如果令,趨于無窮時(shí)的極限:
    上述過程表明:Poisson(λ) 分布可以看成是二項(xiàng)分布 B(n,p) 在 np=λ,n→∞ 條件下的極限分布。
最大似然估計(jì)
    給定n個(gè)樣本值ki,希望得到從中推測(cè)出總體的泊松分布參數(shù)λ的估計(jì)。為計(jì)算最大似然估計(jì)值, 列出對(duì)數(shù)似然函數(shù):
    對(duì)函數(shù)L取相對(duì)于λ的導(dǎo)數(shù)并令其等于零:
    解得λ從而得到一個(gè)駐點(diǎn)(stationary point):
    檢查函數(shù)L的二階導(dǎo)數(shù),發(fā)現(xiàn)對(duì)所有的λ 與ki大于零的情況二階導(dǎo)數(shù)都為負(fù)。因此求得的駐點(diǎn)是對(duì)數(shù)似然函數(shù)L的極大值點(diǎn):
    證畢。OK,上面內(nèi)容都是針對(duì)的離散型隨機(jī)變量,那如何求連續(xù)型隨機(jī)變量的分布律呢?請(qǐng)接著看以下內(nèi)容。

2.2.3、隨機(jī)變量分布函數(shù)定義的引出

    實(shí)際中,如上2.2.2節(jié)所述,
  • 對(duì)于離散型隨機(jī)變量而言,其所有可能的取值可以一一列舉出來,
  • 可對(duì)于非離散型隨機(jī)變量,即連續(xù)型隨機(jī)變量X而言,其所有可能的值則無法一一列舉出來,
    故連續(xù)型隨機(jī)變量也就不能像離散型隨機(jī)變量那般可以用分布律來描述它,那怎么辦呢(事實(shí)上,只有因?yàn)檫B續(xù),所以才可導(dǎo),所以才可積分,這些東西都是相通的。當(dāng)然了,連續(xù)不一定可導(dǎo),但可導(dǎo)一定連續(xù))?
    既然無法研究其全部,那么我們可以轉(zhuǎn)而去研究連續(xù)型隨機(jī)變量所取的值在一個(gè)區(qū)間(x1,x2] 的概率:P{x1 < X <=x2 },同時(shí)注意P{x1 < X <=x2 } = P{X <=x2} - P{X <=x1},故要求P{x1 < X <=x2 } ,我們只需求出P{X <=x2} 和 P{X <=x1} 即可。
    針對(duì)隨機(jī)變量X,對(duì)應(yīng)變量x,則P(X<=x) 應(yīng)為x的函數(shù)。如此,便引出了分布函數(shù)的定義。
    定義:隨機(jī)變量X,對(duì)任意實(shí)數(shù)x,稱函數(shù)F(x) = P(X <=x ) 為X 的概率分布函數(shù),簡(jiǎn)稱分布函數(shù)。
    F(x)的幾何意義如下圖所示:
    且對(duì)于任意實(shí)數(shù)x1,x2(x1
    同時(shí),F(xiàn)(X)有以下幾點(diǎn)性質(zhì):

2.2.4、連續(xù)型隨機(jī)變量及其概率密度

    定義:對(duì)于隨機(jī)變量X的分布函數(shù)F(x),若存在非負(fù)的函數(shù)f(x),使對(duì)于任意實(shí)數(shù)x,有:
     則稱X為連續(xù)型隨機(jī)變量,其中f(x)稱為X的概率密度函數(shù),簡(jiǎn)稱概率密度。連續(xù)型隨機(jī)變量的概率密度f(wàn)(x)有如下性質(zhì):



(針對(duì)上述第3點(diǎn)性質(zhì),我重點(diǎn)說明下:
  1. 在上文第1.4節(jié)中,有此牛頓-萊布尼茨公式:如果函數(shù)F (x)是連續(xù)函數(shù)f(x)在區(qū)間[a, b]上的一個(gè)原函數(shù), 則;
  2. 在上文2.2.3節(jié),連續(xù)隨機(jī)變量X 而言,對(duì)于任意實(shí)數(shù)a,b(a
故結(jié)合上述兩點(diǎn),便可得出上述性質(zhì)3)

    且如果概率密度函數(shù)在一點(diǎn)上連續(xù),那么累積分布函數(shù)可導(dǎo),并且它的導(dǎo)數(shù):。如下圖所示:
    接下來,介紹三種連續(xù)型隨機(jī)變量的分布,由于均勻分布及指數(shù)分布比較簡(jiǎn)單,所以,一圖以概之,下文會(huì)重點(diǎn)介紹正態(tài)分布
(一)、均勻分布
    若連續(xù)型隨機(jī)變量X具有概率密度
    則稱X 在區(qū)間(a,b)上服從均勻分布,記為X~U(a,b)。
    易知,f(x) >= 0,且其期望值為(a + b)/ 2。
(二)、指數(shù)分布
    若連續(xù)型隨機(jī)變量X 的概率密度為
  
    其中λ>0為常數(shù),則稱X服從參數(shù)為λ的指數(shù)分布。記為
(三)、正態(tài)分布
     在各種公式紛至沓來之前,我先說一句:正態(tài)分布沒有你想的那么神秘,它無非是研究誤差分布的一個(gè)理論,因?yàn)閷?shí)踐過程中,測(cè)量值和真實(shí)值總是存在一定的差異,這個(gè)不可避免的差異即誤差,而誤差的出現(xiàn)或者分布是有規(guī)律的,而正態(tài)分布不過就是研究誤差的分布規(guī)律的一個(gè)理論。
    OK,若隨機(jī)變量服從一個(gè)位置參數(shù)為、尺度參數(shù)為的概率分布,記為: 
    則其概率密度函數(shù)為
    我們便稱這樣的分布為正態(tài)分布或高斯分布,記為:
    正態(tài)分布的數(shù)學(xué)期望值或期望值等于位置參數(shù),決定了分布的位置;其方差的開平方,即標(biāo)準(zhǔn)差等于尺度參數(shù),決定了分布的幅度。正態(tài)分布的概率密度函數(shù)曲線呈鐘形,因此人們又經(jīng)常稱之為鐘形曲線。它有以下幾點(diǎn)性質(zhì),如下圖所示:
    正態(tài)分布的概率密度曲線則如下圖所示:

    當(dāng)固定尺度參數(shù),改變位置參數(shù)的大小時(shí),f(x)圖形的形狀不變,只是沿著x軸作平移變換,如下圖所示:
    而當(dāng)固定位置參數(shù),改變尺度參數(shù)的大小時(shí),f(x)圖形的對(duì)稱軸不變,形狀在改變,越小,圖形越高越瘦,越大,圖形越矮越胖。如下圖所示:
    故有咱們上面的結(jié)論,在正態(tài)分布中,稱μ為位置參數(shù)(決定對(duì)稱軸位置),而 σ為尺度參數(shù)(決定曲線分散性)。同時(shí),在自然現(xiàn)象和社會(huì)現(xiàn)象中,大量隨機(jī)變量服從或近似服從正態(tài)分布
    而我們通常所說的標(biāo)準(zhǔn)正態(tài)分布是位置參數(shù), 尺度參數(shù)正態(tài)分布,記為:
    相關(guān)內(nèi)容如下兩圖總結(jié)所示(來源:大嘴巴漫談數(shù)據(jù)挖掘):

2.2.5、各種分布的比較

    上文中,從離散型隨機(jī)變量的分布:(0-1)分布、泊松分布、二項(xiàng)分布,講到了連續(xù)型隨機(jī)變量的分布:均勻分布、指數(shù)分布、正態(tài)分布,那這么多分布,其各自的期望.方差(期望方差的概念下文將予以介紹)都是多少呢?雖說,還有不少分布上文尚未介紹,不過在此,提前總結(jié)下,如下兩圖所示(摘自盛驟版的概率論與數(shù)理統(tǒng)計(jì)一書后的附錄中):
    本文中,二維.多維隨機(jī)變量及其分布不再論述。本文來自:http://www.3lll3.cn/


數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請(qǐng)參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }