xyx性爽欧美,51成人精品午夜福利av免费七,顶级欧美熟妇高潮xxxxx

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

機器學(xué)習(xí)中概率論知識復(fù)習(xí)

2017-03-16

機器學(xué)習(xí)中概率論知識復(fù)習(xí)

1 基本概念

概率論在機器學(xué)習(xí)中扮演著一個核心角色，因為機器學(xué)習(xí)算法的設(shè)計通常依賴于對數(shù)據(jù)的概率假設(shè)。

1.1 概率空間

說到概率，通常是指一個具有不確定性的event發(fā)生的可能性。例如，下周二下雨的概率。因此，為了正式地討論概率論，我們首先要明確什么是可能事件。
正規(guī)說來，一個probability space是由三元組(Ω,F,P)定義：
- Ω為樣本空間
- F?2Ω(Ω的冪集)為（可度量的）事件空間
- P為將事件E∈F映射到0～1真值區(qū)間的概率度量（概率分布），可以將P看作概率函數(shù)
注： Ω的冪集2Ω——是Ω的所有子集的集合，符號：P(Ω):={U|U?Ω}，|Ω|=n個元素，|P(Ω)|=2n個元素。

假設(shè)給定樣本空間Ω，則對于事件空間F來說：
- F包含Ω本身和?

Example1: 假如我們投擲一個（6面）骰子，那么可能的樣本空間Ω={1,2,3,4,5,6}。我們可能感興趣的事件是骰子點數(shù)是奇數(shù)還是偶數(shù)，那么這種情況下事件空間就是F={?,{1,3,5},{2,4,6}}.

可以看到樣本空間Ω為有限集時，就像上一個例子，我們通常令事件空間F為2Ω。這種策略并不完全通用，但是在實際使用中通常是有效的。然而，當(dāng)樣本空間為無限集時，我們需要仔細(xì)定義事件空間。

Example2: 回到擲骰子的例子，假設(shè)事件空間F為2Ω ，進一步地，定義F上的概率函數(shù)P為：

那么這種概率分布P可以完整定義任意給出事件的發(fā)生概率（通過可加性公理）。例如，投擲點數(shù)為偶數(shù)的概率為：

因為任意事件（此處指樣本空間內(nèi)的投擲出各點數(shù)）之間都沒有交集

1.2 隨機變量

隨機變量在概率論中扮演著一個重要角色。最重要的一個事實是，隨機變量并不是變量，它們實際上是將（樣本空間中的）結(jié)果映射到真值的函數(shù)。我們通常用一個大寫字母來表示隨機變量。
Example3: 還是以擲骰子為例。另X為取決于投擲結(jié)果的隨機變量。X的一個自然選擇是將i映射到值i，例如，將事件“投擲1點”映射到值1。我們也可以選擇一些特別的映射，例如，我們有一個隨機變量Y——將所有的結(jié)果映射到0，這就是一個很無聊的函數(shù)。或者隨機變量Z——當(dāng)i為奇數(shù)時，將結(jié)果i映射到2i；當(dāng)i為偶數(shù)時，將結(jié)果i映射到i。

從某種意義上說，隨機變量讓我們可以將事件空間的形式概念抽象出來，通過定義隨機變量來采集相關(guān)事件。舉個例子，考慮Example1中投擲點數(shù)為奇／偶的事件空間。我們其實可以定義一個隨機變量，當(dāng)結(jié)果i為奇數(shù)時取值為1，否則隨機變量取值為0。這種二元算計變量在實際中非常常見，通常以指示變量為人所知，它是因用于指示某一特定事件是否發(fā)生而得名。所以為什么我們要引進事件空間？就是因為當(dāng)一個人在學(xué)習(xí)概率論（更嚴(yán)格來說）通過計量理論來學(xué)習(xí)時，樣本空間和事件空間的區(qū)別非常重要。這個話題對于這個簡短的復(fù)習(xí)來說太前沿了，因此不會涉及。不管怎樣，最好記住事件空間并不總是簡單的樣本空間的冪集。
繼續(xù)，我們后面主要會討論關(guān)于隨機變量的概率。雖然某些概率概念在不使用隨機變量的情況下也能準(zhǔn)確定義，但是隨機變量讓我們能提供一種對于概率論的更加統(tǒng)一的處理方式。取值為a的隨機變量X的概率可以記為：
P(X=a)或PX(a)
同時，我們將隨機變量X的取值范圍記為：Val(X)

1.3 概率分布，聯(lián)合分布，邊緣分布

我們經(jīng)常會談?wù)撟兞康姆植?。正式來說，它是指一個隨機變量取某一特定值的概率，例如：
Example4：假設(shè)在投擲一個骰子的樣本空間Ω上定義一個隨機變量X，如果骰子是均勻的，則X的分布為：

注意，盡管這個例子和Example2類似，但是它們有著不同的語義。Example2中定義的概率分布是對于事件而言，而這個例子中是隨機變量的概率分布。
我們用P(X)來表示隨機變量X的概率分布。
有時候，我們會同時討論大于一個變量的概率分布，這種概率分布稱為聯(lián)合分布，因為此事的概率是由所涉及到的所有變量共同決定的。這個可以用一個例子來闡明。
Example5：在投擲一個骰子的樣本空間上定義一個隨機變量X。定義一個指示變量Y，當(dāng)拋硬幣結(jié)果為正面朝上時取1，反面朝上時取0。假設(shè)骰子和硬幣都是均勻的，則X和Y的聯(lián)合分布如下：

P	X=1	X=2	X=3	X=4	X=5	X=6
Y=0	1/12	1/12	1/12	1/12	1/12	1/12
Y=1	1/12	1/12	1/12	1/12	1/12	1/12

像前面一樣，我們可以用P(X=a,Y=b)或PX,Y(a,b)來表示X取值為a且Y取值為b時的概率。用P(X,Y)來表示它們的聯(lián)合分布。
假定有一個隨機變量X和Y的聯(lián)合分布，我們就能討論X或Y的邊緣分布。邊緣分布是指一個隨機變量對于其自身的概率分布。為了得到一個隨機變量的邊緣分布，我們將該分布中的所有其它變量相加，準(zhǔn)確來說，就是：

之所以取名為邊緣分布，是因為如果我們將一個聯(lián)合分布的一列（或一行）的輸入相加，將結(jié)果寫在它的最后（也就是邊緣），那么該結(jié)果就是這個隨機變量取該值時的概率。當(dāng)然，這種思路僅在聯(lián)合分布涉及兩個變量時有幫助。

1.4 條件分布

條件分布為概率論中用于探討不確定性的關(guān)鍵工具之一。它明確了在另一隨機變量已知的情況下（或者更通俗來說，當(dāng)已知某事件為真時）的某一隨機變量的分布。
正式地，給定Y=b時，X=a的條件概率定義為：

注意，當(dāng)Y=b的概率為0時，上式不成立。

Example6：假設(shè)我們已知一個骰子投出的點數(shù)為奇數(shù)，想要知道投出的點數(shù)為“1”的概率。令X為代表點數(shù)的隨機變量，Y為指示變量，當(dāng)點數(shù)為奇數(shù)時取值為1，那么我們期望的概率可以寫為：

條件概率的思想可以自然地擴展到一個隨機變量的分布是以多個變量為條件時，即：

我們用P(X|Y=b)來表示當(dāng)Y=b時隨機變量X的分布，也可以用P(X|Y)來表示X的一系列分布，其中每一個都對應(yīng)不同的Y可以取的值。

1.5 獨立性

在概率論中，獨立性是指隨機變量的分布不因知道其它隨機變量的值而改變。在機器學(xué)習(xí)中，我們通常都會對數(shù)據(jù)做這樣的假設(shè)。例如，我們會假設(shè)訓(xùn)練樣本是從某一底層空間獨立提??；并且假設(shè)樣例i的標(biāo)簽獨立于樣例j(i≠j)的特性。
從數(shù)學(xué)角度來說，隨機變量X獨立于Y，當(dāng)：
P(X)=P(X|Y)
（注意，上式?jīng)]有標(biāo)明X,Y的取值，也就是說該公式對任意X,Y可能的取值均成立。）
利用等式(2)，很容易可以證明如果X對Y獨立，那么Y也獨立于X。當(dāng)X和Y相互獨立時，記為X⊥Y。
對于隨機變量X和Y的獨立性，有一個等價的數(shù)學(xué)公式：
P(X,Y)=P(X)P(Y)
我們有時也會討論條件獨立，就是當(dāng)我們當(dāng)我們知道一個隨機變量（或者更一般地，一組隨機變量）的值時，那么其它隨機變量之間相互獨立。正式地，我們說“給定Z，X和Y條件獨立”，如果：
P(X|Z)=P(X|Y,Z)
或者等價的：
P(X,Y|Z)=P(X|Z)P(Y|Z)
機器學(xué)習(xí)（Andrew Ng）的課中會有一個樸素貝葉斯假設(shè)就是條件獨立的一個例子。該學(xué)習(xí)算法對內(nèi)容做出假設(shè)，用來分辨電子郵件是否為垃圾郵件。假設(shè)無論郵件是否為垃圾郵件，單詞x出現(xiàn)在郵件中的概率條件獨立于單詞y。很明顯這個假設(shè)不是不失一般性的，因為某些單詞幾乎總是同時出現(xiàn)。然而，最終結(jié)果是，這個簡單的假設(shè)對結(jié)果的影響并不大，且無論如何都可以讓我們快速判別垃圾郵件。

1.6 鏈?zhǔn)椒▌t和貝葉斯定理

我們現(xiàn)在給出兩個與聯(lián)合分布和條件分布相關(guān)的，基礎(chǔ)但是重要的可操作定理。第一個叫做鏈?zhǔn)椒▌t，它可以看做等式(2)對于多變量的一般形式。
定理1（鏈?zhǔn)椒▌t）：

鏈?zhǔn)椒▌t通常用于計算多個隨機變量的聯(lián)合概率，特別是在變量之間相互為（條件）獨立時會非常有用。注意，在使用鏈?zhǔn)椒▌t時，我們可以選擇展開隨機變量的順序；選擇正確的順序通常可以讓概率的計算變得更加簡單。
第二個要介紹的是貝葉斯定理。利用貝葉斯定理，我們可以通過條件概率P(Y|X)計算出P(X|Y)，從某種意義上說，就是“交換”條件。它也可以通過等式(2)推導(dǎo)出。

定理2（貝葉斯定理）：

記得，如果P(Y)沒有給出，我們可以用等式(1)找到它：

這種等式(1)的應(yīng)用有時也被稱為全概率公式
貝葉斯定理可以推廣到多個隨機變量的情況。在有疑問的時候，我們都可以參考條件概率的定義方式，弄清楚其細(xì)節(jié)。
Example7：考慮以下的條件概率：P(X,Y|Z)和(X|Y,Z)

2 定義一個概率分布

前面已經(jīng)討論了一下概率分布，但是我們?nèi)绾味x一個分布呢？廣義上來說，有兩種類型的分布，它們看似需要進行兩種不同的處理（它們可以用度量學(xué)來進行統(tǒng)一）。也就是說，離散分布和連續(xù)分布。我們后面會討論如何定義分布。
注意，以下的討論和我們怎樣能有效表示一個分布是截然不同的。有效表示概率分布的課題實際上是一個非常重要且活躍的研究領(lǐng)域，它值得開一個專門的課程。

2.1 離散分布：概率質(zhì)量函數(shù)

就一個離散分布而言，我們是指這種基本分布的隨機變量只能取有限多個不同的值（或者樣本空間有限）。
在定義一個離散分布時，我們可以簡單地列舉出隨機變量取每一個可能值的概率。這種列舉方式稱為概率質(zhì)量函數(shù)（probability mass function[PMF]），因為它將（總概率的）每一個單元塊分開，并將它們和隨機變量可以取的不同值對應(yīng)起來。這個可以類似的擴展到聯(lián)合分布和條件分布。

2.2 連續(xù)分布：概率密度函數(shù)

對連續(xù)分布而言，我們是指這種基本分布的隨機變量能取無限多個不同值（或者說樣本空間是無限的）。
連續(xù)分布相比離散分布來說是一種更加需要揣摩的情況，因為如果我們將每一個值取非零質(zhì)量數(shù)，那么總質(zhì)量相加就會是一個無限值，這樣就不符合總概率相加等于1的要求。
在定義一個連續(xù)分布時，我們會使用概率密度函數(shù)（probability density function[PDF]）。概率密度函數(shù)f是一個非負(fù)，可積（分）的函數(shù)，類似于：

符合PDFf的隨機變量X的概率分布可以用如下公式計算：

注意，特別地，默認(rèn)連續(xù)分布的隨機變量取任意單一值的概率為零。

Example8：（均勻分布）假設(shè)隨機變量X在[0,1]上均勻分布，則對應(yīng)的PDF為：

我們可以確定為1，因此f為PDF。計算X的概率小于1/2:

更一般地，假設(shè)X在[a,b]上均勻分布，那么PDF即為：

有時我們也會討論累積分布函數(shù)，這種函數(shù)給出了隨機變量在小于某一值的概率。累積分布函數(shù)F和基本概率密度函數(shù)f的關(guān)系如下：

因此，F(xiàn)(x)=∫f(x)dx（就不定積分而言）。
要將連續(xù)分布的定義擴展到聯(lián)合分布，需要把概率密度函數(shù)擴展為多個參數(shù)，即：

將條件分布擴展到連續(xù)隨機變量時，會遇到一個問題——連續(xù)隨機變量在單個值上的概率為0，因此等式(2)不成立，因為分母等于0。為了定義連續(xù)變量的條件分布，要令f(x,y)為X和Y的聯(lián)合分布。通過分析，我們能看到基于分布P(Y|X)的PDF f(y|x)為：

即如果直接用P的話，P可能在分母為零，所以用f，通過f積分間接得到P。
例如：

3 期望(Expectations)和方差(Variance)

3.1 期望

我們對隨機變量做的最常見的操作之一就是計算它的期望，也就是它的平均值(mean)，期望值(expected value)，或一階矩(first moment)。隨機變量的期望記為E(x)，計算公式：

Example9：令X為投擲一個均勻骰子的結(jié)果，則X的期望為：

有時我們可能會對計算隨機變量X的某一函數(shù)f的期望值感興趣，再次重申，隨機變量本身也是一個函數(shù)，因此最簡單的考慮方法是定義一個新的隨機變量Y=f(X)，然后計算Y的期望。
當(dāng)使用指示變量時，一個有用的判別方式是：
E(X)=P(X=1) X為指示變量
此處可以腦補X還有一個取值為0，即E(x)=1×P(X=1)+0×P(X=0)=P(X=1)
當(dāng)遇到隨機變量的和時，一個最重要的規(guī)則之一是線性期望(linearity of expectations)。
定理3（線性期望）：令X1,X2,…,Xn為（可能是獨立的）隨機變量：

期望為線性函數(shù)。
期望的線性非常強大，因為它對于變量是否獨立沒有限制。當(dāng)我們對隨機變量的結(jié)果進行處理時，通常沒什么可說的，但是，當(dāng)隨機變量相互獨立時，有：
定理4：令X和Y為相互獨立的隨機變量，則：
E(XY)=E(X)E(Y)

3.2 方差

一個隨機變量的方差描述的是它的離散程度，也就是該變量離其期望值的距離。一個實隨機變量的方差也稱為它的二階矩或二階中心動差，恰巧也是它的二階累積量。方差的算術(shù)平方根稱為該隨機變量的標(biāo)準(zhǔn)差。

方差的定義：

隨機變量的方差通常記為σ2，給它取平方的原因是因為我們通常想要找到σ，也就是標(biāo)準(zhǔn)差。方差和標(biāo)準(zhǔn)差（很明顯）可以用公式相關(guān)聯(lián)。
為了找到隨機變量X的方差，通常用以下替代公式更簡單：

注意，不同于期望，方差不是關(guān)于隨機變量X的線性函數(shù)，事實上，我們可以證明(aX+b)的方差為：

如果隨機變量X和Y相互獨立，那么：
Var(X+Y)=Var(X)Var(Y),如果X⊥Y
有時我們也會討論兩個隨機變量的協(xié)方差，它可以用來度量兩個隨機變量的相關(guān)性，定義如下：
Cov(X,Y)=E((X?E(X))(Y?E(Y)))

4 一些重要的分布

以下包含一些課中會提到的概率分布，但是并不是我們所需要了解的全部概率分布，特別是幾何分布、超幾何分布、二項分布等，這些都是在各自的領(lǐng)域十分有用，并且在基礎(chǔ)概率論中有研究到的，沒有在此提及。

4.1 伯努利（Bernoulli）分布

伯努利分布是最基礎(chǔ)的概率分布之一，一個服從伯努利分布的隨機變量有兩種取值{0,1} ，它能通過一個變量p來表示其概率，為了方便，我們令P(X=1)為p。它通常用于預(yù)測試驗是否成功。
有時將一個服從伯努利分布的變量X的概率分布按如下表示會很有用：

一個伯努利分布起作用的例子是Lecture Notes1中的分類任務(wù)。為了給這個任務(wù)開發(fā)一個邏輯回歸算法，對于特征來說，我們假設(shè)標(biāo)簽遵循伯努利概率分布。

4.2 泊松（Poisson）分布

泊松分布是一種非常有用的概率分布，通常用于處理事件發(fā)生次數(shù)的概率分布。在給定一個事件發(fā)生的固定平均概率，并且在該段事件內(nèi)事件發(fā)生相互獨立時，它可以用來度量單位時間內(nèi)事件發(fā)生的次數(shù)。它包含一個參數(shù)——平均事件發(fā)生率λ。泊松分布的概率質(zhì)量函數(shù)為：

服從泊松分布的隨機變量的平均值為λ，其方差也為λ，E(X)=V(X)=λ

4.3 高斯（Gaussian）分布

高斯分布，也就是正態(tài)分布，是概率論中最“通用”的概率分布之一，并且在很多環(huán)境中都有出現(xiàn)。例如，在試驗數(shù)量很大時用在二項分布的近似處理中，或者在平均事件發(fā)生率很高時用于泊松分布。它還和大數(shù)定理相關(guān)。對于很多問題來說，我們還會經(jīng)常假設(shè)系統(tǒng)中的噪聲服從高斯分布?；诟咚狗植嫉膽?yīng)用很多很多。

上圖為不同期望和方差下的高斯分布。
高斯分布由兩個參數(shù)決定：期望μ和方差σ2。其概率密度函數(shù)為：

為了更好的感受概率分布隨著期望和方差的改變，在上圖中繪制了三種不同的高斯分布。
在這個課中，我們會經(jīng)常和多變量高斯分布打交道。一個k維多變量高斯分布用參數(shù)(μ,∑)表示，其中，μ為?k上的期望矢量，∑為?k×k上的協(xié)方差矩陣，也就是說，∑ii=Var(Xi)且∑ij=Cov(Xi,Xj)。其概率密度函數(shù)由輸入的矢量定義：

（我們標(biāo)記矩陣A的行列式為|A|，其轉(zhuǎn)置為A?1）
處理多變量高斯分布有時可能會比較困難，令人生畏。讓我們生活更簡單的一個方法，至少是讓我們有對于某個問題的直覺的一個方法，是在我們剛開始試圖解決一個問題時假設(shè)協(xié)方差為零。當(dāng)協(xié)方差為零時，行列式∣∣∑∣∣就僅由變量生成，可以對∑對角線元素做轉(zhuǎn)置來得到它的轉(zhuǎn)置∑?1。

5 概率處理

因為接下來會有很多對概率和分布的處理，所以下面列出一些用于有效處理概率分布的tips。

5.1 The log trick

在機器學(xué)習(xí)中，我們通常會假設(shè)不同樣本之間相互獨立。因此，我們常常需要對一定數(shù)量（大量）的概率分布的產(chǎn)物進行處理。當(dāng)我們的目標(biāo)為優(yōu)化這些產(chǎn)物的函數(shù)時，如果我們先處理這些函數(shù)的對數(shù)通常會更加簡單。因為取對數(shù)的函數(shù)是一個嚴(yán)格單增函數(shù)，因此它不會改變最大值的取值點（盡管更加明確來說，這個函數(shù)在取對數(shù)前后的最大值是不同的）。
舉例來說，在Lecture Note 1，第17頁的似然函數(shù)：

我敢說這是一個看起來相當(dāng)嚇人的函數(shù)，但是通過對它取對數(shù)，相應(yīng)的我們可以得到：

現(xiàn)在它不是世界上最漂亮的函數(shù)，但至少更加易處理。我們現(xiàn)在可以一次處理一項（即一個訓(xùn)練樣本），因為它們是相加而不是相乘。

5.2 延遲歸一化（Delayed Normalization）

因為概率相加要等于一，我們常常要進行歸一化處理，特別是對連續(xù)概率分布來說。例如，對于高斯分布來說，指數(shù)外面的項就是為了確保PDF的積分等于1。當(dāng)我們確定某些代數(shù)的最終結(jié)果為一個概率分布，或者在尋找某些最優(yōu)分布時，將歸一化常數(shù)記為Z通常會更加簡單，而不用一直考慮計算出歸一化常數(shù)。

5.3 Jenson不等式

有時我們會計算一個函數(shù)對某個隨機變量的期望，通常我們只需要一個區(qū)間而不是具體的某個值。在這種情況下，如果該函數(shù)是凸函數(shù)或者凹函數(shù)，通過Jenson不等式，我們可以通過計算隨機變量自身期望處的函數(shù)值來獲得一個區(qū)間。

（上圖為Jenson不等式圖示）
定理5 （Jenson不等式）：令X為一個隨機變量，f為凸函數(shù)，那么：
f(E(X))≤E(f(X)) 數(shù)據(jù)分析師培訓(xùn)
如果f為凹函數(shù)，那么：
f(E(X))≥E(f(X))
盡管我們可以用代數(shù)表示Jenson不等式，但是通過一張圖更容易理解。上圖中的函數(shù)為一個凹函數(shù)，我們可以看到該函數(shù)任意兩點之間的直線都在函數(shù)的上方，也就是說，如果一個隨機變量只能取兩個值，那么Jenson不等式成立。這個也可以比較直接地推廣到一般隨機變量。