99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁(yè)精彩閱讀機(jī)器學(xué)習(xí)中概率論知識(shí)復(fù)習(xí)
機(jī)器學(xué)習(xí)中概率論知識(shí)復(fù)習(xí)
2017-03-16
收藏

機(jī)器學(xué)習(xí)中概率論知識(shí)復(fù)習(xí)

1 基本概念

概率論在機(jī)器學(xué)習(xí)中扮演著一個(gè)核心角色,因?yàn)?a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)算法的設(shè)計(jì)通常依賴于對(duì)數(shù)據(jù)的概率假設(shè)。

1.1 概率空間

說(shuō)到概率,通常是指一個(gè)具有不確定性的event發(fā)生的可能性。例如,下周二下雨的概率。因此,為了正式地討論概率論,我們首先要明確什么是可能事件。 
正規(guī)說(shuō)來(lái),一個(gè)probability space是由三元組(Ω,F,P)定義: 
- Ω為樣本空間 
- F?2Ω(Ω的冪集)為(可度量的)事件空間 
- P為將事件E∈F映射到0~1真值區(qū)間的概率度量(概率分布),可以將P看作概率函數(shù) 
注: Ω的冪集2Ω——是Ω的所有子集的集合,符號(hào):P(Ω):={U|U?Ω},|Ω|=n個(gè)元素,|P(Ω)|=2n個(gè)元素。

假設(shè)給定樣本空間Ω,則對(duì)于事件空間F來(lái)說(shuō): 
- F包含Ω本身和? 

Example1: 假如我們投擲一個(gè)(6面)骰子,那么可能的樣本空間Ω={1,2,3,4,5,6}。我們可能感興趣的事件是骰子點(diǎn)數(shù)是奇數(shù)還是偶數(shù),那么這種情況下事件空間就是F={?,{1,3,5},{2,4,6}}.

可以看到樣本空間Ω為有限集時(shí),就像上一個(gè)例子,我們通常令事件空間F為2Ω。這種策略并不完全通用,但是在實(shí)際使用中通常是有效的。然而,當(dāng)樣本空間為無(wú)限集時(shí),我們需要仔細(xì)定義事件空間。 

Example2: 回到擲骰子的例子,假設(shè)事件空間F為2Ω ,進(jìn)一步地,定義F上的概率函數(shù)P為: 

那么這種概率分布P可以完整定義任意給出事件的發(fā)生概率(通過(guò)可加性公理)。例如,投擲點(diǎn)數(shù)為偶數(shù)的概率為: 

因?yàn)槿我馐录ù颂幹笜颖究臻g內(nèi)的投擲出各點(diǎn)數(shù))之間都沒(méi)有交集

1.2 隨機(jī)變量

隨機(jī)變量在概率論中扮演著一個(gè)重要角色。最重要的一個(gè)事實(shí)是,隨機(jī)變量并不是變量,它們實(shí)際上是將(樣本空間中的)結(jié)果映射到真值的函數(shù)。我們通常用一個(gè)大寫(xiě)字母來(lái)表示隨機(jī)變量。 
Example3: 還是以擲骰子為例。 另X為取決于投擲結(jié)果的隨機(jī)變量。X的一個(gè)自然選擇是將i映射到值i,例如,將事件“投擲1點(diǎn)”映射到值1。我們也可以選擇一些特別的映射,例如,我們有一個(gè)隨機(jī)變量Y——將所有的結(jié)果映射到0,這就是一個(gè)很無(wú)聊的函數(shù)?;蛘唠S機(jī)變量Z——當(dāng)i為奇數(shù)時(shí),將結(jié)果i映射到2i;當(dāng)i為偶數(shù)時(shí),將結(jié)果i映射到i。

從某種意義上說(shuō),隨機(jī)變量讓我們可以將事件空間的形式概念抽象出來(lái),通過(guò)定義隨機(jī)變量來(lái)采集相關(guān)事件。舉個(gè)例子,考慮Example1中投擲點(diǎn)數(shù)為奇/偶的事件空間。我們其實(shí)可以定義一個(gè)隨機(jī)變量,當(dāng)結(jié)果i為奇數(shù)時(shí)取值為1,否則隨機(jī)變量取值為0。這種二元算計(jì)變量在實(shí)際中非常常見(jiàn),通常以指示變量為人所知,它是因用于指示某一特定事件是否發(fā)生而得名。所以為什么我們要引進(jìn)事件空間?就是因?yàn)楫?dāng)一個(gè)人在學(xué)習(xí)概率論(更嚴(yán)格來(lái)說(shuō))通過(guò)計(jì)量理論來(lái)學(xué)習(xí)時(shí),樣本空間和事件空間的區(qū)別非常重要。這個(gè)話題對(duì)于這個(gè)簡(jiǎn)短的復(fù)習(xí)來(lái)說(shuō)太前沿了,因此不會(huì)涉及。不管怎樣,最好記住事件空間并不總是簡(jiǎn)單的樣本空間的冪集。 
繼續(xù),我們后面主要會(huì)討論關(guān)于隨機(jī)變量的概率。雖然某些概率概念在不使用隨機(jī)變量的情況下也能準(zhǔn)確定義,但是隨機(jī)變量讓我們能提供一種對(duì)于概率論的更加統(tǒng)一的處理方式。取值為a的隨機(jī)變量X的概率可以記為: 
P(X=a)或PX(a) 
同時(shí),我們將隨機(jī)變量X的取值范圍記為:Val(X)

1.3 概率分布,聯(lián)合分布,邊緣分布

我們經(jīng)常會(huì)談?wù)撟兞康姆植肌U絹?lái)說(shuō),它是指一個(gè)隨機(jī)變量取某一特定值的概率,例如: 
Example4:假設(shè)在投擲一個(gè)骰子的樣本空間Ω上定義一個(gè)隨機(jī)變量X,如果骰子是均勻的,則X的分布為: 

注意,盡管這個(gè)例子和Example2類似,但是它們有著不同的語(yǔ)義。Example2中定義的概率分布是對(duì)于事件而言,而這個(gè)例子中是隨機(jī)變量的概率分布。 
我們用P(X)來(lái)表示隨機(jī)變量X的概率分布。 
有時(shí)候,我們會(huì)同時(shí)討論大于一個(gè)變量的概率分布,這種概率分布稱為聯(lián)合分布,因?yàn)榇耸碌母怕适怯伤婕暗降乃凶兞抗餐瑳Q定的。這個(gè)可以用一個(gè)例子來(lái)闡明。 
Example5:在投擲一個(gè)骰子的樣本空間上定義一個(gè)隨機(jī)變量X。定義一個(gè)指示變量Y,當(dāng)拋硬幣結(jié)果為正面朝上時(shí)取1,反面朝上時(shí)取0。假設(shè)骰子和硬幣都是均勻的,則X和Y的聯(lián)合分布如下:

P X=1 X=2 X=3 X=4 X=5 X=6
Y=0 1/12 1/12 1/12 1/12 1/12 1/12
Y=1 1/12 1/12 1/12 1/12 1/12 1/12

像前面一樣,我們可以用P(X=a,Y=b)或PX,Y(a,b)來(lái)表示X取值為a且Y取值為b時(shí)的概率。用P(X,Y)來(lái)表示它們的聯(lián)合分布。 
假定有一個(gè)隨機(jī)變量X和Y的聯(lián)合分布,我們就能討論X或Y的邊緣分布。邊緣分布是指一個(gè)隨機(jī)變量對(duì)于其自身的概率分布。為了得到一個(gè)隨機(jī)變量的邊緣分布,我們將該分布中的所有其它變量相加,準(zhǔn)確來(lái)說(shuō),就是: 

之所以取名為邊緣分布,是因?yàn)槿绻覀儗⒁粋€(gè)聯(lián)合分布的一列(或一行)的輸入相加,將結(jié)果寫(xiě)在它的最后(也就是邊緣),那么該結(jié)果就是這個(gè)隨機(jī)變量取該值時(shí)的概率。當(dāng)然,這種思路僅在聯(lián)合分布涉及兩個(gè)變量時(shí)有幫助。

1.4 條件分布

條件分布為概率論中用于探討不確定性的關(guān)鍵工具之一。它明確了在另一隨機(jī)變量已知的情況下(或者更通俗來(lái)說(shuō),當(dāng)已知某事件為真時(shí))的某一隨機(jī)變量的分布。 
正式地,給定Y=b時(shí),X=a的條件概率定義為: 

注意,當(dāng)Y=b的概率為0時(shí),上式不成立。

Example6:假設(shè)我們已知一個(gè)骰子投出的點(diǎn)數(shù)為奇數(shù),想要知道投出的點(diǎn)數(shù)為“1”的概率。令X為代表點(diǎn)數(shù)的隨機(jī)變量,Y為指示變量,當(dāng)點(diǎn)數(shù)為奇數(shù)時(shí)取值為1,那么我們期望的概率可以寫(xiě)為: 

條件概率的思想可以自然地?cái)U(kuò)展到一個(gè)隨機(jī)變量的分布是以多個(gè)變量為條件時(shí),即: 

我們用P(X|Y=b)來(lái)表示當(dāng)Y=b時(shí)隨機(jī)變量X的分布,也可以用P(X|Y)來(lái)表示X的一系列分布,其中每一個(gè)都對(duì)應(yīng)不同的Y可以取的值。

1.5 獨(dú)立性

在概率論中,獨(dú)立性是指隨機(jī)變量的分布不因知道其它隨機(jī)變量的值而改變。在機(jī)器學(xué)習(xí)中,我們通常都會(huì)對(duì)數(shù)據(jù)做這樣的假設(shè)。例如,我們會(huì)假設(shè)訓(xùn)練樣本是從某一底層空間獨(dú)立提?。徊⑶壹僭O(shè)樣例i的標(biāo)簽獨(dú)立于樣例j(i≠j)的特性。 
從數(shù)學(xué)角度來(lái)說(shuō),隨機(jī)變量X獨(dú)立于Y,當(dāng): 
P(X)=P(X|Y) 
(注意,上式?jīng)]有標(biāo)明X,Y的取值,也就是說(shuō)該公式對(duì)任意X,Y可能的取值均成立。) 
利用等式(2),很容易可以證明如果X對(duì)Y獨(dú)立,那么Y也獨(dú)立于X。當(dāng)X和Y相互獨(dú)立時(shí),記為X⊥Y。 
對(duì)于隨機(jī)變量X和Y的獨(dú)立性,有一個(gè)等價(jià)的數(shù)學(xué)公式: 
P(X,Y)=P(X)P(Y) 
我們有時(shí)也會(huì)討論條件獨(dú)立,就是當(dāng)我們當(dāng)我們知道一個(gè)隨機(jī)變量(或者更一般地,一組隨機(jī)變量)的值時(shí),那么其它隨機(jī)變量之間相互獨(dú)立。正式地,我們說(shuō)“給定Z,X和Y條件獨(dú)立”,如果: 
P(X|Z)=P(X|Y,Z) 
或者等價(jià)的: 
P(X,Y|Z)=P(X|Z)P(Y|Z) 
機(jī)器學(xué)習(xí)(Andrew Ng)的課中會(huì)有一個(gè)樸素貝葉斯假設(shè)就是條件獨(dú)立的一個(gè)例子。該學(xué)習(xí)算法對(duì)內(nèi)容做出假設(shè),用來(lái)分辨電子郵件是否為垃圾郵件。假設(shè)無(wú)論郵件是否為垃圾郵件,單詞x出現(xiàn)在郵件中的概率條件獨(dú)立于單詞y。很明顯這個(gè)假設(shè)不是不失一般性的,因?yàn)槟承﹩卧~幾乎總是同時(shí)出現(xiàn)。然而,最終結(jié)果是,這個(gè)簡(jiǎn)單的假設(shè)對(duì)結(jié)果的影響并不大,且無(wú)論如何都可以讓我們快速判別垃圾郵件。

1.6 鏈?zhǔn)椒▌t和貝葉斯定理

我們現(xiàn)在給出兩個(gè)與聯(lián)合分布和條件分布相關(guān)的,基礎(chǔ)但是重要的可操作定理。第一個(gè)叫做鏈?zhǔn)椒▌t,它可以看做等式(2)對(duì)于多變量的一般形式。 
定理1(鏈?zhǔn)椒▌t): 

鏈?zhǔn)椒▌t通常用于計(jì)算多個(gè)隨機(jī)變量的聯(lián)合概率,特別是在變量之間相互為(條件)獨(dú)立時(shí)會(huì)非常有用。注意,在使用鏈?zhǔn)椒▌t時(shí),我們可以選擇展開(kāi)隨機(jī)變量的順序;選擇正確的順序通常可以讓概率的計(jì)算變得更加簡(jiǎn)單。 
第二個(gè)要介紹的是貝葉斯定理。利用貝葉斯定理,我們可以通過(guò)條件概率P(Y|X)計(jì)算出P(X|Y),從某種意義上說(shuō),就是“交換”條件。它也可以通過(guò)等式(2)推導(dǎo)出。

定理2(貝葉斯定理): 

記得,如果P(Y)沒(méi)有給出,我們可以用等式(1)找到它: 

這種等式(1)的應(yīng)用有時(shí)也被稱為全概率公式
貝葉斯定理可以推廣到多個(gè)隨機(jī)變量的情況。在有疑問(wèn)的時(shí)候,我們都可以參考條件概率的定義方式,弄清楚其細(xì)節(jié)。 
Example7:考慮以下的條件概率:P(X,Y|Z)和(X|Y,Z) 




2 定義一個(gè)概率分布

前面已經(jīng)討論了一下概率分布,但是我們?nèi)绾味x一個(gè)分布呢?廣義上來(lái)說(shuō),有兩種類型的分布,它們看似需要進(jìn)行兩種不同的處理(它們可以用度量學(xué)來(lái)進(jìn)行統(tǒng)一)。也就是說(shuō),離散分布和連續(xù)分布。我們后面會(huì)討論如何定義分布。 
注意,以下的討論和我們?cè)鯓幽苡行П硎疽粋€(gè)分布是截然不同的。有效表示概率分布的課題實(shí)際上是一個(gè)非常重要且活躍的研究領(lǐng)域,它值得開(kāi)一個(gè)專門(mén)的課程。

2.1 離散分布:概率質(zhì)量函數(shù)

就一個(gè)離散分布而言,我們是指這種基本分布的隨機(jī)變量只能取有限多個(gè)不同的值(或者樣本空間有限)。 
在定義一個(gè)離散分布時(shí),我們可以簡(jiǎn)單地列舉出隨機(jī)變量取每一個(gè)可能值的概率。這種列舉方式稱為概率質(zhì)量函數(shù)(probability mass function[PMF]),因?yàn)樗鼘ⅲ偢怕实模┟恳粋€(gè)單元塊分開(kāi),并將它們和隨機(jī)變量可以取的不同值對(duì)應(yīng)起來(lái)。這個(gè)可以類似的擴(kuò)展到聯(lián)合分布和條件分布。

2.2 連續(xù)分布:概率密度函數(shù)

對(duì)連續(xù)分布而言,我們是指這種基本分布的隨機(jī)變量能取無(wú)限多個(gè)不同值(或者說(shuō)樣本空間是無(wú)限的)。 
連續(xù)分布相比離散分布來(lái)說(shuō)是一種更加需要揣摩的情況,因?yàn)槿绻覀儗⒚恳粋€(gè)值取非零質(zhì)量數(shù),那么總質(zhì)量相加就會(huì)是一個(gè)無(wú)限值,這樣就不符合總概率相加等于1的要求。 
在定義一個(gè)連續(xù)分布時(shí),我們會(huì)使用概率密度函數(shù)(probability density function[PDF])。概率密度函數(shù)f是一個(gè)非負(fù),可積(分)的函數(shù),類似于: 

符合PDFf的隨機(jī)變量X的概率分布可以用如下公式計(jì)算: 

注意,特別地,默認(rèn)連續(xù)分布的隨機(jī)變量取任意單一值的概率為零。

Example8:(均勻分布)假設(shè)隨機(jī)變量X在[0,1]上均勻分布,則對(duì)應(yīng)的PDF為: 

我們可以確定為1,因此f為PDF。計(jì)算X的概率小于1/2: 

更一般地,假設(shè)X在[a,b]上均勻分布,那么PDF即為: 

有時(shí)我們也會(huì)討論累積分布函數(shù),這種函數(shù)給出了隨機(jī)變量在小于某一值的概率。累積分布函數(shù)F和基本概率密度函數(shù)f的關(guān)系如下: 

因此,F(xiàn)(x)=∫f(x)dx(就不定積分而言)。 
要將連續(xù)分布的定義擴(kuò)展到聯(lián)合分布,需要把概率密度函數(shù)擴(kuò)展為多個(gè)參數(shù),即: 

將條件分布擴(kuò)展到連續(xù)隨機(jī)變量時(shí),會(huì)遇到一個(gè)問(wèn)題——連續(xù)隨機(jī)變量在單個(gè)值上的概率為0,因此等式(2)不成立,因?yàn)榉帜傅扔?。為了定義連續(xù)變量的條件分布,要令f(x,y)為X和Y的聯(lián)合分布。通過(guò)分析,我們能看到基于分布P(Y|X)的PDF f(y|x)為: 

即如果直接用P的話,P可能在分母為零,所以用f,通過(guò)f積分間接得到P。 
例如:




3 期望(Expectations)和方差(Variance)

3.1 期望

我們對(duì)隨機(jī)變量做的最常見(jiàn)的操作之一就是計(jì)算它的期望,也就是它的平均值(mean),期望值(expected value),或一階矩(first moment)。隨機(jī)變量的期望記為E(x),計(jì)算公式: 

Example9:令X為投擲一個(gè)均勻骰子的結(jié)果,則X的期望為: 

有時(shí)我們可能會(huì)對(duì)計(jì)算隨機(jī)變量X的某一函數(shù)f的期望值感興趣,再次重申,隨機(jī)變量本身也是一個(gè)函數(shù),因此最簡(jiǎn)單的考慮方法是定義一個(gè)新的隨機(jī)變量Y=f(X),然后計(jì)算Y的期望。 
當(dāng)使用指示變量時(shí),一個(gè)有用的判別方式是: 
E(X)=P(X=1) X為指示變量 
此處可以腦補(bǔ)X還有一個(gè)取值為0,即E(x)=1×P(X=1)+0×P(X=0)=P(X=1) 
當(dāng)遇到隨機(jī)變量的和時(shí),一個(gè)最重要的規(guī)則之一是線性期望(linearity of expectations)。 
定理3(線性期望):令X1,X2,…,Xn為(可能是獨(dú)立的)隨機(jī)變量: 

期望為線性函數(shù)。 
期望的線性非常強(qiáng)大,因?yàn)樗鼘?duì)于變量是否獨(dú)立沒(méi)有限制。當(dāng)我們對(duì)隨機(jī)變量的結(jié)果進(jìn)行處理時(shí),通常沒(méi)什么可說(shuō)的,但是,當(dāng)隨機(jī)變量相互獨(dú)立時(shí),有: 
定理4:令X和Y為相互獨(dú)立的隨機(jī)變量,則: 
E(XY)=E(X)E(Y)

3.2 方差

一個(gè)隨機(jī)變量的方差描述的是它的離散程度,也就是該變量離其期望值的距離。一個(gè)實(shí)隨機(jī)變量的方差也稱為它的二階矩或二階中心動(dòng)差,恰巧也是它的二階累積量。方差的算術(shù)平方根稱為該隨機(jī)變量的標(biāo)準(zhǔn)差。

方差的定義: 

隨機(jī)變量的方差通常記為σ2,給它取平方的原因是因?yàn)槲覀兺ǔO胍业溅?,也就是?biāo)準(zhǔn)差。方差和標(biāo)準(zhǔn)差(很明顯)可以用公式相關(guān)聯(lián)。 
為了找到隨機(jī)變量X的方差,通常用以下替代公式更簡(jiǎn)單: 

注意,不同于期望,方差不是關(guān)于隨機(jī)變量X的線性函數(shù),事實(shí)上,我們可以證明(aX+b)的方差為: 

如果隨機(jī)變量X和Y相互獨(dú)立,那么: 
Var(X+Y)=Var(X)Var(Y),如果X⊥Y 
有時(shí)我們也會(huì)討論兩個(gè)隨機(jī)變量的協(xié)方差,它可以用來(lái)度量?jī)蓚€(gè)隨機(jī)變量的相關(guān)性,定義如下: 
Cov(X,Y)=E((X?E(X))(Y?E(Y)))



4 一些重要的分布


以下包含一些課中會(huì)提到的概率分布,但是并不是我們所需要了解的全部概率分布,特別是幾何分布、超幾何分布、二項(xiàng)分布等,這些都是在各自的領(lǐng)域十分有用,并且在基礎(chǔ)概率論中有研究到的,沒(méi)有在此提及。

4.1 伯努利(Bernoulli)分布

伯努利分布是最基礎(chǔ)的概率分布之一,一個(gè)服從伯努利分布的隨機(jī)變量有兩種取值{0,1} ,它能通過(guò)一個(gè)變量p來(lái)表示其概率,為了方便,我們令P(X=1)為p。它通常用于預(yù)測(cè)試驗(yàn)是否成功。 
有時(shí)將一個(gè)服從伯努利分布的變量X的概率分布按如下表示會(huì)很有用: 

一個(gè)伯努利分布起作用的例子是Lecture Notes1中的分類任務(wù)。為了給這個(gè)任務(wù)開(kāi)發(fā)一個(gè)邏輯回歸算法,對(duì)于特征來(lái)說(shuō),我們假設(shè)標(biāo)簽遵循伯努利概率分布。

4.2 泊松(Poisson)分布

泊松分布是一種非常有用的概率分布,通常用于處理事件發(fā)生次數(shù)的概率分布。在給定一個(gè)事件發(fā)生的固定平均概率,并且在該段事件內(nèi)事件發(fā)生相互獨(dú)立時(shí),它可以用來(lái)度量單位時(shí)間內(nèi)事件發(fā)生的次數(shù)。它包含一個(gè)參數(shù)——平均事件發(fā)生率λ。泊松分布的概率質(zhì)量函數(shù)為: 

服從泊松分布的隨機(jī)變量的平均值為λ,其方差也為λ,E(X)=V(X)=λ

4.3 高斯(Gaussian)分布

高斯分布,也就是正態(tài)分布,是概率論中最“通用”的概率分布之一,并且在很多環(huán)境中都有出現(xiàn)。例如,在試驗(yàn)數(shù)量很大時(shí)用在二項(xiàng)分布的近似處理中,或者在平均事件發(fā)生率很高時(shí)用于泊松分布。它還和大數(shù)定理相關(guān)。對(duì)于很多問(wèn)題來(lái)說(shuō),我們還會(huì)經(jīng)常假設(shè)系統(tǒng)中的噪聲服從高斯分布?;诟咚狗植嫉膽?yīng)用很多很多。 

上圖為不同期望和方差下的高斯分布。 
高斯分布由兩個(gè)參數(shù)決定:期望μ和方差σ2。其概率密度函數(shù)為: 

為了更好的感受概率分布隨著期望和方差的改變,在上圖中繪制了三種不同的高斯分布。 
在這個(gè)課中,我們會(huì)經(jīng)常和多變量高斯分布打交道。一個(gè)k維多變量高斯分布用參數(shù)(μ,∑)表示,其中,μ為?k上的期望矢量,∑為?k×k上的協(xié)方差矩陣,也就是說(shuō),∑ii=Var(Xi)且∑ij=Cov(Xi,Xj)。其概率密度函數(shù)由輸入的矢量定義: 

(我們標(biāo)記矩陣A的行列式為|A|,其轉(zhuǎn)置為A?1) 
處理多變量高斯分布有時(shí)可能會(huì)比較困難,令人生畏。讓我們生活更簡(jiǎn)單的一個(gè)方法,至少是讓我們有對(duì)于某個(gè)問(wèn)題的直覺(jué)的一個(gè)方法,是在我們剛開(kāi)始試圖解決一個(gè)問(wèn)題時(shí)假設(shè)協(xié)方差為零。當(dāng)協(xié)方差為零時(shí),行列式∣∣∑∣∣就僅由變量生成,可以對(duì)∑對(duì)角線元素做轉(zhuǎn)置來(lái)得到它的轉(zhuǎn)置∑?1。




5 概率處理

因?yàn)榻酉聛?lái)會(huì)有很多對(duì)概率和分布的處理,所以下面列出一些用于有效處理概率分布的tips。

5.1 The log trick

機(jī)器學(xué)習(xí)中,我們通常會(huì)假設(shè)不同樣本之間相互獨(dú)立。因此,我們常常需要對(duì)一定數(shù)量(大量)的概率分布的產(chǎn)物進(jìn)行處理。當(dāng)我們的目標(biāo)為優(yōu)化這些產(chǎn)物的函數(shù)時(shí),如果我們先處理這些函數(shù)的對(duì)數(shù)通常會(huì)更加簡(jiǎn)單。因?yàn)槿?duì)數(shù)的函數(shù)是一個(gè)嚴(yán)格單增函數(shù),因此它不會(huì)改變最大值的取值點(diǎn)(盡管更加明確來(lái)說(shuō),這個(gè)函數(shù)在取對(duì)數(shù)前后的最大值是不同的)。 
舉例來(lái)說(shuō),在Lecture Note 1,第17頁(yè)的似然函數(shù): 

我敢說(shuō)這是一個(gè)看起來(lái)相當(dāng)嚇人的函數(shù),但是通過(guò)對(duì)它取對(duì)數(shù),相應(yīng)的我們可以得到: 

現(xiàn)在它不是世界上最漂亮的函數(shù),但至少更加易處理。我們現(xiàn)在可以一次處理一項(xiàng)(即一個(gè)訓(xùn)練樣本),因?yàn)樗鼈兪窍嗉佣皇窍喑恕?

5.2 延遲歸一化(Delayed Normalization)

因?yàn)楦怕氏嗉右扔谝唬覀兂3RM(jìn)行歸一化處理,特別是對(duì)連續(xù)概率分布來(lái)說(shuō)。例如,對(duì)于高斯分布來(lái)說(shuō), 指數(shù)外面的項(xiàng)就是為了確保PDF的積分等于1。當(dāng)我們確定某些代數(shù)的最終結(jié)果為一個(gè)概率分布,或者在尋找某些最優(yōu)分布時(shí),將歸一化常數(shù)記為Z通常會(huì)更加簡(jiǎn)單,而不用一直考慮計(jì)算出歸一化常數(shù)。

5.3 Jenson不等式

有時(shí)我們會(huì)計(jì)算一個(gè)函數(shù)對(duì)某個(gè)隨機(jī)變量的期望,通常我們只需要一個(gè)區(qū)間而不是具體的某個(gè)值。在這種情況下,如果該函數(shù)是凸函數(shù)或者凹函數(shù),通過(guò)Jenson不等式,我們可以通過(guò)計(jì)算隨機(jī)變量自身期望處的函數(shù)值來(lái)獲得一個(gè)區(qū)間。 

(上圖為Jenson不等式圖示) 
定理5 (Jenson不等式):令X為一個(gè)隨機(jī)變量,f為凸函數(shù),那么: 
f(E(X))≤E(f(X)) 數(shù)據(jù)分析師培訓(xùn)
如果f為凹函數(shù),那么: 
f(E(X))≥E(f(X)) 
盡管我們可以用代數(shù)表示Jenson不等式,但是通過(guò)一張圖更容易理解。上圖中的函數(shù)為一個(gè)凹函數(shù),我們可以看到該函數(shù)任意兩點(diǎn)之間的直線都在函數(shù)的上方,也就是說(shuō),如果一個(gè)隨機(jī)變量只能取兩個(gè)值,那么Jenson不等式成立。這個(gè)也可以比較直接地推廣到一般隨機(jī)變量。

數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說(shuō)明請(qǐng)參見(jiàn):http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }