
機(jī)器學(xué)習(xí)中概率論知識(shí)復(fù)習(xí)
1 基本概念
概率論在機(jī)器學(xué)習(xí)中扮演著一個(gè)核心角色,因?yàn)?a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)算法的設(shè)計(jì)通常依賴于對(duì)數(shù)據(jù)的概率假設(shè)。
1.1 概率空間
說(shuō)到概率,通常是指一個(gè)具有不確定性的event發(fā)生的可能性。例如,下周二下雨的概率。因此,為了正式地討論概率論,我們首先要明確什么是可能事件。
正規(guī)說(shuō)來(lái),一個(gè)probability space是由三元組(Ω,F,P)定義:
- Ω為樣本空間
- F?2Ω(Ω的冪集)為(可度量的)事件空間
- P為將事件E∈F映射到0~1真值區(qū)間的概率度量(概率分布),可以將P看作概率函數(shù)
注: Ω的冪集2Ω——是Ω的所有子集的集合,符號(hào):P(Ω):={U|U?Ω},|Ω|=n個(gè)元素,|P(Ω)|=2n個(gè)元素。
假設(shè)給定樣本空間Ω,則對(duì)于事件空間F來(lái)說(shuō):
- F包含Ω本身和?
Example1: 假如我們投擲一個(gè)(6面)骰子,那么可能的樣本空間Ω={1,2,3,4,5,6}。我們可能感興趣的事件是骰子點(diǎn)數(shù)是奇數(shù)還是偶數(shù),那么這種情況下事件空間就是F={?,{1,3,5},{2,4,6}}.
可以看到樣本空間Ω為有限集時(shí),就像上一個(gè)例子,我們通常令事件空間F為2Ω。這種策略并不完全通用,但是在實(shí)際使用中通常是有效的。然而,當(dāng)樣本空間為無(wú)限集時(shí),我們需要仔細(xì)定義事件空間。
Example2: 回到擲骰子的例子,假設(shè)事件空間F為2Ω ,進(jìn)一步地,定義F上的概率函數(shù)P為:
那么這種概率分布P可以完整定義任意給出事件的發(fā)生概率(通過(guò)可加性公理)。例如,投擲點(diǎn)數(shù)為偶數(shù)的概率為:
因?yàn)槿我馐录ù颂幹笜颖究臻g內(nèi)的投擲出各點(diǎn)數(shù))之間都沒(méi)有交集
1.2 隨機(jī)變量
隨機(jī)變量在概率論中扮演著一個(gè)重要角色。最重要的一個(gè)事實(shí)是,隨機(jī)變量并不是變量,它們實(shí)際上是將(樣本空間中的)結(jié)果映射到真值的函數(shù)。我們通常用一個(gè)大寫(xiě)字母來(lái)表示隨機(jī)變量。
Example3: 還是以擲骰子為例。 另X為取決于投擲結(jié)果的隨機(jī)變量。X的一個(gè)自然選擇是將i映射到值i,例如,將事件“投擲1點(diǎn)”映射到值1。我們也可以選擇一些特別的映射,例如,我們有一個(gè)隨機(jī)變量Y——將所有的結(jié)果映射到0,這就是一個(gè)很無(wú)聊的函數(shù)?;蛘唠S機(jī)變量Z——當(dāng)i為奇數(shù)時(shí),將結(jié)果i映射到2i;當(dāng)i為偶數(shù)時(shí),將結(jié)果i映射到i。
從某種意義上說(shuō),隨機(jī)變量讓我們可以將事件空間的形式概念抽象出來(lái),通過(guò)定義隨機(jī)變量來(lái)采集相關(guān)事件。舉個(gè)例子,考慮Example1中投擲點(diǎn)數(shù)為奇/偶的事件空間。我們其實(shí)可以定義一個(gè)隨機(jī)變量,當(dāng)結(jié)果i為奇數(shù)時(shí)取值為1,否則隨機(jī)變量取值為0。這種二元算計(jì)變量在實(shí)際中非常常見(jiàn),通常以指示變量為人所知,它是因用于指示某一特定事件是否發(fā)生而得名。所以為什么我們要引進(jìn)事件空間?就是因?yàn)楫?dāng)一個(gè)人在學(xué)習(xí)概率論(更嚴(yán)格來(lái)說(shuō))通過(guò)計(jì)量理論來(lái)學(xué)習(xí)時(shí),樣本空間和事件空間的區(qū)別非常重要。這個(gè)話題對(duì)于這個(gè)簡(jiǎn)短的復(fù)習(xí)來(lái)說(shuō)太前沿了,因此不會(huì)涉及。不管怎樣,最好記住事件空間并不總是簡(jiǎn)單的樣本空間的冪集。
繼續(xù),我們后面主要會(huì)討論關(guān)于隨機(jī)變量的概率。雖然某些概率概念在不使用隨機(jī)變量的情況下也能準(zhǔn)確定義,但是隨機(jī)變量讓我們能提供一種對(duì)于概率論的更加統(tǒng)一的處理方式。取值為a的隨機(jī)變量X的概率可以記為:
P(X=a)或PX(a)
同時(shí),我們將隨機(jī)變量X的取值范圍記為:Val(X)
1.3 概率分布,聯(lián)合分布,邊緣分布
我們經(jīng)常會(huì)談?wù)撟兞康姆植肌U絹?lái)說(shuō),它是指一個(gè)隨機(jī)變量取某一特定值的概率,例如:
Example4:假設(shè)在投擲一個(gè)骰子的樣本空間Ω上定義一個(gè)隨機(jī)變量X,如果骰子是均勻的,則X的分布為:
注意,盡管這個(gè)例子和Example2類似,但是它們有著不同的語(yǔ)義。Example2中定義的概率分布是對(duì)于事件而言,而這個(gè)例子中是隨機(jī)變量的概率分布。
我們用P(X)來(lái)表示隨機(jī)變量X的概率分布。
有時(shí)候,我們會(huì)同時(shí)討論大于一個(gè)變量的概率分布,這種概率分布稱為聯(lián)合分布,因?yàn)榇耸碌母怕适怯伤婕暗降乃凶兞抗餐瑳Q定的。這個(gè)可以用一個(gè)例子來(lái)闡明。
Example5:在投擲一個(gè)骰子的樣本空間上定義一個(gè)隨機(jī)變量X。定義一個(gè)指示變量Y,當(dāng)拋硬幣結(jié)果為正面朝上時(shí)取1,反面朝上時(shí)取0。假設(shè)骰子和硬幣都是均勻的,則X和Y的聯(lián)合分布如下:
P | X=1 | X=2 | X=3 | X=4 | X=5 | X=6 |
---|---|---|---|---|---|---|
Y=0 | 1/12 | 1/12 | 1/12 | 1/12 | 1/12 | 1/12 |
Y=1 | 1/12 | 1/12 | 1/12 | 1/12 | 1/12 | 1/12 |
像前面一樣,我們可以用P(X=a,Y=b)或PX,Y(a,b)來(lái)表示X取值為a且Y取值為b時(shí)的概率。用P(X,Y)來(lái)表示它們的聯(lián)合分布。
假定有一個(gè)隨機(jī)變量X和Y的聯(lián)合分布,我們就能討論X或Y的邊緣分布。邊緣分布是指一個(gè)隨機(jī)變量對(duì)于其自身的概率分布。為了得到一個(gè)隨機(jī)變量的邊緣分布,我們將該分布中的所有其它變量相加,準(zhǔn)確來(lái)說(shuō),就是:
之所以取名為邊緣分布,是因?yàn)槿绻覀儗⒁粋€(gè)聯(lián)合分布的一列(或一行)的輸入相加,將結(jié)果寫(xiě)在它的最后(也就是邊緣),那么該結(jié)果就是這個(gè)隨機(jī)變量取該值時(shí)的概率。當(dāng)然,這種思路僅在聯(lián)合分布涉及兩個(gè)變量時(shí)有幫助。
1.4 條件分布
條件分布為概率論中用于探討不確定性的關(guān)鍵工具之一。它明確了在另一隨機(jī)變量已知的情況下(或者更通俗來(lái)說(shuō),當(dāng)已知某事件為真時(shí))的某一隨機(jī)變量的分布。
正式地,給定Y=b時(shí),X=a的條件概率定義為:
注意,當(dāng)Y=b的概率為0時(shí),上式不成立。
Example6:假設(shè)我們已知一個(gè)骰子投出的點(diǎn)數(shù)為奇數(shù),想要知道投出的點(diǎn)數(shù)為“1”的概率。令X為代表點(diǎn)數(shù)的隨機(jī)變量,Y為指示變量,當(dāng)點(diǎn)數(shù)為奇數(shù)時(shí)取值為1,那么我們期望的概率可以寫(xiě)為:
條件概率的思想可以自然地?cái)U(kuò)展到一個(gè)隨機(jī)變量的分布是以多個(gè)變量為條件時(shí),即:
我們用P(X|Y=b)來(lái)表示當(dāng)Y=b時(shí)隨機(jī)變量X的分布,也可以用P(X|Y)來(lái)表示X的一系列分布,其中每一個(gè)都對(duì)應(yīng)不同的Y可以取的值。
1.5 獨(dú)立性
在概率論中,獨(dú)立性是指隨機(jī)變量的分布不因知道其它隨機(jī)變量的值而改變。在機(jī)器學(xué)習(xí)中,我們通常都會(huì)對(duì)數(shù)據(jù)做這樣的假設(shè)。例如,我們會(huì)假設(shè)訓(xùn)練樣本是從某一底層空間獨(dú)立提?。徊⑶壹僭O(shè)樣例i的標(biāo)簽獨(dú)立于樣例j(i≠j)的特性。
從數(shù)學(xué)角度來(lái)說(shuō),隨機(jī)變量X獨(dú)立于Y,當(dāng):
P(X)=P(X|Y)
(注意,上式?jīng)]有標(biāo)明X,Y的取值,也就是說(shuō)該公式對(duì)任意X,Y可能的取值均成立。)
利用等式(2),很容易可以證明如果X對(duì)Y獨(dú)立,那么Y也獨(dú)立于X。當(dāng)X和Y相互獨(dú)立時(shí),記為X⊥Y。
對(duì)于隨機(jī)變量X和Y的獨(dú)立性,有一個(gè)等價(jià)的數(shù)學(xué)公式:
P(X,Y)=P(X)P(Y)
我們有時(shí)也會(huì)討論條件獨(dú)立,就是當(dāng)我們當(dāng)我們知道一個(gè)隨機(jī)變量(或者更一般地,一組隨機(jī)變量)的值時(shí),那么其它隨機(jī)變量之間相互獨(dú)立。正式地,我們說(shuō)“給定Z,X和Y條件獨(dú)立”,如果:
P(X|Z)=P(X|Y,Z)
或者等價(jià)的:
P(X,Y|Z)=P(X|Z)P(Y|Z)
機(jī)器學(xué)習(xí)(Andrew Ng)的課中會(huì)有一個(gè)樸素貝葉斯假設(shè)就是條件獨(dú)立的一個(gè)例子。該學(xué)習(xí)算法對(duì)內(nèi)容做出假設(shè),用來(lái)分辨電子郵件是否為垃圾郵件。假設(shè)無(wú)論郵件是否為垃圾郵件,單詞x出現(xiàn)在郵件中的概率條件獨(dú)立于單詞y。很明顯這個(gè)假設(shè)不是不失一般性的,因?yàn)槟承﹩卧~幾乎總是同時(shí)出現(xiàn)。然而,最終結(jié)果是,這個(gè)簡(jiǎn)單的假設(shè)對(duì)結(jié)果的影響并不大,且無(wú)論如何都可以讓我們快速判別垃圾郵件。
1.6 鏈?zhǔn)椒▌t和貝葉斯定理
我們現(xiàn)在給出兩個(gè)與聯(lián)合分布和條件分布相關(guān)的,基礎(chǔ)但是重要的可操作定理。第一個(gè)叫做鏈?zhǔn)椒▌t,它可以看做等式(2)對(duì)于多變量的一般形式。
定理1(鏈?zhǔn)椒▌t):
鏈?zhǔn)椒▌t通常用于計(jì)算多個(gè)隨機(jī)變量的聯(lián)合概率,特別是在變量之間相互為(條件)獨(dú)立時(shí)會(huì)非常有用。注意,在使用鏈?zhǔn)椒▌t時(shí),我們可以選擇展開(kāi)隨機(jī)變量的順序;選擇正確的順序通常可以讓概率的計(jì)算變得更加簡(jiǎn)單。
第二個(gè)要介紹的是貝葉斯定理。利用貝葉斯定理,我們可以通過(guò)條件概率P(Y|X)計(jì)算出P(X|Y),從某種意義上說(shuō),就是“交換”條件。它也可以通過(guò)等式(2)推導(dǎo)出。
定理2(貝葉斯定理):
記得,如果P(Y)沒(méi)有給出,我們可以用等式(1)找到它:
這種等式(1)的應(yīng)用有時(shí)也被稱為全概率公式
貝葉斯定理可以推廣到多個(gè)隨機(jī)變量的情況。在有疑問(wèn)的時(shí)候,我們都可以參考條件概率的定義方式,弄清楚其細(xì)節(jié)。
Example7:考慮以下的條件概率:P(X,Y|Z)和(X|Y,Z)
2 定義一個(gè)概率分布
前面已經(jīng)討論了一下概率分布,但是我們?nèi)绾味x一個(gè)分布呢?廣義上來(lái)說(shuō),有兩種類型的分布,它們看似需要進(jìn)行兩種不同的處理(它們可以用度量學(xué)來(lái)進(jìn)行統(tǒng)一)。也就是說(shuō),離散分布和連續(xù)分布。我們后面會(huì)討論如何定義分布。
注意,以下的討論和我們?cè)鯓幽苡行П硎疽粋€(gè)分布是截然不同的。有效表示概率分布的課題實(shí)際上是一個(gè)非常重要且活躍的研究領(lǐng)域,它值得開(kāi)一個(gè)專門(mén)的課程。
2.1 離散分布:概率質(zhì)量函數(shù)
就一個(gè)離散分布而言,我們是指這種基本分布的隨機(jī)變量只能取有限多個(gè)不同的值(或者樣本空間有限)。
在定義一個(gè)離散分布時(shí),我們可以簡(jiǎn)單地列舉出隨機(jī)變量取每一個(gè)可能值的概率。這種列舉方式稱為概率質(zhì)量函數(shù)(probability mass function[PMF]),因?yàn)樗鼘ⅲ偢怕实模┟恳粋€(gè)單元塊分開(kāi),并將它們和隨機(jī)變量可以取的不同值對(duì)應(yīng)起來(lái)。這個(gè)可以類似的擴(kuò)展到聯(lián)合分布和條件分布。
2.2 連續(xù)分布:概率密度函數(shù)
對(duì)連續(xù)分布而言,我們是指這種基本分布的隨機(jī)變量能取無(wú)限多個(gè)不同值(或者說(shuō)樣本空間是無(wú)限的)。
連續(xù)分布相比離散分布來(lái)說(shuō)是一種更加需要揣摩的情況,因?yàn)槿绻覀儗⒚恳粋€(gè)值取非零質(zhì)量數(shù),那么總質(zhì)量相加就會(huì)是一個(gè)無(wú)限值,這樣就不符合總概率相加等于1的要求。
在定義一個(gè)連續(xù)分布時(shí),我們會(huì)使用概率密度函數(shù)(probability density function[PDF])。概率密度函數(shù)f是一個(gè)非負(fù),可積(分)的函數(shù),類似于:
符合PDFf的隨機(jī)變量X的概率分布可以用如下公式計(jì)算:
注意,特別地,默認(rèn)連續(xù)分布的隨機(jī)變量取任意單一值的概率為零。
Example8:(均勻分布)假設(shè)隨機(jī)變量X在[0,1]上均勻分布,則對(duì)應(yīng)的PDF為:
我們可以確定為1,因此f為PDF。計(jì)算X的概率小于1/2:
更一般地,假設(shè)X在[a,b]上均勻分布,那么PDF即為:
有時(shí)我們也會(huì)討論累積分布函數(shù),這種函數(shù)給出了隨機(jī)變量在小于某一值的概率。累積分布函數(shù)F和基本概率密度函數(shù)f的關(guān)系如下:
因此,F(xiàn)(x)=∫f(x)dx(就不定積分而言)。
要將連續(xù)分布的定義擴(kuò)展到聯(lián)合分布,需要把概率密度函數(shù)擴(kuò)展為多個(gè)參數(shù),即:
將條件分布擴(kuò)展到連續(xù)隨機(jī)變量時(shí),會(huì)遇到一個(gè)問(wèn)題——連續(xù)隨機(jī)變量在單個(gè)值上的概率為0,因此等式(2)不成立,因?yàn)榉帜傅扔?。為了定義連續(xù)變量的條件分布,要令f(x,y)為X和Y的聯(lián)合分布。通過(guò)分析,我們能看到基于分布P(Y|X)的PDF f(y|x)為:
即如果直接用P的話,P可能在分母為零,所以用f,通過(guò)f積分間接得到P。
例如:
3 期望(Expectations)和方差(Variance)
3.1 期望
我們對(duì)隨機(jī)變量做的最常見(jiàn)的操作之一就是計(jì)算它的期望,也就是它的平均值(mean),期望值(expected value),或一階矩(first moment)。隨機(jī)變量的期望記為E(x),計(jì)算公式:
Example9:令X為投擲一個(gè)均勻骰子的結(jié)果,則X的期望為:
有時(shí)我們可能會(huì)對(duì)計(jì)算隨機(jī)變量X的某一函數(shù)f的期望值感興趣,再次重申,隨機(jī)變量本身也是一個(gè)函數(shù),因此最簡(jiǎn)單的考慮方法是定義一個(gè)新的隨機(jī)變量Y=f(X),然后計(jì)算Y的期望。
當(dāng)使用指示變量時(shí),一個(gè)有用的判別方式是:
E(X)=P(X=1) X為指示變量
此處可以腦補(bǔ)X還有一個(gè)取值為0,即E(x)=1×P(X=1)+0×P(X=0)=P(X=1)
當(dāng)遇到隨機(jī)變量的和時(shí),一個(gè)最重要的規(guī)則之一是線性期望(linearity of expectations)。
定理3(線性期望):令X1,X2,…,Xn為(可能是獨(dú)立的)隨機(jī)變量:
期望為線性函數(shù)。
期望的線性非常強(qiáng)大,因?yàn)樗鼘?duì)于變量是否獨(dú)立沒(méi)有限制。當(dāng)我們對(duì)隨機(jī)變量的結(jié)果進(jìn)行處理時(shí),通常沒(méi)什么可說(shuō)的,但是,當(dāng)隨機(jī)變量相互獨(dú)立時(shí),有:
定理4:令X和Y為相互獨(dú)立的隨機(jī)變量,則:
E(XY)=E(X)E(Y)
3.2 方差
一個(gè)隨機(jī)變量的方差描述的是它的離散程度,也就是該變量離其期望值的距離。一個(gè)實(shí)隨機(jī)變量的方差也稱為它的二階矩或二階中心動(dòng)差,恰巧也是它的二階累積量。方差的算術(shù)平方根稱為該隨機(jī)變量的標(biāo)準(zhǔn)差。
方差的定義:
隨機(jī)變量的方差通常記為σ2,給它取平方的原因是因?yàn)槲覀兺ǔO胍业溅?,也就是?biāo)準(zhǔn)差。方差和標(biāo)準(zhǔn)差(很明顯)可以用公式相關(guān)聯(lián)。
為了找到隨機(jī)變量X的方差,通常用以下替代公式更簡(jiǎn)單:
注意,不同于期望,方差不是關(guān)于隨機(jī)變量X的線性函數(shù),事實(shí)上,我們可以證明(aX+b)的方差為:
如果隨機(jī)變量X和Y相互獨(dú)立,那么:
Var(X+Y)=Var(X)Var(Y),如果X⊥Y
有時(shí)我們也會(huì)討論兩個(gè)隨機(jī)變量的協(xié)方差,它可以用來(lái)度量?jī)蓚€(gè)隨機(jī)變量的相關(guān)性,定義如下:
Cov(X,Y)=E((X?E(X))(Y?E(Y)))
以下包含一些課中會(huì)提到的概率分布,但是并不是我們所需要了解的全部概率分布,特別是幾何分布、超幾何分布、二項(xiàng)分布等,這些都是在各自的領(lǐng)域十分有用,并且在基礎(chǔ)概率論中有研究到的,沒(méi)有在此提及。
4.1 伯努利(Bernoulli)分布
伯努利分布是最基礎(chǔ)的概率分布之一,一個(gè)服從伯努利分布的隨機(jī)變量有兩種取值{0,1} ,它能通過(guò)一個(gè)變量p來(lái)表示其概率,為了方便,我們令P(X=1)為p。它通常用于預(yù)測(cè)試驗(yàn)是否成功。
有時(shí)將一個(gè)服從伯努利分布的變量X的概率分布按如下表示會(huì)很有用:
一個(gè)伯努利分布起作用的例子是Lecture Notes1中的分類任務(wù)。為了給這個(gè)任務(wù)開(kāi)發(fā)一個(gè)邏輯回歸算法,對(duì)于特征來(lái)說(shuō),我們假設(shè)標(biāo)簽遵循伯努利概率分布。
4.2 泊松(Poisson)分布
泊松分布是一種非常有用的概率分布,通常用于處理事件發(fā)生次數(shù)的概率分布。在給定一個(gè)事件發(fā)生的固定平均概率,并且在該段事件內(nèi)事件發(fā)生相互獨(dú)立時(shí),它可以用來(lái)度量單位時(shí)間內(nèi)事件發(fā)生的次數(shù)。它包含一個(gè)參數(shù)——平均事件發(fā)生率λ。泊松分布的概率質(zhì)量函數(shù)為:
服從泊松分布的隨機(jī)變量的平均值為λ,其方差也為λ,E(X)=V(X)=λ
4.3 高斯(Gaussian)分布
高斯分布,也就是正態(tài)分布,是概率論中最“通用”的概率分布之一,并且在很多環(huán)境中都有出現(xiàn)。例如,在試驗(yàn)數(shù)量很大時(shí)用在二項(xiàng)分布的近似處理中,或者在平均事件發(fā)生率很高時(shí)用于泊松分布。它還和大數(shù)定理相關(guān)。對(duì)于很多問(wèn)題來(lái)說(shuō),我們還會(huì)經(jīng)常假設(shè)系統(tǒng)中的噪聲服從高斯分布?;诟咚狗植嫉膽?yīng)用很多很多。
上圖為不同期望和方差下的高斯分布。
高斯分布由兩個(gè)參數(shù)決定:期望μ和方差σ2。其概率密度函數(shù)為:
為了更好的感受概率分布隨著期望和方差的改變,在上圖中繪制了三種不同的高斯分布。
在這個(gè)課中,我們會(huì)經(jīng)常和多變量高斯分布打交道。一個(gè)k維多變量高斯分布用參數(shù)(μ,∑)表示,其中,μ為?k上的期望矢量,∑為?k×k上的協(xié)方差矩陣,也就是說(shuō),∑ii=Var(Xi)且∑ij=Cov(Xi,Xj)。其概率密度函數(shù)由輸入的矢量定義:
(我們標(biāo)記矩陣A的行列式為|A|,其轉(zhuǎn)置為A?1)
處理多變量高斯分布有時(shí)可能會(huì)比較困難,令人生畏。讓我們生活更簡(jiǎn)單的一個(gè)方法,至少是讓我們有對(duì)于某個(gè)問(wèn)題的直覺(jué)的一個(gè)方法,是在我們剛開(kāi)始試圖解決一個(gè)問(wèn)題時(shí)假設(shè)協(xié)方差為零。當(dāng)協(xié)方差為零時(shí),行列式∣∣∑∣∣就僅由變量生成,可以對(duì)∑對(duì)角線元素做轉(zhuǎn)置來(lái)得到它的轉(zhuǎn)置∑?1。
5 概率處理
因?yàn)榻酉聛?lái)會(huì)有很多對(duì)概率和分布的處理,所以下面列出一些用于有效處理概率分布的tips。
5.1 The log trick
在機(jī)器學(xué)習(xí)中,我們通常會(huì)假設(shè)不同樣本之間相互獨(dú)立。因此,我們常常需要對(duì)一定數(shù)量(大量)的概率分布的產(chǎn)物進(jìn)行處理。當(dāng)我們的目標(biāo)為優(yōu)化這些產(chǎn)物的函數(shù)時(shí),如果我們先處理這些函數(shù)的對(duì)數(shù)通常會(huì)更加簡(jiǎn)單。因?yàn)槿?duì)數(shù)的函數(shù)是一個(gè)嚴(yán)格單增函數(shù),因此它不會(huì)改變最大值的取值點(diǎn)(盡管更加明確來(lái)說(shuō),這個(gè)函數(shù)在取對(duì)數(shù)前后的最大值是不同的)。
舉例來(lái)說(shuō),在Lecture Note 1,第17頁(yè)的似然函數(shù):
我敢說(shuō)這是一個(gè)看起來(lái)相當(dāng)嚇人的函數(shù),但是通過(guò)對(duì)它取對(duì)數(shù),相應(yīng)的我們可以得到:
現(xiàn)在它不是世界上最漂亮的函數(shù),但至少更加易處理。我們現(xiàn)在可以一次處理一項(xiàng)(即一個(gè)訓(xùn)練樣本),因?yàn)樗鼈兪窍嗉佣皇窍喑恕?
5.2 延遲歸一化(Delayed Normalization)
因?yàn)楦怕氏嗉右扔谝唬覀兂3RM(jìn)行歸一化處理,特別是對(duì)連續(xù)概率分布來(lái)說(shuō)。例如,對(duì)于高斯分布來(lái)說(shuō), 指數(shù)外面的項(xiàng)就是為了確保PDF的積分等于1。當(dāng)我們確定某些代數(shù)的最終結(jié)果為一個(gè)概率分布,或者在尋找某些最優(yōu)分布時(shí),將歸一化常數(shù)記為Z通常會(huì)更加簡(jiǎn)單,而不用一直考慮計(jì)算出歸一化常數(shù)。
5.3 Jenson不等式
有時(shí)我們會(huì)計(jì)算一個(gè)函數(shù)對(duì)某個(gè)隨機(jī)變量的期望,通常我們只需要一個(gè)區(qū)間而不是具體的某個(gè)值。在這種情況下,如果該函數(shù)是凸函數(shù)或者凹函數(shù),通過(guò)Jenson不等式,我們可以通過(guò)計(jì)算隨機(jī)變量自身期望處的函數(shù)值來(lái)獲得一個(gè)區(qū)間。
(上圖為Jenson不等式圖示)
定理5 (Jenson不等式):令X為一個(gè)隨機(jī)變量,f為凸函數(shù),那么:
f(E(X))≤E(f(X)) 數(shù)據(jù)分析師培訓(xùn)
如果f為凹函數(shù),那么:
f(E(X))≥E(f(X))
盡管我們可以用代數(shù)表示Jenson不等式,但是通過(guò)一張圖更容易理解。上圖中的函數(shù)為一個(gè)凹函數(shù),我們可以看到該函數(shù)任意兩點(diǎn)之間的直線都在函數(shù)的上方,也就是說(shuō),如果一個(gè)隨機(jī)變量只能取兩個(gè)值,那么Jenson不等式成立。這個(gè)也可以比較直接地推廣到一般隨機(jī)變量。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門(mén)控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03