
你知道貝葉斯法則。機器學(xué)習(xí)與它有何相關(guān)?它可能很難掌握如何把拼圖塊放在一起——我們了解它花了一段時間。
貝葉斯和頻率論者
在本質(zhì)上,貝葉斯意味著概率。這個具體的術(shù)語存在是因為有兩個概率方法。貝葉斯認(rèn)為這是一個衡量的信念,因此,概率是主觀的,并且指向未來。
頻率論者有不同看法:他們用概率描述過去發(fā)生的事件——這種方式是客觀的并且不取決于一個人的信念。這個名字來源于一個方法——例如:我們擲硬幣100次,它出現(xiàn)頭53次,所以頻率/概率為0.53。
先驗概率,更新和后驗概率
我們從一種信念開始,叫做先驗。然后,我們獲得了一些數(shù)據(jù),并且用它來更新我們的信念。這個結(jié)果被稱為后驗概率。如果我們獲得更多的數(shù)據(jù),舊的后驗成為一個新的先驗并且循環(huán)重復(fù)。
這個過程采用貝葉斯規(guī)則:
讀作 給定B事件的A的概率,表示一個條件概率:如果B發(fā)生了A有多少可能發(fā)生。
從數(shù)據(jù)中推斷模型參數(shù)
在貝葉斯機器學(xué)習(xí)中,我們利用貝葉斯規(guī)則從數(shù)據(jù)(D)來推斷模型參數(shù)(θ):
這個所有組成部分都是概率分布。
是我們通常無法計算的東西,但是因為它只是一個標(biāo)準(zhǔn)化的常數(shù),它并沒有那么重要。當(dāng)我們比較模型,我們主要對含有θ的表達(dá)感興趣,因為
對每個模型都保持著相同的值。
是先驗概率,或我們信仰模型參數(shù)的可能。我們在這件事情上大多數(shù)的觀點是相當(dāng)模糊的,如果我們有足夠的數(shù)據(jù),我們根本就不那么在意。推測需要收斂到可能的θ,只要它不是在先驗概率中為零。一個指定的先驗概率以一個參數(shù)化分布。
稱為給定的模型參數(shù)數(shù)據(jù)的可能性。相似的公式是模型的特異性。人們經(jīng)常使用的可能性評估模型:一個提供更高的可能性給更好的數(shù)據(jù)的模型。最后,
一個后驗概率。是我們所追求的。這是一個概率模型參數(shù),包括最有可能的評估,這些評估從先驗概率信念和數(shù)據(jù)中獲得。
注意選擇一個模型可以看做是從模型(超)參數(shù)中出來的。然而,在實際中,他們通常是一起執(zhí)行的,例如,通過驗證。
方法譜
有兩種主要方式的貝葉斯。讓我們稱之為第一統(tǒng)計模型和二次概率機器學(xué)習(xí)。后者包含所謂的非參數(shù)方法。
統(tǒng)計模型
貝葉斯模型適用于數(shù)據(jù)是稀缺的,珍貴的,很難獲得的,例如在社會科學(xué)和其他設(shè)置,很難進(jìn)行大規(guī)模的控制實驗。想象一個精心構(gòu)建和調(diào)整的模型,利用所謂他所擁有的小數(shù)據(jù)。在這個設(shè)置中,你不遺余力地更好地使用可用的輸入。
此外,小數(shù)據(jù)對于要量化的不確定性是非常重要的,這正是貝葉斯方法擅長的地方。
最后,我們將看到,貝葉斯方法通常是計算昂貴的。這又伴隨著小數(shù)據(jù)。
要獲得一個口味,考慮使用回歸分析和多層/層次模型的數(shù)據(jù)分析的例子。這是一本關(guān)于線性模型的整本書。他們從一個爆炸開始:一個沒有預(yù)測的線性模型,然后通過一些線性模型與一個預(yù)測因子,兩個因子,六個預(yù)測因子,直到11個。
針對當(dāng)前的趨勢,這種勞動密集型的模式,機器學(xué)習(xí)使用數(shù)據(jù)以供計算機自動學(xué)習(xí)。
讓我們試著用”概率”替換”貝葉斯”。從這個角度看,它與其他方法不同。盡可能的分類,大多數(shù)分類是能夠輸出的概率預(yù)測。即使是支持一個對立的貝葉斯分類的向量機。
通過這種方式,這些概率是一個分類信念的陳述。他們是否符合實際的概率是另一個問題,它被成為校準(zhǔn)。
還有另外一件事是置信區(qū)間(錯誤欄)。你可以在回歸中觀察到。大多數(shù)的”正?!钡姆椒ㄖ惶峁┕烙?。貝葉斯方法,如貝葉斯版本的線性回歸,或高斯過程,也提供不確定性估計。
不幸的是,這并不是故事的結(jié)尾。即使是復(fù)雜的如GP的方法通常假設(shè)方差齊性,即操作,均勻噪聲水平。在現(xiàn)實中,噪聲可能是異方差。看到下面的圖像。
LDA
Latent Dirichlet Allocation是另一個方法的例子,允許把數(shù)據(jù)它整理出來。它類似于矩陣分解模型,特別是非負(fù)的MF。你開始使用一個其中行是文檔,列是單詞的矩陣,每個元素都是一個給定的文檔中給定單詞的計數(shù)。LDA”factorizes”這個矩陣大小為nxd為兩個矩陣,文件/主題(N×K)和主題/詞(K x D)。
不同是,你不能把這兩者相乘得到原始,但由于適當(dāng)?shù)男?列總和為一,你可以嘗試一個文件。對于第一個單詞,一個樣本,一個主題,然后從這個主題的一個字(第二矩陣)。重復(fù)你想要的單詞的數(shù)量。注意,這是一個詞的包的表示,而不是一個適當(dāng)?shù)男蛄小?
這是一個生成模型的例子,意味著一個從該模型中可以示例,或生成實例。通常的分類判別:他們的模型P(Y | X),直接歧視基于X的生成模型類之間的關(guān)注與x和y的聯(lián)合分布,P(Y,X)。估計它的分布是比較困難的,但它允許采樣可以得到P(Y | x)P(Y,X)。
貝葉斯非參數(shù)
雖然沒有確切的定義,但這個名字意味著在一個模型中的參數(shù)的數(shù)目可以隨著數(shù)據(jù)的增加而增加。這是類似于支持向量機,例如,在那里的算法選擇支持向量的訓(xùn)練點。例子是非參數(shù)高斯和LDA分層Dirichlet過程的版本,其中的一些話題選擇自動。
高斯過程
高斯過程有點類似SVM使用核和有類似的可擴展性(通過這些年用近似的值已大大提高)。一種自然的配方讓高斯過程成為一個回歸,伴隨著一種事后的分類。對于支持向量機來說,這是其他的方式。另一個區(qū)別是,高斯過程是概率從地面向上(提供錯誤的欄),而支持向量機不是。
大多數(shù)高斯過程的研究似乎發(fā)生在歐洲。英國人做了一些有趣的工作,使高斯過程更容易使用。其中一個項目是由zoubin Ghahramani團(tuán)隊設(shè)計的。自動統(tǒng)計
高斯過程比較流行的應(yīng)用是超參數(shù)優(yōu)化機器學(xué)習(xí)算法。數(shù)據(jù)是很小的,不僅是在維度-通常只有幾個參數(shù)調(diào)整,也在一些數(shù)量的例子。每個例子代表一個目標(biāo)算法的運行,這可能需要數(shù)小時或數(shù)天。因此,我們希望盡可能少的例子來獲得好的東西。
模型與推理
推理是指你如何學(xué)習(xí)參數(shù)的模型。模型與你是如何訓(xùn)練它是分離的,特別是在貝葉斯世界。
考慮到深度學(xué)習(xí):你可以使用亞當(dāng)?shù)木W(wǎng)絡(luò)訓(xùn)練,rmsprop或其他一些優(yōu)化。然而,他們往往是相當(dāng)相似的,所有的隨機梯度下降的變種。相比之下,貝葉斯推理的方法不同于更深刻地彼此。
最重要的方法是蒙特卡羅抽樣和變分推理。采樣是金標(biāo)準(zhǔn),但速度慢。從主算法摘錄有更多MCMC。
變分推理是一種設(shè)計的方法,明確地以貿(mào)易的速度的一些精度。它的缺點是它的模型是特定的,但有光在隧道盡頭-看到下面的軟件部分。
軟件
最明顯的一天可能是斯坦貝葉斯軟件。斯坦是一個概率的編程語言,它允許你指定你想要的東西和火車的貝葉斯模型。它運行在Python中,R和其他語言。斯坦有一個現(xiàn)代化的采樣器叫堅果:
大部分的計算在斯坦通過用Hamiltonian Monte Carlo。HMC需要一些調(diào)整,所以MattHoffman,寫了一個新的算法,堅果(“no-u-turn采樣器”)HMC自適應(yīng)優(yōu)化。在許多設(shè)置,堅果實際上是比最優(yōu)靜態(tài)HMC更有效計算!
變分推理是一種近似貝葉斯推理的可伸縮技術(shù)。派生變分推理算法需要繁瑣的模型特定的計算,這使得它難以自動化。我們提出了一個自動變分推理算法,自動微分變分推理(建議)。用戶只提供了一個貝葉斯模型和數(shù)據(jù)集,沒有其他。
這種技術(shù)方法應(yīng)用至少為中型數(shù)據(jù)小風(fēng)格造型。
在Python中,最受歡迎的包是PYMC通訊。這是不發(fā)達(dá)或拋光的(開發(fā)者似乎與斯坦的追趕),但還是不錯的。這里的堅果和咨詢PYMC通訊有一個minibatch咨詢實例筆記本。該軟件采用西雅娜作為后臺,所以它比純Python更快。
infer.net是微軟文庫的概率規(guī)劃。它主要應(yīng)用在如C和F # #語言,但顯然也被稱為從IronPython的NET。使用默認(rèn)infer.net期望傳播。
此外,還有無數(shù)的包實踐各種口味的貝葉斯計算,從其他編程語言實現(xiàn)專業(yè)的LDA概率。一個有趣的例子是crosscat:
crosscat是一個主要的域,高維數(shù)據(jù)分析表的貝葉斯方法。Crosscat估值共同分布在表中的變量數(shù)據(jù),通過在一個分層的近似推理,非參數(shù)貝葉斯模型,并為每一個條件分布提供了有效的采樣。crosscat結(jié)合非參數(shù)混合模型和貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)的優(yōu)勢:它可以模擬任何的定位的潛變量的聯(lián)合分布給出足夠的數(shù)據(jù),但也發(fā)現(xiàn)觀測變量之間的獨立性。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03