
對貝葉斯、svm和神經(jīng)網(wǎng)絡(luò)的入門級理解
在省略了不少計算、優(yōu)化的過程的情況下記錄了一些自己對一下三個算法整體思路和關(guān)鍵點的理解,因此也只能說是“入門級理解”。以下是目錄索引。
貝葉斯
svm支持向量積
神經(jīng)網(wǎng)絡(luò)
貝葉斯概率可以用來解決“逆概”問題,“正向概率”問題是指比如說,一個袋子中我們已知有2個白球,3個黑球,那么一次隨機摸球活動,我們摸到黑球的概率是多少。但是現(xiàn)實中我們更常見的情況是,事先并不知道里面有多少個什么顏色的球,只知道摸出的某一個球的顏色,由此來猜測的袋中球色分布。這就是“逆概”問題。
貝葉斯公式:P(B|A) = P(AB) / P(A)
P(B|A)后驗概率,在已知A發(fā)生的情況下B發(fā)生的概率
P(AB)聯(lián)合概率,兩件事一同發(fā)生的概率
P(A)A的邊緣概率,也稱先驗概率,求解時通過合并無關(guān)事件B的概率從而將其消去,回顧一下概率論,在離散函數(shù)就是求無關(guān)事件B的和,連續(xù)函數(shù)中就是取B的積分。
就是在事件A發(fā)生的情況下,B發(fā)生的概率為A、B事件一同發(fā)生的概率與A事件單獨發(fā)生的概率的比值。
貝葉斯公式看起來很簡單,但是它是很有用的。舉個輸入錯誤判斷的例子,如果一個人輸入thew,那么我們怎么判斷他到底是想輸入the還是thaw呢?
A:已近知道的情況,在這里是”輸入thew”
B1:猜測一,“想輸入的是the”
B2:猜測二,“想輸入thaw”
顯然這里只需要比較P(AB)
但是P(AB)是什么呢,不好理解,我們再用一次貝葉斯P(AB)=P(B|A)*P(B) 代入,得到P(B|A)=P(A|B)P(B)/P(A)
這里, 關(guān)鍵就是P(B)和P(A|B)了。P(B)理解為這個單詞在詞庫中出現(xiàn)的概率,P(A|B)為想打the卻打成thew的似然概率。
顯然,the的曝光率應(yīng)該比thaw的高,而第二個,可以從thew的編輯距離來判斷,鍵盤上,e和w鄰近,也就是說,想打the,一不小心多敲一個w的概率非常高,然而,a與e的距離就遠了,也就是說,把thaw敲成thew的概率低一點。
樸素貝葉斯,在貝葉斯定理的基礎(chǔ)上,粗暴地加上一個非常簡單的假設(shè):各屬性之間相互獨立。舉個例子,現(xiàn)在一個事物,有很多特征n1、n2、n3……判斷它屬于A類還是B類或者CDF,
假設(shè)它是A類
P(A|n1,n2,……) = P(n1, n2, ….|A)P(A) / P(n1, n2, …)
分子都是一樣的, P(A)是該類的頻繁性(其實這里也好理解,一般太特別的情況我們總是延遲考慮嘛),在樸素貝葉斯里面,它覺得,P(n1, n2,
..|A)
就等于P(n1|A)*P(n2|A)*P(n3|A)…..即各個屬性相互不影響,這可是一個非常大膽的假設(shè),我們都知道事物之間總是相互聯(lián)系的嘛。
svm支持向量積
svm是建立在統(tǒng)計學習理論的vc維理論和結(jié)構(gòu)風險最小原理基礎(chǔ)上的,根據(jù)有限的樣本信息在模型復雜度和學習能力之間尋求最佳折中。
下面來一一解釋上面這短話。
vc維是對函數(shù)類的一種度量,可以簡單地理解為問題的復雜程度,vc維越高,問題越復雜。svm關(guān)注vc維,也就是說svm解決問題時候也樣本維數(shù)無關(guān)。
誤差的積累叫做風險,分類器在樣本數(shù)據(jù)上的分類結(jié)果與真是數(shù)據(jù)的差距就是經(jīng)驗風險。經(jīng)驗風險很低,做其他數(shù)據(jù)分類是一塌糊涂的情況稱為推廣能力差,或范化能力差。
統(tǒng)計學習因此引入泛化誤差界的概念,指真實風險應(yīng)該由經(jīng)驗風險和置信風險(代表我們多大程度可以信任分類器的真實分類能力)組成。后者顯然無法真實測量,因此只能給出一個區(qū)間。置信風險與兩個量有關(guān),一是樣本數(shù)量,量越大,學習結(jié)果越可能正確,二是分類函數(shù)的vc維,此值越大,推廣能力越差。
泛化誤差界的公式為:R(w)≤Remp(w)+Ф(n/h)
R(w)為真實風險,Remp(w)是經(jīng)驗風險,Ф(n/h) 是置信風險,統(tǒng)計學習的目標從經(jīng)驗最小化變成了泛化風險最小化,也稱,結(jié)構(gòu)風險最小。
小樣本,與問題的復雜度相比,svm算法要求的樣本數(shù)量是比較少的
非線性:svm擅長樣本數(shù)據(jù)線性不可分的情況,主要是通過松弛變量和核函數(shù)技術(shù)來實現(xiàn)。
高維模式識別:可以處理樣本維數(shù)很高。
svm從線性可分的最優(yōu)分類面發(fā)展而來,如果數(shù)據(jù)可以被一個線性模型完全正確地分開,那么數(shù)據(jù)就是線性可分的。
線性函數(shù),在一維空間是一個點,二維空間是一條直線,三維空間是一個平面,如此想象寫去,我們統(tǒng)稱為超平面。
眾多的講解博客都會放類似的這個圖,svm就是追求使所分成的類別之間能夠有最大的間距。因此它也稱為最大邊緣分類器
svm是分類問題,假定其分類結(jié)果,不是1就是-1,我們的線性方程是 g(x)=w*x+b。假設(shè)xi,其類別為yi,如果正確分類,有w*xi+b > 0,又yi>0,則 yi(w*xi+b)>0,同樣的,xi不屬于該類時,正確判斷的情況下會有: yi(w*xi+b)>0。也就是說,正確判斷的情況下,yi(w*xi+b)一定大于0,且其值越大,表明分類效果越好(前面強調(diào)的,svm尋求最大間距)。那么我們看不可以拿絕對值 |yi(w*xi+b)| 作為衡量依據(jù)呢?(在各種算法中,我們總是需要尋找一個方法,來衡量我們當前思路的準確性,并通過對此的調(diào)整,以達到優(yōu)化我們的函數(shù)的方法)
事實上我們還需要進一步歸一化,在絕對值中,如果我們同時放大w和b,函數(shù)不會變化,間距其實也沒有改變,但是絕對值會變大。因此,我們讓w和b除以 ||w||。得到
我們稱之前的這個為函數(shù)間隔:
歸一化后得到的成為幾何間隔:
在前面那個圖中我們看到 maragin=2/||w||
小tip: ||w|| 是什么符號?
||w||叫做向量w的范數(shù),范數(shù)是對向量長度的一種度量,我們常說的范數(shù)其實是指它的2-范數(shù),范數(shù)最一般的表示形式為p-范數(shù),可以寫成如下表達式:
向量w=(w1, w2, w3,…wn)
它的p-范數(shù)為![]()
||w||與幾何間隔稱反比,最大化幾何間隔其實也就是最小化這個 2/||w||
,至于為什么不處理分母,我看了很多博客,大抵解釋都是“我們常用的方法并不是固定||w||的大小而尋求最大幾何間隔,而是固定間隔(例如固定為1),尋找最小的||w||?!?,后來,我在一本書上看到:
假定 b1 是類別一中離函數(shù)最近的點,b2 屬于類別二中離線性函數(shù)最近的點,簡言之,這兩個點在兩個平行于決策面的超平面上
b1: w*x1+b=1
b2: w*x2 +b=-1
兩式相減,得到 w(x1-x2)=2,即 ||w||*d=2,故間隔為 2 / ||w||
總之,我們要尋找的分類面,它必須使 2/||w|| 最小。之后各種最小化的方法這里就pass掉了。。。。。這篇有很詳細的講解,反正每種算法的過程都總是看得我森森懷疑,大一都干嘛去了,我的線代呢?高數(shù)呢?概率論呢?微積分呢?。。。。。
這里寫的都只是入門的知識準備,svm處理數(shù)據(jù)包括線性可分和線性不可分(給定一個數(shù)據(jù)集,如果存在某個超平面能夠?qū)⑺鼈兺耆_地劃分到超平面的兩側(cè),則稱數(shù)據(jù)線性可分),當數(shù)據(jù)線性不可分時通過核函數(shù)使之可分,這些東西比較復雜,有望寶寶日后深究。。。。。。
神經(jīng)網(wǎng)絡(luò)
信息分為三大類:輸入信息,隱含信息和輸出信息
每個神經(jīng)元,通過某種特定的輸出函數(shù),也稱激勵函數(shù),計算處理來自其他相鄰神經(jīng)元的加權(quán)輸入值
每個神經(jīng)元之間信息傳遞的強度,用所謂加權(quán)值來定義,算法會不斷自我學習,調(diào)整這個加權(quán)值
分布式表征,是神經(jīng)網(wǎng)絡(luò)研究的一個核心思想。它的意思是,當你表達一個概念時,不是用單個神經(jīng)元一對一地存儲;概念與神經(jīng)元是多對多的關(guān)系,一個概念被分散在多個神經(jīng)元里,而一個神經(jīng)元參與多個概念的表達。與傳統(tǒng)的局部表征相比,存儲效率高,線性增加的神經(jīng)元數(shù)目,可以表達指數(shù)級增加的大量不同概念。
此外,它的另一個特點就是,即使局部出現(xiàn)了故障,信息的表達也不會受到根本性的影響。
根據(jù)神經(jīng)元之間的互聯(lián)方式,常見網(wǎng)絡(luò)結(jié)構(gòu)有,前饋神經(jīng)網(wǎng)絡(luò),各神經(jīng)元從輸入層開始,接受前一層的輸入,并輸入到下一級,直到輸出層。反饋神經(jīng)網(wǎng)絡(luò):從輸出到輸入都有反饋連接的神經(jīng)網(wǎng)絡(luò)
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03