
機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺(jué)相關(guān)的數(shù)學(xué)_數(shù)據(jù)分析師
機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺(jué)都是很多種數(shù)學(xué)的交匯場(chǎng)??粗煌睦碚擉w系的交匯,對(duì)于一個(gè)researcher來(lái)說(shuō),往往是非常exciting的enjoyable的事情。不過(guò),這也代表著要充分了解這個(gè)領(lǐng)域并且取得有意義的進(jìn)展是很艱苦的。
Linear Algebra (線性代數(shù)) 和 Statistics (統(tǒng)計(jì)學(xué)) 是最重要和不可缺少的。
這代表了Machine Learning中最主流的兩大類方法的基礎(chǔ)。一種是以研究函數(shù)和變換為重點(diǎn)的代數(shù)方法,比如Dimension reduction,feature extraction,Kernel等,一種是以研究統(tǒng)計(jì)模型和樣本分布為重點(diǎn)的統(tǒng)計(jì)方法,比如Graphical model, Information theoretical models等。它們側(cè)重雖有不同,但是常常是共同使用的,對(duì)于代數(shù)方法,往往需要統(tǒng)計(jì)上的解釋,對(duì)于統(tǒng)計(jì)模型,其具體計(jì)算則需要代數(shù)的幫助。以代數(shù)和統(tǒng)計(jì)為出發(fā)點(diǎn),繼續(xù)往深處走,我們會(huì)發(fā)現(xiàn)需要更多的數(shù)學(xué)。
Calculus (微積分),只是數(shù)學(xué)分析體系的基礎(chǔ)。
其基礎(chǔ)性作用不言而喻。Learning研究的大部分問(wèn)題是在連續(xù)的度量空間進(jìn)行的,無(wú)論代數(shù)還是統(tǒng)計(jì),在研究?jī)?yōu)化問(wèn)題的時(shí)候,對(duì)一個(gè)映射的微分或者梯度的分析總是不可避免。而在統(tǒng)計(jì)學(xué)中,Marginalization和積分更是密不可分——不過(guò),以解析形式把積分導(dǎo)出來(lái)的情況則不多見(jiàn)。
Partial Differential Equation (偏微分方程),這主要用于描述動(dòng)態(tài)過(guò)程,或者仿動(dòng)態(tài)過(guò)程。
這個(gè)學(xué)科在Vision中用得比Learning多,主要用于描述連續(xù)場(chǎng)的運(yùn)動(dòng)或者擴(kuò)散過(guò)程。比如Level set, Optical flow都是這方面的典型例子。
Functional Analysis (泛函分析),通俗地,可以理解為微積分從有限維空間到無(wú)限維空間的拓展——當(dāng)然了,它實(shí)際上遠(yuǎn)不止于此。
在這個(gè)地方,函數(shù)以及其所作用的對(duì)象之間存在的對(duì)偶關(guān)系扮演了非常重要的角色。Learning發(fā)展至今,也在向無(wú)限維延伸——從研究有限維向量的問(wèn)題到以無(wú)限維的函數(shù)為研究對(duì)象。Kernel Learning 和Gaussian Process 是其中典型的例子——其中的核心概念都是Kernel。很多做Learning的人把Kernel簡(jiǎn)單理解為Kernel trick的運(yùn)用,這就把kernel的意義嚴(yán)重弱化了。在泛函里面,Kernel (Inner Product)是建立整個(gè)博大的代數(shù)體系的根本,從metric, transform到spectrum都根源于此。
Measure Theory (測(cè)度理論),這是和實(shí)分析關(guān)系非常密切的學(xué)科。但是測(cè)度理論并不限于此。
從某種意義上說(shuō),Real Analysis可以從Lebesgue Measure(勒貝格測(cè)度)推演,不過(guò)其實(shí)還有很多別的測(cè)度體系——概率本身就是一種測(cè)度。測(cè)度理論對(duì)于Learning的意義是根本的,現(xiàn)代統(tǒng)計(jì)學(xué)整個(gè)就是建立在測(cè)度理論的基礎(chǔ)之上——雖然初級(jí)的概率論教科書一般不這樣引入。在看一些統(tǒng)計(jì)方面的文章的時(shí)候,你可能會(huì)發(fā)現(xiàn),它們會(huì)把統(tǒng)計(jì)的公式改用測(cè)度來(lái)表達(dá),這樣做有兩個(gè)好處:所有的推導(dǎo)和結(jié)論不用分別給連續(xù)分布和離散分布各自寫一遍了,這兩種東西都可以用同一的測(cè)度形式表達(dá):連續(xù)分布的積分基于Lebesgue測(cè)度,離散分布的求和基于計(jì)數(shù)測(cè)度,而且還能推廣到那種既不連續(xù)又不離散的分布中去(這種東西不是數(shù)學(xué)家的游戲,而是已經(jīng)在實(shí)用的東西,在Dirchlet Process或者Pitman-Yor Process里面會(huì)經(jīng)常看到)。而且,即使是連續(xù)積分,如果不是在歐氏空間進(jìn)行,而是在更一般的拓?fù)淇臻g(比如微分流形或者變換群),那么傳統(tǒng)的黎曼積分(就是大學(xué)一年級(jí)在微積分課學(xué)的那種)就不work了,你可能需要它們的一些推廣,比如Haar Measure或者Lebesgue-Stieltjes積分。
Topology(拓?fù)鋵W(xué)),這是學(xué)術(shù)中很基礎(chǔ)的學(xué)科。
它一般不直接提供方法,但是它的很多概念和定理是其它數(shù)學(xué)分支的基石??春芏鄤e的數(shù)學(xué)的時(shí)候,你會(huì)經(jīng)常接觸這樣一些概念:Open set / Closed set,set basis,Hausdauf, continuous function,metric space, Cauchy sequence, neighborhood, compactness, connectivity。很多這些也許在大學(xué)一年級(jí)就學(xué)習(xí)過(guò)一些,當(dāng)時(shí)是基于極限的概念獲得的。如果,看過(guò)拓?fù)鋵W(xué)之后,對(duì)這些概念的認(rèn)識(shí)會(huì)有根本性的拓展。比如,連續(xù)函數(shù),當(dāng)時(shí)是由epison法定義的,就是無(wú)論取多小的正數(shù)epsilon,都存在xxx,使得xxx。這是需要一種metric去度量距離的,在general topology里面,對(duì)于連續(xù)函數(shù)的定義連坐標(biāo)和距離都不需要——如果一個(gè)映射使得開集的原像是開集,它就是連續(xù)的——至于開集是基于集合論定義的,不是通常的開區(qū)間的意思。這只是最簡(jiǎn)單的例子。當(dāng)然,我們研究learning也許不需要深究這些數(shù)學(xué)概念背后的公理體系,但是,打破原來(lái)定義的概念的局限在很多問(wèn)題上是必須的——尤其是當(dāng)你研究的東西它不是在歐氏空間里面的時(shí)候——正交矩陣,變換群,流形,概率分布的空間,都屬于此。
Differential Manifold (微分流形),通俗地說(shuō)它研究的是平滑的曲面。
一個(gè)直接的印象是它是不是可以用來(lái)fitting一個(gè)surface什么的——當(dāng)然這算是一種應(yīng)用,但是這是非常初步的。本質(zhì)上說(shuō),微分流形研究的是平滑的拓?fù)浣Y(jié)構(gòu)。一個(gè)空間構(gòu)成微分流形的基本要素是局部平滑:從拓?fù)鋵W(xué)來(lái)理解,就是它的任意局部都同胚于歐氏空間,從解析的角度來(lái)看,就是相容的局部坐標(biāo)系統(tǒng)。當(dāng)然,在全局上,它不要求和歐氏空間同胚。它除了可以用于刻畫集合上的平滑曲面外,更重要的意義在于,它可以用于研究很多重要的集合。一個(gè)n-維線性空間的全部k-維子空間(k
Lie Group Theory (李群論),一般意義的群論在Learning中被運(yùn)用的不是很多,群論在Learning中用得較多的是它的一個(gè)重要方向Lie group。
定義在平滑流形上的群,并且其群運(yùn)算是平滑的話,那么這就叫李群。因?yàn)長(zhǎng)earning和編碼不同,更多關(guān)注的是連續(xù)空間,因?yàn)長(zhǎng)ie group在各種群中對(duì)于Learning特別重要。各種子空間,線性變換,非奇異矩陣都基于通常意義的矩陣乘法構(gòu)成李群。在李群中的映射,變換,度量,劃分等等都對(duì)于Learning中代數(shù)方法的研究有重要指導(dǎo)意義。
Graph Theory(圖論),圖,由于它在表述各種關(guān)系的強(qiáng)大能力以及優(yōu)雅的理論,高效的算法,越來(lái)越受到Learning領(lǐng)域的歡迎。
經(jīng)典圖論,在Learning中的一個(gè)最重要應(yīng)用就是graphical models了,它被成功運(yùn)用于分析統(tǒng)計(jì)網(wǎng)絡(luò)的結(jié)構(gòu)和規(guī)劃統(tǒng)計(jì)推斷的流程。Graphical model所取得的成功,圖論可謂功不可沒(méi)。在Vision里面,maxflow (graphcut)算法在圖像分割,Stereo還有各種能量?jī)?yōu)化中也廣受應(yīng)用。另外一個(gè)重要的圖論分支就是Algebraic graph theory (代數(shù)圖論),主要運(yùn)用于圖的譜分析,著名的應(yīng)用包括Normalized Cut和Spectral Clustering。近年來(lái)在semi-supervised learning中受到特別關(guān)注。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03