
機器學習與數(shù)據(jù)挖掘的學習路線圖
說起機器學習和數(shù)據(jù)挖掘,當然兩者并不完全等同。如果想簡單的理清二者的關(guān)系,不妨這樣來理解,機器學習應(yīng)用在數(shù)據(jù)分析領(lǐng)域 = 數(shù)據(jù)挖掘。同理,如果將機器學習應(yīng)用在圖像處理領(lǐng)域 = 機器視覺。當然這只是一種比較直白的理解,并不能見得絕對準確或者全面。我們權(quán)且這樣處理。而且在本文后面若提到這兩個名詞,我們所表示的意思是一致的。
但無論是機器學習,還是數(shù)據(jù)挖掘,你一定聽說過很多很多,名字叼炸天的傳說中的,“算法”,比如:SVM,神經(jīng)網(wǎng)絡(luò),Logistic回歸,決策樹、EM、HMM、貝葉斯網(wǎng)絡(luò)、隨機森林、LDA... ....其實還是很多很多!無論你排十大算法還是二十大算法,總感覺只觸及到了冰山一角!真是學海無涯啊- -!!
當然,學習機器學習看書是必備的,總不能靠冥想吧。。。
有的書介紹機器學習,會是這樣一種思路:就是單獨的一個一個的算法介紹,介紹個十幾個,一本書的篇幅差不多也就完了。
李航博士的那本《統(tǒng)計學習方法》基本屬于這種套路。當然,該書在國內(nèi)是備受推崇的一本??陀^上講,國人寫這方面的書很少,而李博士的著作也不像其他那種大學教材一樣東拼西湊,可謂良心之作。但就本書的思路來說,我認為:如果讀者就單獨的某一個算法想有所了解,參考該書應(yīng)該會有收獲。但系統(tǒng)化上還是優(yōu)化空間的,比如從一個算法到另外一個算法,之間的聯(lián)系是什么,推動算法更新和升級的需求又在哪里?
另外一種該類型的書,會把算法按照它們的實現(xiàn)的功能和目的,分成比如 Regression、Classification、Clustering等等等等的幾類,然后各種講可以實現(xiàn)聚類的算法有A、B、C,可以實現(xiàn)回歸的有D、E、F。。。而且我們也知道,機器學習又可分為有監(jiān)督、無監(jiān)督以及半監(jiān)督的,或者又可分為貝葉斯派和概率派兩大陣營,所以按類別來介紹其中的算法也是一種很常見的思路。
這樣的書代表作是Pang-Ning Tan, Michael Steinbach 和Vipin Kumar的那本《數(shù)據(jù)挖掘導論》,這樣的書基本上對于構(gòu)建一個大概的機器學習體系還是有裨益的。但是就初學者而言,其實這個體系還可以再優(yōu)化。這也是我根據(jù)個人的一些經(jīng)驗想向各位介紹的一個基本的學習路線圖,在我看來知識應(yīng)該是有聯(lián)系的,而不是孤立的, 找到這種內(nèi)部隱藏的線索就如同獲得了阿里巴巴的口訣,才能開啟更大的寶藏。
當然,正式學習之前,你所需要的預(yù)備知識(主要是數(shù)學)應(yīng)該包括:微積分(偏導數(shù)、梯度等等)、概率論與數(shù)理統(tǒng)計(例如極大似然估計、中央極限定理、大數(shù)法則等等)、最優(yōu)化方法(比如梯度下降、牛頓-拉普什方法、變分法(歐拉-拉格朗日方程)、凸優(yōu)化等等)——如果你對其中的某些名詞感到陌生,那么就說明你尚不具備深入開展數(shù)據(jù)挖掘算法學習的能力。你會發(fā)現(xiàn)到處都是門檻,很難繼續(xù)進行下去。
第一條線路:
(基于普通最小二乘法的)簡單線性回歸->線性回歸中的新進展(嶺回歸和LASSO回歸)->(此處可以插入Bagging和AdaBoost的內(nèi)容)->Logistic回歸->支持向量機(SVM)->感知機學習->神經(jīng)網(wǎng)絡(luò)(初學者可先主要關(guān)注BP算法)->深度學習
之所以把它們歸為一條線路,因為所有這些算法都是圍繞著 y = Σxiβi,這樣一條簡單的公式展開的,如果你抓住這條線索,不斷探索下去,就算是抓住它們之間的繩索了。其中藍色部分主要是回歸,綠色部分主要是有監(jiān)督的分類學習法。
基于普通最小二乘的線性回歸是統(tǒng)計中一種有著非常悠久歷史的方法,它的使用甚至可以追溯到高斯的時代。但是它對數(shù)據(jù)有諸多要求,例如特征之間不能有多重共線性,而且?guī)X回歸和LASSO就是對這些問題的修正。
當沿著第一條路線學完的時候,其實你已經(jīng)攻克機器學習的半壁江山了!當然,在這個過程中,你一定時刻問問自己后一個算法與前一個的聯(lián)系在哪里?最初,人們從哪里出發(fā),才會如此設(shè)計出它們的。
第二條路線:
K-means -> EM -> 樸素貝葉斯->貝葉斯網(wǎng)絡(luò)->隱馬爾科夫模型(基本模型,前向算法,維特比算法,前向-后向算法) (->卡爾曼濾波)
這條線路所涉及的基本都是那些各種畫來畫去的圖模型,一個學術(shù)名詞是 PGM 。這條線的思路和第一條是截然不同的!貝葉斯網(wǎng)絡(luò)、HMM(隱馬爾科夫模型),也就是綠色字體的部分是這個線路中的核心內(nèi)容。而藍色部分是為綠色內(nèi)容做準備的部分。K-means 和 EM 具有與生俱來的聯(lián)系,認識到這一點才能說明你真正讀懂了它們。而EM算法要在HMM的模型訓練中用到,所以你要先學EM才能深入學習HMM。所以盡管在EM中看不到那種畫來畫去的圖模型,但我還把它放在了這條線路中,這也就是原因所在。樸素貝葉斯里面的很多內(nèi)容在,貝葉斯網(wǎng)絡(luò)和HMM里都會用到,類似貝葉斯定理,先驗和后驗概率,邊緣分布等等(主要是概念性的)。最后,卡爾曼濾波可以作為HMM的一直深入或者后續(xù)擴展。盡管很多machine learning的書里沒把它看做是一種機器學習算法(或許那些作者認為它應(yīng)該是信號處理中的內(nèi)容),但是它也確實可以被看成是一種機器學習技術(shù)。而且參考文獻[4]中,作者也深刻地揭示了它與HMM之間的緊密聯(lián)系,所以紅色的部分可以作為HMM的后續(xù)擴展延伸內(nèi)容。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03