
數(shù)據(jù)挖掘從入門到進階 要看什么書
做數(shù)據(jù)挖掘也有些年頭了,寫這篇文一方面是讓我寫篇文,朋友作為數(shù)據(jù)挖掘方面的參考,另一方面也是有拋磚引玉之意,希望能夠和一些大牛交流,相互促進,讓大家見笑了。
Q&A:
Q:學習,最近在看集體智慧編程,樓主可否推薦下數(shù)學基礎的書?
A:我數(shù)學本身也不好 自己也在偷偷補 因為看的不多也不能給出個提綱式的建議 只能給您列下我近期看過和在看的覺得不錯的書 您看做參考吧
矩陣方面 Kaare Brandt Petersen的《The Matrix Cookbook》 網(wǎng)易公開課中的《麻省理工公開課:線性代數(shù)》
2.概率論與數(shù)理統(tǒng)計方面 JohnA.Rice 的《數(shù)理統(tǒng)計與數(shù)據(jù)分析》《統(tǒng)計建模與R軟件》
3.微積分方面 網(wǎng)易公開課中的《麻省理工學院公開課:單變量微積分》
其實您只要有了
1、概率論與數(shù)理統(tǒng)計以及其他統(tǒng)計學基礎
2、扎實的線性代數(shù)功底
3、微積分(如果能學習下實變函數(shù)和泛函分析就更好了)
這幾方面的基礎 基本上機器學習的大部分算法您都具有了其數(shù)學基礎
如果您覺得我說的太泛 可以先看看《模式分類》這本書的附錄中的數(shù)學基礎 這樣您就大體有個印象了
入門:
數(shù)據(jù)挖掘入門的書籍,中文的大體有這些:
Jiawei Han的《數(shù)據(jù)挖掘概念與技術》
Ian H. Witten / Eibe Frank的《數(shù)據(jù)挖掘 實用機器學習技術》
Tom Mitchell的《機器學習》
TOBY SEGARAN的《集體智慧編程》
Anand Rajaraman的《大數(shù)據(jù)》
Pang-Ning Tan的《數(shù)據(jù)挖掘導論》
Matthew A. Russell的《社交網(wǎng)站的數(shù)據(jù)挖掘與分析》
很多人的第一本數(shù)據(jù)挖掘書都是Jiawei Han的《數(shù)據(jù)挖掘概念與技術》,這本書也是我們組老板推薦的入門書(我個人覺得他之所以推薦是因為Han是他的老師)。其實我個人來說并不是很推薦把這本書。這本書什么都講了,甚至很多書少有涉及的一些點比如OLAP的方面都有涉獵。但是其實這本書對于初學者不是那么友好的,給人一種教科書的感覺,如果你有大毅力讀完這本書,也只能獲得一些零碎的概念的認識,很難上手實際的項目。
我個人推薦的入門書是這兩本:TOBY SEGARAN的《集體智慧編程》和Ian H. Witten / Eibe Frank的《數(shù)據(jù)挖掘 實用機器學習技術》
《集體智慧編程》很適合希望了解數(shù)據(jù)挖掘技術的程序員,這本書講述了數(shù)據(jù)挖掘里面的很多實用的算法,而且最重要的是其講述的方式不是像Han那種大牛掉書袋的講法,而是從實際的例子入手,輔以python的代碼,讓你很快的就能理解到這種算法能夠應用在哪個實際問題上,并且還能自己上手寫寫代碼。唯一的缺點是不夠深入,基本沒有數(shù)學推導,而且不夠全面,內(nèi)容不夠翔實。不過作為一本入門書這些缺點反而是幫助理解和入門的優(yōu)點。
推薦的另一本《數(shù)據(jù)挖掘 實用機器學習技術》則相對上一本書要稍微難一點,不過在容易理解的程度上依然甩Han老師的書幾條街,其作者就是著名的Weka的編寫者。整本書的思想脈絡也是盡可能的由易到難,從簡單的模型入手擴展到現(xiàn)實生活中實際的算法問題,最難能可貴的是書的最后還稍微講了下如何使用weka,這樣大家就能在學習算法之余能夠用weka做做小的實驗,有直觀的認識。
看完上述兩本書后,我覺得大體數(shù)據(jù)挖掘就算有個初步的了解了。往后再怎么繼續(xù)入門,就看個人需求了。
如果是只是想要稍微了解下相關的技術,或者作為業(yè)余愛好,則可隨便再看看Anand Rajaraman的《大數(shù)據(jù)》以及Matthew A. Russell的《社交網(wǎng)站的數(shù)據(jù)挖掘與分析》。前者是斯坦福的”Web挖掘”這門課程的材料基礎上總結(jié)而成。選取了很多數(shù)據(jù)挖掘里的小點作為展開的,不夠系統(tǒng),但講的挺好,所以適合有個初步的了解后再看。后者則亦是如此,要注意的是里面很多api因為GFS的緣故不能直接實驗,也是個遺憾
如果是繼續(xù)相關的研究學習,我認為則還需要先過一遍Tom Mitchell的《機器學習》。這本書可以看做是對于十多年前的機器學習的一個綜述,作者簡單明了的講述了很多流行的算法(十年前的),并且對于各個算法的適用點和特點都有詳細的解說,輕快地在一本薄薄的小書里給了大家一個機器學習之旅。
進階:
進階這個話題就難說了,畢竟大家對于進階的理解各有不同,是個仁者見仁的問題。就我個人來說,則建議如下展開:
視頻學習方面:
可以看看斯坦福的《機器學習》這門課程的視頻,最近聽說網(wǎng)易公開課已經(jīng)全部翻譯了,而且給出了雙語字幕,更加容易學習了^_^
書籍學習方面:
我個人推薦的是這樣:可以先看看李航的《統(tǒng)計學習方法》,這本書著重于數(shù)學推導,能讓我們很快的對于一些算法的理解更加深入。有了上面這本書的基礎,就可以開始啃一些經(jīng)典名著了。
這些名著看的順序可以不分先后,也可以同時學習:
Richard O. Duda的《模式分類》這本書是力薦,很多高校的數(shù)據(jù)挖掘導論課程的教科書便是這本(也是我的數(shù)據(jù)挖掘入門書,很有感情的)。如果你不通讀這本書,你會發(fā)現(xiàn)在你研究很多問題的時候,甚至一些相對簡單的問題(比如貝葉斯在高斯假設下為什么退化成線性分類器)都要再重新回頭讀這本書。
Christopher M. Bishop的《Pattern Recognition And Machine Learning》這本書也是經(jīng)典巨著,整本書寫的非常清爽。
The Elements of Statistical Learning》這本書豆友有句很好的吐槽“機器學習 — 從入門到精通”可以作為這本書的副標題??梢钥闯鲞@本書對于機器學習進階的重要性。值得一說的是這本書雖然有中文版,但是翻譯之爛也甚是有名,聽說是學體育的翻譯的。
Hoppner, Frank的《Guide to Intelligent Data Analysis》這本書相對于上面基本經(jīng)典巨著并不出名,但是寫的甚好,是knime官網(wǎng)上推薦的,標榜的是解決實際生活中的數(shù)據(jù)挖掘問題,講述了CRISP-DM標準化流程,每章后面給出了R和knime的應用例子。
項目方面:
事實上,我覺得從進階起就應該上手一些簡單的項目了。如果不實踐只是看書和研究算法,我覺得是無法真正理解數(shù)據(jù)挖掘的精髓所在的。打個簡單的比方,就算你看完了C Primer、effective C 等等書籍,如果自己不寫C ,那么自己也就會停留在hello world的級別。實踐出真知非常切合數(shù)據(jù)挖掘這門學科,實際上手項目后才會發(fā)現(xiàn)什么叫”80%的準備,20%的建?!保瑀eal world的問題我認為并不是僅僅靠modeling就能很好的解決的。詳細的可以看看《Guide to Intelligent Data Analysis》就能略知一二。如果上手做推薦或者一些簡單的項目,也可以考慮用用mahout,推薦的入門手冊是《mahout in action》。項目問題說來話長,有時間會以CRISP流程為引單獨作文,這里也就不詳談了。
軟件方面:
我常用而且推薦的軟件有如下,這里只是簡單的列出,以后有時間再詳細分析和寫出入門:
Weka Java的軟件,可以集成到自己的項目中
Orange 一個用python寫的數(shù)據(jù)挖掘開源軟件,界面做的很漂亮,可以做圖形化實驗,也可以用python調(diào)用編程。
Knime 和Orange類似,特點是可以集成weka和R等開源軟件
SAS的EM模塊以及R 還有最最經(jīng)典的matlab大大
這里有篇文有簡要的介紹http://www.oschina.net/question/12_14026
再往后:
再往后的其實就是我就是覺得是學數(shù)學了,然后就是深入讀一些你感興趣的topic的書籍和paper,接項目,做項目了。發(fā)展有數(shù)據(jù)分析師或者去專門的企業(yè)做數(shù)據(jù)研究員,當然混學術界的我就不清楚了。
初略寫完發(fā)現(xiàn)成一篇長文了,最近也是在做一個用眼底照片預測stroke的項目,比較忙,等閑下來以后也會寫些算法或者軟件或者實際項目的心得的文。當然也只是我個人粗淺的想法,也希望能和大家有所交流,相互促進,我個人的郵箱是flclain@gmail.com,有什么問題可以再帖子里討論,也可郵件交流^_^
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03