99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁(yè)精彩閱讀淺析:數(shù)據(jù)挖掘從入門(mén)到進(jìn)階,要看什么書(shū)_數(shù)據(jù)分析師?
淺析:數(shù)據(jù)挖掘從入門(mén)到進(jìn)階,要看什么書(shū)_數(shù)據(jù)分析師?
2015-01-18
收藏

淺析:數(shù)據(jù)挖掘從入門(mén)到進(jìn)階,要看什么書(shū)_數(shù)據(jù)分析師


數(shù)據(jù)挖掘也有些年頭了,寫(xiě)這篇文一方面是讓我寫(xiě)篇文,朋友作為數(shù)據(jù)挖掘方面的參考,另一方面也是有拋磚引玉之意,希望能夠和一些大牛交流,相互促進(jìn),讓大家見(jiàn)笑了。


Q:學(xué)習(xí),最近在看集體智慧編程,樓主可否推薦下數(shù)學(xué)基礎(chǔ)的書(shū)?

A:我數(shù)學(xué)本身也不好 自己也在偷偷補(bǔ) 因?yàn)榭吹牟欢嘁膊荒芙o出個(gè)提綱式的建議 只能給您列下我近期看過(guò)和在看的覺(jué)得不錯(cuò)的書(shū) 您看做參考吧

1.矩陣方面 Kaare Brandt Petersen的《The Matrix Cookbook》 網(wǎng)易公開(kāi)課中的《麻省理工公開(kāi)課:線性代數(shù)》

2.概率論與數(shù)理統(tǒng)計(jì)方面 JohnA.Rice 的《數(shù)理統(tǒng)計(jì)與數(shù)據(jù)分析》《統(tǒng)計(jì)建模與R軟件》

3.微積分方面 網(wǎng)易公開(kāi)課中的《麻省理工學(xué)院公開(kāi)課:?jiǎn)巫兞课⒎e分》

其實(shí)您只要有了

1.概率論與數(shù)理統(tǒng)計(jì)以及其他統(tǒng)計(jì)學(xué)基礎(chǔ)

2.扎實(shí)的線性代數(shù)功底

3.微積分(如果能學(xué)習(xí)下實(shí)變函數(shù)和泛函分析就更好了)

這幾方面的基礎(chǔ) 基本上機(jī)器學(xué)習(xí)的大部分算法您都具有了其數(shù)學(xué)基礎(chǔ)

如果您覺(jué)得我說(shuō)的太泛 可以先看看《模式分類(lèi)》這本書(shū)的附錄中的數(shù)學(xué)基礎(chǔ) 這樣您就大體有個(gè)印象了

入門(mén):

數(shù)據(jù)挖掘入門(mén)的書(shū)籍,中文的大體有這些:

Jiawei Han的《數(shù)據(jù)挖掘概念與技術(shù)》

Ian H. Witten / Eibe Frank的《數(shù)據(jù)挖掘 實(shí)用機(jī)器學(xué)習(xí)技術(shù)》

Tom Mitchell的《機(jī)器學(xué)習(xí)

TOBY SEGARAN的《集體智慧編程》

Anand Rajaraman的《大數(shù)據(jù)》

Pang-Ning Tan的《數(shù)據(jù)挖掘導(dǎo)論》

Matthew A. Russell的《社交網(wǎng)站的數(shù)據(jù)挖掘與分析》

很多人的第一本數(shù)據(jù)挖掘書(shū)都是Jiawei Han的《數(shù)據(jù)挖掘概念與技術(shù)》,這本書(shū)也是我們組老板推薦的入門(mén)書(shū)(我個(gè)人覺(jué)得他之所以推薦是因?yàn)镠an是他的老師)。其實(shí)我個(gè)人來(lái)說(shuō)并不是很推薦把這本書(shū)。這本書(shū)什么都講了,甚至很多書(shū)少有涉及的一些點(diǎn)比如OLAP的方面都有涉獵。但是其實(shí)這本書(shū)對(duì)于初學(xué)者不是那么友好的,給人一種教科書(shū)的感覺(jué),如果你有大毅力讀完這本書(shū),也只能獲得一些零碎的概念的認(rèn)識(shí),很難上手實(shí)際的項(xiàng)目。

<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數(shù)據(jù)挖掘</a>

我個(gè)人推薦的入門(mén)書(shū)是這兩本:TOBY SEGARAN的《集體智慧編程》和Ian H. Witten / Eibe Frank的《數(shù)據(jù)挖掘 實(shí)用機(jī)器學(xué)習(xí)技術(shù)》

《集體智慧編程》很適合希望了解數(shù)據(jù)挖掘技術(shù)的程序員,這本書(shū)講述了數(shù)據(jù)挖掘里面的很多實(shí)用的算法,而且最重要的是其講述的方式不是像Han那種大牛掉書(shū)袋的講法,而是從實(shí)際的例子入手,輔以python的代碼,讓你很快的就能理解到這種算法能夠應(yīng)用在哪個(gè)實(shí)際問(wèn)題上,并且還能自己上手寫(xiě)寫(xiě)代碼。唯一的缺點(diǎn)是不夠深入,基本沒(méi)有數(shù)學(xué)推導(dǎo),而且不夠全面,內(nèi)容不夠翔實(shí)。不過(guò)作為一本入門(mén)書(shū)這些缺點(diǎn)反而是幫助理解和入門(mén)的優(yōu)點(diǎn)。

<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數(shù)據(jù)挖掘</a>

推薦的另一本《數(shù)據(jù)挖掘 實(shí)用機(jī)器學(xué)習(xí)技術(shù)》則相對(duì)上一本書(shū)要稍微難一點(diǎn),不過(guò)在容易理解的程度上依然甩Han老師的書(shū)幾條街,其作者就是著名的Weka的編寫(xiě)者。整本書(shū)的思想脈絡(luò)也是盡可能的由易到難,從簡(jiǎn)單的模型入手?jǐn)U展到現(xiàn)實(shí)生活中實(shí)際的算法問(wèn)題,最難能可貴的是書(shū)的最后還稍微講了下如何使用weka,這樣大家就能在學(xué)習(xí)算法之余能夠用weka做做小的實(shí)驗(yàn),有直觀的認(rèn)識(shí)。

<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數(shù)據(jù)挖掘</a>

看完上述兩本書(shū)后,我覺(jué)得大體數(shù)據(jù)挖掘就算有個(gè)初步的了解了。往后再怎么繼續(xù)入門(mén),就看個(gè)人需求了。

如果是只是想要稍微了解下相關(guān)的技術(shù),或者作為業(yè)余愛(ài)好,則可隨便再看看Anand Rajaraman的《大數(shù)據(jù)》以及Matthew A. Russell的《社交網(wǎng)站的數(shù)據(jù)挖掘與分析》。前者是斯坦福的”Web挖掘”這門(mén)課程的材料基礎(chǔ)上總結(jié)而成。選取了很多數(shù)據(jù)挖掘里的小點(diǎn)作為展開(kāi)的,不夠系統(tǒng),但講的挺好,所以適合有個(gè)初步的了解后再看。后者則亦是如此,要注意的是里面很多api因?yàn)镚FS的緣故不能直接實(shí)驗(yàn),也是個(gè)遺憾

<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數(shù)據(jù)挖掘</a>
<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數(shù)據(jù)挖掘</a>
如果是繼續(xù)相關(guān)的研究學(xué)習(xí),我認(rèn)為則還需要先過(guò)一遍T(mén)om Mitchell的《機(jī)器學(xué)習(xí)》。這本書(shū)可以看做是對(duì)于十多年前的機(jī)器學(xué)習(xí)的一個(gè)綜述,作者簡(jiǎn)單明了的講述了很多流行的算法(十年前的),并且對(duì)于各個(gè)算法的適用點(diǎn)和特點(diǎn)都有詳細(xì)的解說(shuō),輕快地在一本薄薄的小書(shū)里給了大家一個(gè)機(jī)器學(xué)習(xí)之旅。
<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數(shù)據(jù)挖掘</a>

進(jìn)階:

進(jìn)階這個(gè)話題就難說(shuō)了,畢竟大家對(duì)于進(jìn)階的理解各有不同,是個(gè)仁者見(jiàn)仁的問(wèn)題。就我個(gè)人來(lái)說(shuō),則建議如下展開(kāi):

視頻學(xué)習(xí)方面: 

可以看看斯坦福的《機(jī)器學(xué)習(xí)》這門(mén)課程的視頻,最近聽(tīng)說(shuō)網(wǎng)易公開(kāi)課已經(jīng)全部翻譯了,而且給出了雙語(yǔ)字幕,更加容易學(xué)習(xí)了^_^

書(shū)籍學(xué)習(xí)方面:

我個(gè)人推薦的是這樣:可以先看看李航的《統(tǒng)計(jì)學(xué)習(xí)方法》,這本書(shū)著重于數(shù)學(xué)推導(dǎo),能讓我們很快的對(duì)于一些算法的理解更加深入。有了上面這本書(shū)的基礎(chǔ),就可以開(kāi)始啃一些經(jīng)典名著了。

<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數(shù)據(jù)挖掘</a>

這些名著看的順序可以不分先后,也可以同時(shí)學(xué)習(xí):

Richard O. Duda的《模式分類(lèi)》這本書(shū)是力薦,很多高校的數(shù)據(jù)挖掘導(dǎo)論課程的教科書(shū)便是這本(也是我的數(shù)據(jù)挖掘入門(mén)書(shū),很有感情的)。如果你不通讀這本書(shū),你會(huì)發(fā)現(xiàn)在你研究很多問(wèn)題的時(shí)候,甚至一些相對(duì)簡(jiǎn)單的問(wèn)題(比如貝葉斯在高斯假設(shè)下為什么退化成線性分類(lèi)器)都要再重新回頭讀這本書(shū)。

<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數(shù)據(jù)挖掘</a>

Christopher M. Bishop的《Pattern Recognition And Machine Learning》這本書(shū)也是經(jīng)典巨著,整本書(shū)寫(xiě)的非常清爽。

<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數(shù)據(jù)挖掘</a>

《The Elements of Statistical Learning》這本書(shū)豆友有句很好的吐槽“機(jī)器學(xué)習(xí) — 從入門(mén)到精通”可以作為這本書(shū)的副標(biāo)題。可以看出這本書(shū)對(duì)于機(jī)器學(xué)習(xí)進(jìn)階的重要性。值得一說(shuō)的是這本書(shū)雖然有中文版,但是翻譯之爛也甚是有名,聽(tīng)說(shuō)是學(xué)體育的翻譯的。

<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數(shù)據(jù)挖掘</a>

Hoppner, Frank的《Guide to Intelligent Data Analysis》這本書(shū)相對(duì)于上面基本經(jīng)典巨著并不出名,但是寫(xiě)的甚好,是knime官網(wǎng)上推薦的,標(biāo)榜的是解決實(shí)際生活中的數(shù)據(jù)挖掘問(wèn)題,講述了CRISP-DM標(biāo)準(zhǔn)化流程,每章后面給出了R和knime的應(yīng)用例子。

<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數(shù)據(jù)挖掘</a>

項(xiàng)目方面:

事實(shí)上,我覺(jué)得從進(jìn)階起就應(yīng)該上手一些簡(jiǎn)單的項(xiàng)目了。如果不實(shí)踐只是看書(shū)和研究算法,我覺(jué)得是無(wú)法真正理解數(shù)據(jù)挖掘的精髓所在的。打個(gè)簡(jiǎn)單的比方,就算你看完了C++ Primer、effective C++等等書(shū)籍,如果自己不寫(xiě)C++,那么自己也就會(huì)停留在hello world的級(jí)別。實(shí)踐出真知非常切合數(shù)據(jù)挖掘這門(mén)學(xué)科,實(shí)際上手項(xiàng)目后才會(huì)發(fā)現(xiàn)什么叫”80%的準(zhǔn)備,20%的建?!?,real world的問(wèn)題我認(rèn)為并不是僅僅靠modeling就能很好的解決的。詳細(xì)的可以看看《Guide to Intelligent Data Analysis》就能略知一二。如果上手做推薦或者一些簡(jiǎn)單的項(xiàng)目,也可以考慮用用mahout,推薦的入門(mén)手冊(cè)是《mahout in action》。項(xiàng)目問(wèn)題說(shuō)來(lái)話長(zhǎng),有時(shí)間會(huì)以CRISP流程為引單獨(dú)作文,這里也就不詳談了。

<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數(shù)據(jù)挖掘</a>

軟件方面:

我常用而且推薦的軟件有如下,這里只是簡(jiǎn)單的列出,以后有時(shí)間再詳細(xì)分析和寫(xiě)出入門(mén):

Weka Java的軟件,可以集成到自己的項(xiàng)目中

<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數(shù)據(jù)挖掘</a>
Orange 一個(gè)用python寫(xiě)的數(shù)據(jù)挖掘開(kāi)源軟件,界面做的很漂亮,可以做圖形化實(shí)驗(yàn),也可以用python調(diào)用編程。

<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數(shù)據(jù)挖掘</a>

Knime 和Orange類(lèi)似,特點(diǎn)是可以集成weka和R等開(kāi)源軟件

<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數(shù)據(jù)挖掘</a>

SAS的EM模塊以及R 還有最最經(jīng)典的matlab大大

數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說(shuō)明請(qǐng)參見(jiàn):http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }