99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀我的數(shù)據(jù)挖掘之路——從菜鳥到實(shí)戰(zhàn)
我的數(shù)據(jù)挖掘之路——從菜鳥到實(shí)戰(zhàn)
2015-04-07
收藏
導(dǎo) 讀:作者wrchow是浙江大學(xué)計(jì)算機(jī)碩士,通過自己的努力終于拿到了心儀的offer(搜狗Web數(shù)據(jù)挖掘助理研究員),實(shí)現(xiàn)了從事互聯(lián)網(wǎng)數(shù)據(jù)挖掘的夢 想。他對數(shù)據(jù)挖掘這個行業(yè)的興趣,以及為了進(jìn)入這個行業(yè)所做的準(zhǔn)備和努力,非常值得想進(jìn)入這一行業(yè)的在校生或朋友們參考。
由于本科專業(yè)是生物信息(可以理解為生物統(tǒng)計(jì)學(xué)或者與基因數(shù)據(jù)相關(guān)的數(shù)據(jù)挖掘學(xué)科),所以那時已經(jīng)開始接觸數(shù)據(jù)挖掘,對統(tǒng)計(jì)也算有一定的基礎(chǔ)。記得大二的時候,我便開始學(xué)用matlab,然后玩弄SVM, 神經(jīng)網(wǎng)絡(luò)之類的機(jī)器學(xué)習(xí)算法做一些分析和實(shí)驗(yàn)。現(xiàn)在想想那時候可能連這些算法的基本概念都不是很清晰,算是皮毛都不懂。但有一點(diǎn)就是,讓我對這類算法不怎 么畏懼,甚至于非常感興趣。本科的時候,發(fā)現(xiàn)自己對生物興趣不大,倒是對編程頗以為是,所以讀研又改學(xué)了計(jì)算機(jī)。雖然換了專業(yè),但我對數(shù)據(jù)挖掘仍然興趣不 減。在研究生階段,涉及數(shù)據(jù)挖掘機(jī)器學(xué)習(xí),高級數(shù)據(jù)庫之類的課程我的成績都是90+, 這至少說明我很用心??傊?,讀研這幾年我也在不斷地規(guī)劃著自己的數(shù)據(jù)挖掘之路。然而,數(shù)據(jù)挖掘是門交叉學(xué)科,涉及的內(nèi)容很多,而且還需要理論聯(lián)系實(shí)際,要 掌握起來其實(shí)是非常困難的。我曾經(jīng)非常幼稚地認(rèn)為,數(shù)據(jù)挖掘無所不能,適用于各行各業(yè),卻忽視了數(shù)據(jù)挖掘非常難以掌握的一面。首先,要構(gòu)建完整的數(shù)據(jù)挖掘 理論知識體系;其次,要能夠 深入到具體的行業(yè)或市場進(jìn)行具體項(xiàng)目的實(shí)戰(zhàn)。至于學(xué)習(xí)數(shù)據(jù)挖掘的前景,推薦看看一篇博客,扒一扒這個數(shù)據(jù)挖掘行業(yè),黃油和面包。這篇文章算是資深人士對數(shù)據(jù)挖掘行業(yè)一點(diǎn)點(diǎn)小小的爆料,感覺對于我這樣的初學(xué)者來說,有著高屋建瓴的作用。
1發(fā)現(xiàn)SASlist
    學(xué)習(xí)SAS 源于我當(dāng)初想去金融行業(yè)做分析師的想法,而這個想法又是源自于自己的 MBTi 測試的結(jié)論。算起來開始學(xué)sas 應(yīng)該是 10 年下半年的時候,我先是買了一本《SAS 編程與數(shù) 據(jù)挖掘商業(yè)案例》,后是看了《The little SAS book (3rd)》電子版,還有 SAS 認(rèn)證考試 樣題-123 題。我還在 saslist 上建立起了博客,分享了一些學(xué)習(xí)心得,還有找實(shí)習(xí)的一些經(jīng)歷。而我對 sas 的學(xué)習(xí)經(jīng)歷,也就集中在 10 年的下半年這段時間了。后來到了11 年初, 偶然間看到統(tǒng)計(jì)之都上,舉辦第一屆數(shù)據(jù)挖掘挑戰(zhàn)賽的信息。我便花了 1 個多月去參加比賽,再后來便去找實(shí)習(xí)。到現(xiàn)在不知道自己還會不會繼續(xù)學(xué)習(xí) sas,但 saslist 確實(shí)對我的數(shù)據(jù) 挖掘之路,起著承上啟下的作用。在這里很容易讓你融入一個學(xué)習(xí)數(shù)據(jù)分析,數(shù)據(jù)挖掘的圈子,很多前輩們的精彩博文都對自己起著極大的鼓舞作用。
2數(shù)據(jù)挖掘挑戰(zhàn)賽
    沒想到自己參加的還是全國首屆數(shù)據(jù)挖掘挑戰(zhàn)賽(編者注:2011年統(tǒng)計(jì)之都 cos.name舉辦),看來真不知道是自己的數(shù)據(jù)挖掘之路起步早,還是國內(nèi)的數(shù)據(jù)挖掘起步比較晚??傊沂潜е鴮?shí)戰(zhàn)的目的來玩玩的,很可惜的是沒有組隊(duì)成功,雖然中間還硬拉著 sxlion來玩了一下,不過他那時候好像確實(shí)也比較忙。從題目和贊助方(世紀(jì)佳緣網(wǎng))來看,這是一個典型的Web數(shù)據(jù)挖掘如何做用戶推薦的案例。提供的數(shù)據(jù)如下:
    profile_f.txt,女性會員的資料,203843 條數(shù)據(jù)
    profile_m.txt,男性會員的資料,344552 條數(shù)據(jù)
    test.txt,原始數(shù)據(jù)
    train.txt,原始數(shù)據(jù)
    評分指標(biāo)采用的是NDCG@10。對這個指標(biāo)并不陌生,因?yàn)槿ツ赀€選修了Web數(shù)據(jù)挖掘那門課, 那位老師還是從加拿大過來的,當(dāng)時聽得還挺認(rèn)真,這里推薦一下他這門課的主頁,還有 他指定的兩本教材:《搜索引擎:信息檢索實(shí)踐》,《數(shù)據(jù)挖掘:概念與技術(shù)》,后一本的書的作者正是他的導(dǎo)師。本來一看這個題目是做推薦,于是我就想到了協(xié)同過濾,試了一下又發(fā)現(xiàn)不行,其實(shí)這些數(shù)據(jù)是非常稀疏的而且是冷啟動的,后來又嘗試了回歸還有SVM, 總之效果都不是太明顯,感覺是自己特征選得不好。賽后,看了別人的經(jīng)驗(yàn)貼,居然投票是最簡單有效的,可以極大地提升預(yù)測精度。反正,我也是對數(shù)據(jù)挖掘都還 沒入門就去參加比賽了。這次比賽算是第一次接觸真實(shí)的用戶數(shù)據(jù),并且用來解決一個十分現(xiàn)實(shí)的問題。對推薦用戶的預(yù)測精度的提升,是可以直接帶來可觀的經(jīng)濟(jì) 效益的。這次比賽的另一個收獲是,我開始學(xué)習(xí)python和看《集體智慧編程》這本書?,F(xiàn)在好像又有騰訊贊助2012知識發(fā)現(xiàn)與數(shù)據(jù)挖掘挑戰(zhàn)賽,感興趣可以去參與一下。
3實(shí)習(xí)與工作
    saslist還有一個好處,就是可以查看到一些數(shù)據(jù)分析相關(guān)的實(shí)習(xí)和找工信息。其實(shí),這些信息還是蠻管用的,我還因此拿到過人人網(wǎng)數(shù)據(jù)挖掘工程師的offer。在我看來,數(shù)據(jù)分析相關(guān)的職位大致分三個板塊:醫(yī)藥、金融和互聯(lián)網(wǎng)。要去醫(yī)藥行業(yè),可以多關(guān)注胡江堂的博客,還有中南大學(xué)統(tǒng)計(jì)系的本科生韓帥同學(xué)的博客。金融行業(yè)的話,可以多關(guān)注一下人大經(jīng) 濟(jì)論壇等;我當(dāng)初投過一家叫discover的上海公司,好像是從大摩分出來的,專做信用卡這一塊的,面試的時候如果懂sas還是有加分的,當(dāng)然外企可能更注重是你這個人本身的一些基本素質(zhì)。因?yàn)?,我最后還是決定去互聯(lián)網(wǎng)行業(yè),所以我的就職經(jīng)歷也都集中在幾家大的互聯(lián)網(wǎng)公司。
    在剛參加完數(shù)據(jù)挖掘挑戰(zhàn)賽之后,也就是去年 4月份了,那個時候很多大的IT公 司都開始來校園招聘實(shí)習(xí)生。由于我本科畢業(yè)之后,決定讀研,也沒找過工作。所以,這個時候找實(shí)習(xí),也算是為我找工作贊經(jīng)驗(yàn)。我投了百度的數(shù)據(jù)挖掘工程師和 淘寶的廣告和搜索發(fā)展部的產(chǎn)品經(jīng)理助理職位。前者的具體情況可以參見我的博文鏈接,至于實(shí)習(xí)我還是去了后者,因?yàn)樘詫毦驮趯W(xué)校旁邊。在淘寶的實(shí)習(xí)經(jīng)歷算是 我真正意義上地走出校園,也堅(jiān)定了我去互聯(lián)網(wǎng)行 業(yè)的信念,我喜歡像淘寶這些的互聯(lián)網(wǎng)公司里那種從上而下,自由而又年輕的氛圍。也正是在淘寶的實(shí)習(xí),讓我切身體會到了互聯(lián)網(wǎng)廣告市場的盈利模式,以及如何 通過數(shù)據(jù)挖掘來提升淘寶的生態(tài)平衡和盈利空間。感興趣的同學(xué)可以去讀讀淘寶搜索技術(shù)博客。
4總結(jié)
    我找工的經(jīng)歷,其實(shí)十分地短暫,也就集中在那幾家互聯(lián)網(wǎng)公司,這里也就不細(xì)說了。值得一提的是除了我在實(shí)驗(yàn)室做的項(xiàng)目外,那次數(shù)據(jù)挖掘挑戰(zhàn)賽的經(jīng)歷,往往 會非常引人注意, 因?yàn)槟莻€挑戰(zhàn)賽是非常貼近互聯(lián)網(wǎng)公司做數(shù)據(jù)挖掘的實(shí)際的。而且,參加比賽本身也說明你本來的興趣和積極性都比較高。

最后,再總結(jié)一下我的數(shù)據(jù)挖掘知識體系:

1. 統(tǒng)計(jì)學(xué)基礎(chǔ):《概率與數(shù)理統(tǒng)計(jì)》、《生物統(tǒng)計(jì)學(xué)》;

2. 編程語言與工具:SAS、Matlab、Python、R 等;互聯(lián)網(wǎng)公司,還需要 Linux Shell, Hadoop, C++, Java 語言等;

3.數(shù)據(jù)挖掘理論:《集體智慧編程》(python)、《Web數(shù)據(jù)挖掘》、《SAS編程和數(shù)據(jù)挖掘商業(yè)案例》,另外還推薦一些開放式課程,我認(rèn)真學(xué)習(xí)過的有 CS229(stanford 的機(jī)器學(xué)習(xí)課程);

4. 參加貼近商業(yè)的比賽或者去實(shí)習(xí)。

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗(yàn)證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }