99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀專欄 | 如何在一年內(nèi)成為數(shù)據(jù)挖掘工程師?
專欄 | 如何在一年內(nèi)成為數(shù)據(jù)挖掘工程師?
2016-04-12
收藏

 


先來一波養(yǎng)眼圖~


4月10日,全都是美女的「數(shù)你最美數(shù)據(jù)分析沙龍在北京蘇州街納什空間圓滿舉辦?,F(xiàn)場不僅有美女養(yǎng)眼,還有強大的干貨分享。

四位美女嘉賓在現(xiàn)場分享了自己在數(shù)據(jù)分析行業(yè)的成長經(jīng)歷,C君當然忍不住深入「搭訕」了一番。聊完之后,C君覺得,姑娘,如果你想成為一名數(shù)據(jù)分析師,就大膽地上吧。雖然這個行業(yè)男同胞們占了大半壁江山,但如果姑娘們有決心有毅力,完全可以成為一名優(yōu)秀而強大的從業(yè)者。在這一點上,男女并無差別。

四位嘉賓的PPT已經(jīng)可以提供下載,請在CDA數(shù)據(jù)分析師微信公眾號回復(fù)關(guān)鍵詞「美女」獲取下載鏈接和提取碼。

嘉賓的現(xiàn)場錄音整理將會搭配PPT以圖文形式陸續(xù)發(fā)布在CDA微信公眾號上,請持續(xù)關(guān)注。

本期分享第一篇:

如何在一年之內(nèi)成為一名數(shù)據(jù)挖掘工程師?

 

 

不管是數(shù)據(jù)分析師還是數(shù)據(jù)挖掘工程師,我們的目標都是認識數(shù)據(jù),從數(shù)據(jù)中發(fā)現(xiàn)需要的信息。

 

所需要的技能

 

做數(shù)據(jù)分析,統(tǒng)計的知識肯定是需要的,Excel、SPSS、R等是需要掌握的基本技能。

我是做數(shù)據(jù)挖掘的,所以重點講一下數(shù)據(jù)挖掘方面的技能。我本身是學(xué)數(shù)學(xué)專業(yè)的,接觸數(shù)學(xué)比較多。數(shù)據(jù)挖掘要從海量數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,這就需要一定的數(shù)學(xué)知識,最基本的比如線性代數(shù)、高等代數(shù)、凸優(yōu)化、概率論等。

舉個栗子,比如樸素貝葉斯算法需要概率方面的知識,SKM算法需要高等代數(shù)或者區(qū)間論方面的知識。當然,你可以直接套模型,R、Python這些工具有現(xiàn)成的算法包,可以直接套用。但如果你想深入學(xué)習(xí)這些算法,最好去學(xué)習(xí)一些數(shù)學(xué)知識,也會讓你以后的路走得更順暢。

我們經(jīng)常會用到的語言包括Python、Java、C或者C++,我自己用Python或者Java比較多。有時用MapReduce寫程序,再用Hadoop或者Hyp來處理數(shù)據(jù),如果用Python的話會和Spark相結(jié)合。

工作內(nèi)容

 

數(shù)據(jù)分析更偏向統(tǒng)計分,出圖,作報告比較多,做一些展示。知乎上有一個叫團支書的答主,他就比較偏向于數(shù)據(jù)分析。

數(shù)據(jù)挖掘更偏向于建模型。比如,我們做一個百貨的數(shù)據(jù)分析。萬達電商的數(shù)據(jù)非常大,具體要做什么需要項目組自己來定。百貨數(shù)據(jù)能給我們的業(yè)務(wù)什么樣的推進,我們從這一點入手去思考。我們從中挑出一部分進行用戶分群。

消費者在商場購物消費會有一個刷卡的數(shù)據(jù)記錄,萬達會員卡的卡號信息以及購物記錄也會在數(shù)據(jù)中呈現(xiàn),數(shù)據(jù)體量是很大的。我們用這些數(shù)據(jù)做一個聚類,分成幾個用戶群,比如偏向親子的、時尚女裝和奢侈品的、汽車配飾的,分群之后再去給他們做推薦就相對更加容易。

我們做用戶分群會用到一些聚類模型,比如K-means、K-means++等,處理數(shù)據(jù)的維度特別大,是300w*142維,如果全部拿來聚類,效果不太好,因為有一些是沒有含義的,所以我們會進行降維。

降維一般會用到主成分分析,我們用的是深度學(xué)習(xí)的一個算法——Auto Encoder。它有一個輸入層,一個隱含層,一個輸出層,數(shù)據(jù)從輸入層進去時會進行編碼,從輸出層出來時解碼,比如我們把142維數(shù)據(jù)灌進去,在隱含層降成50維數(shù)據(jù),輸出還是142維數(shù)據(jù)。也就是說把一開始的142維數(shù)據(jù)投射到50維數(shù)據(jù)之后,再還原成142維,這142維與之前的142維數(shù)據(jù)之間的映射關(guān)系是一樣的,那么我們就可以用中間50維的數(shù)據(jù)做聚類分析。

最后我們得到了一個評價指標,你可以理解為這個指標數(shù)值越小越好,越小代表各個值離中心越近。如果不用深度學(xué)習(xí)算法,得出的評價指標是20萬左右,而降維之后得出的指標是600多,效果是很顯著的。

我講這個例子也是想告訴大家,如果你不具備數(shù)學(xué)知識,只是去套模型也可以做,但永遠只是停留在入門階段。大家如果想做數(shù)據(jù)挖掘工程師的話,我建議編程語言至少要會一門,數(shù)學(xué)方面至少需要線性代數(shù)、概率論和凸優(yōu)化的知識,了解一些機器學(xué)習(xí)算法的推導(dǎo),以及深度學(xué)習(xí)的算法。這個學(xué)習(xí)起來并不是特別難,我從畢業(yè)到現(xiàn)在有一年的時間,一些基本的算法已經(jīng)了解的差不多了。

發(fā)展的建議

每個人都有自己的偏好。有的人會說,數(shù)學(xué)太難了,我不想做挖掘,就想做一些數(shù)據(jù)分析,做一些酷炫的分析圖,這個當然可以。如果想要自己的職業(yè)生涯有長足發(fā)展的話,不要貪多貪雜,在某一個領(lǐng)域深入進去。你可以結(jié)合自己的興趣,在那一個領(lǐng)域成為專家。

提高自己的技術(shù)和業(yè)務(wù)能力。技術(shù)能力相對來說是比較好提高的,學(xué)R或者Python這類簡單的語言是很快的,Java或者C++會比較慢。當技術(shù)能力提高到一定程度的時候,就很難跟別人有技術(shù)上的差別了??赡芄ぷ饕荒甑臅r候你只會R,等兩三年之后相關(guān)的工具技術(shù)你都會了,這個時候你跟其他同事的區(qū)別就在于業(yè)務(wù)能力。

很多做技術(shù)的一開始會覺得技術(shù)就是特別牛特別厲害,但是光有技術(shù)并不能讓你成為公司的核心成員,必須要提高自己的業(yè)務(wù)能力。如果你做的技術(shù)出的結(jié)果跟業(yè)務(wù)不相關(guān),對公司無法產(chǎn)生效益,領(lǐng)導(dǎo)是不會要這個結(jié)果的,除非你是研究人員。

幾個小tips

 

學(xué)歷重要嗎?

校招渠道比較看重學(xué)歷,但是隨著工作經(jīng)驗的增加,你的技術(shù)達到了一定的水平,你是二本三本實際上和985畢業(yè)的人并沒有太大區(qū)別。當然,對于應(yīng)屆畢業(yè)生來說,學(xué)歷高學(xué)校好更有優(yōu)勢,這是大廠的敲門磚。

也有人會問需不需要考研??佳幸阋院蟮墓ぷ鞯缆方Y(jié)合起來,如果想做數(shù)據(jù)挖掘,就可以選擇考數(shù)學(xué)類專業(yè)的研究生,可以提高自己的競爭力。

以我的經(jīng)歷來說,我本科是在湖北一個很普通的學(xué)校,研究生報考武漢大學(xué)的計算數(shù)學(xué)專業(yè)。但因為兩分之差,調(diào)劑到了基礎(chǔ)數(shù)學(xué)。當時家人勸我服從調(diào)劑,好歹研究生是武大出來的。不過我的興趣不在基礎(chǔ)數(shù)學(xué),這個專業(yè)也并不能給我想要從事的數(shù)據(jù)挖掘加分,還不如先在工作中積累一些實踐經(jīng)驗,所以就放棄了讀研。如果我工作幾年之后需要提升能力,可以再去考個研究生,不一定非要現(xiàn)在就考。

轉(zhuǎn)行可不可以學(xué)?

現(xiàn)在這個行業(yè)越來越火,很多人想要轉(zhuǎn)行做數(shù)據(jù)分析。轉(zhuǎn)行學(xué)數(shù)據(jù)分析師是可以的,但最好先去看一下招聘單位的工作內(nèi)容,如果招聘要求懂PPT、Excel之類的就可以不要考慮了,因為這種通常招的是統(tǒng)計員,不是分析師,對你的職業(yè)道路不會有太大的幫助。如果要求會Python、R或者建模,你可以去嘗試一下。可能別人不一定會要你,但如果你表現(xiàn)出足夠的誠意和自學(xué)能力的話,依然有被錄用的機會。

我大學(xué)讀數(shù)學(xué)專業(yè)時只學(xué)了MATLAB,學(xué)了不到一年,當時在學(xué)校參加MATLAB建模比賽得了一等獎,覺得自己挺牛。但是在找工作時發(fā)現(xiàn)很多公司不用MATLAB或者SAS,因為比較貴,很多都會用開源的R。面試的時候,我說我不知道R是什么,領(lǐng)導(dǎo)說,給你兩個星期,學(xué)。后來在工作里一點點看書,也就入門了。

跳到第四個問題,選數(shù)據(jù)分析還是數(shù)據(jù)挖掘?

很多人覺得數(shù)據(jù)挖掘很厲害,但是一轉(zhuǎn)行就跳到數(shù)據(jù)挖掘是不太可能的。數(shù)據(jù)挖掘要求比較深的代碼功底。

一開始我也不會寫代碼,畢業(yè)之后我去了一家公司,Title是中級數(shù)據(jù)分析師,但干的是數(shù)據(jù)挖掘的事兒。剛?cè)肼毜囊粋€月內(nèi),老板讓我用Python出結(jié)果。之前沒學(xué)過Python,我邊學(xué)邊做,這樣把Python也學(xué)會了。后來在這家公司做過一個垃圾文本分類的項目,這個方面以前也沒有接觸過,就一邊查資料一邊自己做。一開始用公式套,但是準確率只有80%左右,我就開始看公式的推導(dǎo),看懂公式原理之后就知道某些地方是可以挑優(yōu)的,自己可以對算法做一些改進。不要只套公式,也要弄明白其中的公式推導(dǎo),搞懂源代碼,慢慢提高自己的代碼能力。

怎么選公司

大公司當然是最好的。大公司一般走校招,如果你通過校招進了大公司,但是非核心的崗位,比如百度搜索方面的挖掘,當然是最好的,如果進入不了這樣的崗位,不如去一些新發(fā)展起來的公司,比如美團、滴滴,這樣的公司有一定的數(shù)據(jù)量,也會有一些比較強的人。

第三類公司是創(chuàng)業(yè)公司。如果是剛畢業(yè)最好不要選創(chuàng)業(yè)公司,風(fēng)險比較大。你比較難以從表面上判斷這家公司能不能存活下來,有沒有牛人值得跟。而一些二線公司的業(yè)務(wù)骨干大多是從BAT過來的,具有比較豐富經(jīng)驗,跟著他們學(xué)習(xí)能讓自己快速成長。

怎么面試

一定要誠實。不要造假工作經(jīng)驗和年限,沒有必要,對自己也沒有好處。畢業(yè)生求職時可以表現(xiàn)得真誠一點,不能說一上手就能做很多工作,但是可以展示自己的學(xué)習(xí)能力。

我也不是一開始就做數(shù)據(jù)挖掘,也是在工作中慢慢轉(zhuǎn)。如果你真的想做這一行,就要有決心,不能著急。

講個小故事,當時想轉(zhuǎn)數(shù)據(jù)挖掘的時候,我不知道是選擇Java還是C++。當時我投了很多數(shù)據(jù)挖掘崗位,我知道面試通過的可能性不大,但我就跟面試官聊天,請教經(jīng)驗。我說自己是數(shù)學(xué)專業(yè)畢業(yè)的,想要轉(zhuǎn)做數(shù)據(jù)挖掘工程師,需要掌握哪些能力。面試官就畫了一個圖說,一個圓代表數(shù)學(xué),一個圓代表計算機,我們需要的就是兩個圓交叉的部分,如果編程語言求快的話可以先學(xué)Java;我接著問他需要看哪些資料等等,我們聊了差不多一個小時。其實很多老人帶新人是很樂于分享的,多看前人的經(jīng)驗,幫助自己成長,一定會在這個行業(yè)有所收獲。

 

 

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務(wù)器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }