99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀十個問題讓你了解數據挖掘工程師
十個問題讓你了解數據挖掘工程師
2016-04-15
收藏

十個問題讓你了解數據挖掘工程師

對于如何學習大數據技能?大多資深數據分析師都會建議在學習書本的基礎上參加競賽,從實踐中發(fā)現問題提升自己。今天跟我們分享的就是一位長期參加比賽的數據挖掘工程師,他有四年的工作經驗,利用業(yè)余時間參加kaggle,目前也正在參加DataCastle舉辦的職位預測競賽。因為熱愛分享,他被其他參賽者親切稱為蒼老師!

1、蒼老師,請簡單介紹一下你的學習背景吧?

蒼老師:我大學是在佐治亞理工學的計算機科學專業(yè)。畢業(yè)之初也從事一些軟件開發(fā)類的職位,但在開發(fā)過程中逐漸接觸到一些數據挖掘方面的工作,諸如推薦系統(tǒng),算法模型一類的東西,我覺得這些非常有趣,久而久之開始專攻這一方面。現在就職于上海大豈網絡科技有限公司,職位是數據挖掘工程師。

2、你覺得你有這樣的學習背景有優(yōu)勢嗎?在工作中還需要怎么提高?

蒼老師:技術方面當然會有一些優(yōu)勢,但是工作總因為面臨到的問題會各不相同,其內因也不同,因此尤其要自己發(fā)明或習慣一種問題思考與處理的流程,學會習慣在理解數據之后再進行后續(xù)的操作。從鍛煉技術的角度上來說競賽是一個絕佳的練習與驗證。通過競賽可以學習到以后工作過程中數據處理的各個環(huán)節(jié)。同時掌握一些以后可能用到的工具與一些工程理念。

3、現在的工作主要都做些什么呢?

蒼老師:現在在招聘領域,主要從事在CTR預測與推薦這兩方面。

4、哪些部分你比較喜歡?不喜歡哪些?

蒼老師:我最喜歡的是特征工程的部分,因為這部分牽涉到最多對于數據內部誘因的探尋,也是最能夠提升模型效果的部分。這部分工作的挑戰(zhàn)最高帶來的優(yōu)化也最高。最不喜歡的是參數的調優(yōu),因為需要花費大量的時間去尋找一套最優(yōu)的參數,是比較枯燥的環(huán)節(jié),需要做的是大量計算資源和時間。同時對于ensemble工作也是有些愛恨交織的,好的ensemble可以提升效果,但是如果單個模型的效果不理想或者某一類的模型訓練不到位則會拖累整體效果。

5、你認為想從事數據分析挖掘,哪些技術工具是必須要掌握的呢?在校學生應該學習哪些技能?

蒼老師:我在工作中使用python,當然其他諸如R語言,Julia也是數據科學家可選的工具。
對于在校學生我建議是先將編程基礎打扎實,無論未來想從事數據挖掘行業(yè)的哪一類工作,對于變成算法和數學基礎的要求都是一樣的。
還有就是數據庫方面,涉及到數據的存儲和處理,以后都是非常有用的。
數學基礎也很重要,概率論和線性代數是非常有用的工具,能夠幫助理解算法模型,并且在業(yè)務處理過程中更好的讀懂數據。
還有就是多關心一些新技術的動態(tài)。雖然并不一定會用到,但是新工具和技術的誕生必將會給業(yè)界帶來一些變革和方便。

6、工作已經每天都要和數據打交道了,你為什么還會利用業(yè)余時間參加競賽呢?

蒼老師:首先我覺得做數據是很有趣的一件事,并不會因為處理數據的問題而覺得枯燥。所以參加競賽除了是自己的休閑方式之外,還能保持一種對于數據的敏感度。這能更好的幫助自己在工作中的發(fā)揮。

7、你目前在DC的職位預測中排名第一,但是你也同時跟別人分享比賽經驗,不擔心別人超過你?有信心繼續(xù)提高自己的成績嗎?

蒼老師:這個不會,相反我覺得能夠提供一些思路上的幫助對于一些新入門機器學習領域的同學來說會有幫助,免去很多我當初學習過程走的彎路。算法的調整是一個迭代過程,任何新的想法都會被放入模型中被驗證,還有時間,應該還有上升的空間。

8、根據你說的,數據分析師對綜合技能要求很強啊,除了競賽還有別的學習途徑嗎?

蒼老師:多看論文,要有足夠可信度的,還有關注一些業(yè)內大公司的發(fā)現。他們公布的一些算法模型,以及提供的開元代碼實現,學習他人的代碼能夠帶來自己的提升。

9、有些人認為某些特定領域專業(yè)知識比統(tǒng)計或者編程知識更重要,你覺得呢?

蒼老師:我也這么覺得,其實數據挖掘業(yè)內都認為70%甚至更高的工作量都在于數據的預處理階段,特征的提取和分析以及轉換都是和業(yè)務理解息息相關的,這就需要對業(yè)務有一定的理解。但是如果你從一個行業(yè)跳到另一個行業(yè),比如從招聘到金融,還是可以針對數據挖掘設計出一個固定的流程,特征提取方面應當是結合領域知識不斷完善有效特征,但這并不妨礙原有的架構的搭建。

10、最后給想往數據分析方向發(fā)展的學生們一點建議吧 !

蒼老師:數據方向的幾個發(fā)展職位,數據科學家,數據分析師,數據工程師,數據架構師.每一種掌握的技能都不太相同,不過基本上編程能力都是必備的。同時掌握1門數據分析用的開發(fā)語言諸如python,R,julia也是必備的推薦的技能包括了c/c++/java,這一類在工程應用中會經常遇到。數據庫,關系型和非關系型的優(yōu)點缺點都可以熟悉下。再來就是更復雜的分布式計算,云存儲等框架結構。養(yǎng)成從數據角度去思考的思維模式。

……

其實說了這么多歸根結底是先定好一個目標,向著那個目標去努力,循序漸進的去儲備自己的專業(yè)知識,有機會實踐并檢驗自己的能力,在數據和算法過程中會遇到很多瓶頸阻礙,不要怕,相信你學習的越多越有可能去解決這些問題。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調用 initGeetest 進行初始化 // 參數1:配置參數 // 參數2:回調,回調的第一個參數驗證碼對象,之后可以使用它調用相應的接口 initGeetest({ // 以下 4 個配置參數為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產品形式,包括:float,popup width: "280px", https: true // 更多配置參數說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }