99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

<nav id="zzxpb"></nav>

熱線電話：13121318867

登錄

首頁精彩閱讀數(shù)據(jù)挖掘工程師的面試問題與答題思路

數(shù)據(jù)挖掘工程師的面試問題與答題思路

2016-10-16

數(shù)據(jù)挖掘工程師的面試問題與答題思路

機器學習、大數(shù)據(jù)相關崗位根據(jù)業(yè)務的不同，崗位職責大概分為：

1、平臺搭建類

數(shù)據(jù)計算平臺搭建，基礎算法實現(xiàn)，當然，要求支持大樣本量、高維度數(shù)據(jù)，所以可能還需要底層開發(fā)、并行計算、分布式計算等方面的知識；

2、算法研究類

- 文本挖掘，如領域知識圖譜構建、垃圾短信過濾等；

- 推薦，廣告推薦、APP 推薦、題目推薦、新聞推薦等；

- 排序，搜索結果排序、廣告排序等；

- 廣告投放效果分析；

- 互聯(lián)網(wǎng)信用評價；

- 圖像識別、理解。

3、數(shù)據(jù)挖掘類

- 商業(yè)智能，如統(tǒng)計報表；

- 用戶體驗分析，預測流失用戶。

以上是根據(jù)求職季有限的接觸所做的總結。有的應用方向比較成熟，業(yè)界有足夠的技術積累，比如搜索、推薦，也有的方向還有很多開放性問題等待探索，比如互聯(lián)網(wǎng)金融、互聯(lián)網(wǎng)教育。在面試的過程中，一方面要盡力向企業(yè)展現(xiàn)自己的能力，另一方面也是在增進對行業(yè)發(fā)展現(xiàn)狀與未來趨勢的理解，特別是可以從一些剛起步的企業(yè)和團隊那里，了解到一些有價值的一手問題。

以下首先介紹面試中遇到的一些真實問題，然后談一談答題和面試準備上的建議。

面試問題

1、你在研究/項目/實習經(jīng)歷中主要用過哪些機器學習/數(shù)據(jù)挖掘的算法？

2、你熟悉的機器學習/數(shù)據(jù)挖掘算法主要有哪些？

3、你用過哪些機器學習/數(shù)據(jù)挖掘工具或框架？

4、基礎知識

1）無監(jiān)督和有監(jiān)督算法的區(qū)別？

2）SVM 的推導，特性？多分類怎么處理？

3）LR 的推導，特性？

4）決策樹的特性？

5）SVM、LR、決策樹的對比？

6）GBDT 和決策森林的區(qū)別？

7）如何判斷函數(shù)凸或非凸？

8）解釋對偶的概念。

9）如何進行特征選擇？

10）為什么會產(chǎn)生過擬合，有哪些方法可以預防或克服過擬合？

11）介紹卷積神經(jīng)網(wǎng)絡，和 DBN 有什么區(qū)別？

12）采用 EM 算法求解的模型有哪些，為什么不用牛頓法或梯度下降法？

13）用 EM 算法推導解釋 Kmeans。

14）用過哪些聚類算法，解釋密度聚類算法。

15）聚類算法中的距離度量有哪些？

16）如何進行實體識別？

17）解釋貝葉斯公式和樸素貝葉斯分類。

18）寫一個 Hadoop 版本的 wordcount。

……

5、開放問題

1）給你公司內(nèi)部群組的聊天記錄，怎樣區(qū)分出主管和員工？

2）如何評估網(wǎng)站內(nèi)容的真實性（針對代刷、作弊類）？

3）深度學習在推薦系統(tǒng)上可能有怎樣的發(fā)揮？

4）路段平均車速反映了路況，在道路上布控采集車輛速度，如何對路況做出合理估計？采集數(shù)據(jù)中的異常值如何處理？

5）如何根據(jù)語料計算兩個詞詞義的相似度？

6）在百度貼吧里發(fā)布 APP 廣告，問推薦策略？

7）如何判斷自己實現(xiàn)的 LR、Kmeans 算法是否正確？

8）100億數(shù)字，怎么統(tǒng)計前100大的？

……

答題思路

1、用過什么算法？

最好是在項目/實習的大數(shù)據(jù)場景里用過，比如推薦里用過 CF、LR，分類里用過 SVM、GBDT；

一般用法是什么，是不是自己實現(xiàn)的，有什么比較知名的實現(xiàn)，使用過程中踩過哪些坑；優(yōu)缺點分析。

2、熟悉的算法有哪些？

基礎算法要多說，其它算法要挑熟悉程度高的說，不光列舉算法，也適當說說應用場合；

面試官和你的研究方向可能不匹配，不過在基礎算法上你們還是有很多共同語言的，你說得太高大上可能效果并不好，一方面面試官還是要問基礎的，另一方面一旦面試官突發(fā)奇想讓你給他講解高大上的內(nèi)容，而你只是泛泛的了解，那就傻叉了。

3、用過哪些框架/算法包？

主流的分布式框架如 Hadoop，Spark，Graphlab，Parameter Server 等擇一或多使用了解；

通用算法包，如 mahout，scikit，weka 等；

專用算法包，如 opencv，theano，torch7，ICTCLAS 等。

4、基礎知識

個人感覺高頻話題是 SVM、LR、決策樹（決策森林）和聚類算法，要重點準備；

算法要從以下幾個方面來掌握：

1）產(chǎn)生背景，適用場合（數(shù)據(jù)規(guī)模，特征維度，是否有 Online 算法，離散/連續(xù)特征處理等角度）；

2）原理推導（最大間隔，軟間隔，對偶）；

3）求解方法（隨機梯度下降、擬牛頓法等優(yōu)化算法）；

4）優(yōu)缺點，相關改進；

5）和其他基本方法的對比；

6）不能停留在能看懂的程度，還要對知識進行結構化整理，比如撰寫自己的 cheet sheet，我覺得面試是在有限時間內(nèi)向面試官輸出自己知識的過程，如果僅僅是在面試現(xiàn)場才開始調(diào)動知識、組織表達，總還是不如系統(tǒng)的梳理準備；

7）從面試官的角度多問自己一些問題，通過查找資料總結出全面的解答，比如如何預防或克服過擬合。

5、開放問題

由于問題具有綜合性和開放性，所以不僅僅考察對算法的了解，還需要足夠的實戰(zhàn)經(jīng)驗作基礎；

先不要考慮完善性或可實現(xiàn)性，調(diào)動你的一切知識儲備和經(jīng)驗儲備去設計，有多少說多少，想到什么說什么，方案都是在你和面試官討論的過程里逐步完善的，不過面試官有兩種風格：引導你思考考慮不周之處 or 指責你沒有考慮到某些情況，遇到后者的話還請注意靈活調(diào)整答題策略;

和同學朋友開展討論，可以從上一節(jié)列出的問題開始。

準備建議

1、基礎算法復習兩條線
材料閱讀包括經(jīng)典教材（比如 PRML，模式分類）、網(wǎng)上系列博客（比如研究者July的“結構之法，算法之道”），系統(tǒng)梳理基礎算法知識；

面試反饋面試過程中會讓你發(fā)現(xiàn)自己的薄弱環(huán)節(jié)和知識盲區(qū)，把這些問題記錄下來，在下一次面試前搞懂搞透。

2、除算法知識，還應適當掌握一些系統(tǒng)架構方面的知識，可以從網(wǎng)上分享的阿里、京東、新浪微博等的架構介紹 PPT 入手，也可以從 Hadoop、Spark 等的設計實現(xiàn)切入。

3、如果真的是以就業(yè)為導向就要在平時注意實戰(zhàn)經(jīng)驗的積累，在科研項目、實習、比賽（Kaggle，Netflix，天貓大數(shù)據(jù)競賽等）中摸清算法特性、熟悉相關工具與模塊的使用。

總結

如今，好多機器學習、數(shù)據(jù)挖掘的知識都逐漸成為常識，要想在競爭中脫穎而出，就必須做到：
保持學習熱情，關心熱點；

深入學習，會用，也要理解；

在實戰(zhàn)中歷練總結；

積極參加學術界、業(yè)界的講座分享，向牛人學習，與他人討論。

最后，希望自己的求職季經(jīng)驗總結能給大家?guī)碛幸娴膯l(fā)。

CDA數(shù)據(jù)分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

數(shù)據(jù)挖掘機器學習 SVM 決策樹特征過擬合 Hadoop 大數(shù)據(jù)

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇圖論在大數(shù)據(jù)分析中的作用！

下一篇CDA認證再升一檔！與國家共同推進大數(shù)據(jù)人才培養(yǎng)標準教育事業(yè)！

CDA報考指南

報考流程
考試時間
報名費用
聯(lián)系我們

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

京公網(wǎng)安備 11010802034615號經(jīng)營許可證編號：京B2-20210330

聯(lián)系電話：13321103290 (微信同號)

CDA教材
CDA題庫
CDA大綱

客服在線

立即咨詢

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊

') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進行初始化 // 參數(shù)1：配置參數(shù) // 參數(shù)2：回調(diào)，回調(diào)的第一個參數(shù)驗證碼對象，之后可以使用它調(diào)用相應的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須，不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式，包括：float，popup width: "280px", https: true // 更多配置參數(shù)說明請參見：http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'！'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'！'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

數(shù)據(jù)挖掘工程師的面試問題與答題思路

1、平臺搭建類

2、算法研究類

3、數(shù)據(jù)挖掘類

面試問題

答題思路

準備建議

總結

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

【CDA干貨】SQL Server 中 CONVERT 函數(shù)的日期轉換 ...

【CDA干貨】MySQL 大表拆分與關聯(lián)查詢效率：打破 “ ...

CDA 數(shù)據(jù)分析師：表結構數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 ...

【CDA干貨】Excel 導入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結構數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解 ...

【CDA干貨】解析 Python 中 Response 對象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結構數(shù)據(jù)價值的核心操盤手 ...

【CDA干貨】Python HTTP 請求工具對比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu) ...

【CDA干貨】用 SQL 驗證業(yè)務邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據(jù)驅動下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實踐到業(yè)務 ...

【CDA干貨】統(tǒng)計模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA教育閉環(huán)

常見問題

關于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

數(shù)據(jù)挖掘工程師的面試問題與答題思路

1、平臺搭建類

2、算法研究類

3、數(shù)據(jù)挖掘類

面試問題

答題思路

準備建議

總結

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

【CDA干貨】SQL Server 中 CONVERT 函數(shù)的日期轉換 ...

【CDA干貨】MySQL 大表拆分與關聯(lián)查詢效率：打破 “ ...

CDA 數(shù)據(jù)分析師：表結構數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 ...

【CDA干貨】Excel 導入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結構數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解 ...

【CDA干貨】解析 Python 中 Response 對象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結構數(shù)據(jù)價值的核心操盤手 ...

【CDA干貨】Python HTTP 請求工具對比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu) ...

【CDA干貨】用 SQL 驗證業(yè)務邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據(jù)驅動下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實踐到業(yè)務 ...

【CDA干貨】統(tǒng)計模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA教育閉環(huán)

常見問題

關于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

2、算法研究類

3、數(shù)據(jù)挖掘類

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...