99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀面試了8家公司,他們問了我這些機器學習題目......
面試了8家公司,他們問了我這些機器學習題目......
2018-05-04
收藏

面試了8家公司,他們問了我這些機器學習題目......

今年年初以來,作者一直在印度找數(shù)據(jù)科學、機器學習以及深度學習領域的工作。在找工作的這三十四天里,他面試了8到10家公司,其中也包括初創(chuàng)公司、基于服務的公司以及基于產(chǎn)品的公司。作者希望他的面試經(jīng)驗能夠為求職者提供一些有用的信息,因而撰寫了此文。希望你讀后能夠有所收獲!

首先自我介紹一下:

我在機器學習(語音分析、文本分析和圖像分析領域應用)領域有4年以上的從業(yè)經(jīng)驗。總的來說,我認為這個領域的大多數(shù)工作職位主要包括文本分析(自然語言處理)和圖像分析(計算機視覺)。很少有公司招聘語音或音頻分析的人才。我現(xiàn)在的目標是應聘一個中高級職位,可以帶領一個深度學習機器學習團隊做一些有趣的項目。

下面是我在應聘過程中被問到的問題,希望能夠對你有所幫助。

▌公司一:基于全球性服務的某公司(面試時長:20-25min)


  1. 你在簡歷中提到曾經(jīng)構建過一個文檔挖掘系統(tǒng),你都做了哪些工作?能否在主題建模(topic modeling)中使用LDA技術實現(xiàn)文檔聚類?
  2. 假設你有數(shù)百兆字節(jié)的數(shù)據(jù)文件,這其中包括PDF文件、文本文件、圖像、掃描的PDF文件等等,請你給出一個分類方案。
  3. 你如何閱讀掃描版pdf文件或圖像格式的書面文件的內容?
  4. 樸素貝葉斯為什么被稱為“樸素”?
  5. 請詳細介紹一下樸素貝葉斯分類器。
  6. 什么是深度學習?深度學習機器學習的區(qū)別是什么?


體驗?:除此之外面試官還問了一些問題,但是都把我問懵了,我完全不知道他想聽到什么答案。我一直都想深入的聊一些技術層面的問題,比如訓練一個 tesseract(一款由HP實驗室開發(fā)由Google維護的開源OCR引擎)或語言模型,但是他似乎并不感興趣?;蛟S他只是想聽到一些已經(jīng)實現(xiàn)的成果或者是一個好的解釋,又或者是一些更好的方案。我感覺他們面試一個新手和面試一個有經(jīng)驗的專業(yè)人員之間并沒有什么區(qū)別。

▌公司二:基于全球性服務的某公司(面試時長:40-45min)


  1. 無監(jiān)督學習中,如何進行文件聚類?
  2. 如何找到與某些查詢語句/搜索相關的文件?
  3. 解釋下TF-IDF技術。
  4. 根據(jù)我的經(jīng)驗來看,TF-IDF技術在文件分類或聚類上效果并不好,你將如何改進?
  5. 什么是長短期記憶神經(jīng)網(wǎng)絡LSTM)?解釋下其工作原理。
  6. 什么是word2vec模型?
  7. 解釋下python中的可變對象和不可變對象。
  8. 你在python中使用過什么數(shù)據(jù)結構?


體驗?:整個面試過程都是圍繞著文本相似度提問的,我都順利通過了。但是這次仍舊沒有更深層次的技術探討?;蛟S是公司在文本分析領域有幾個小項目,最終我拿到了公司的offer。

▌公司三:基于全球性產(chǎn)品和服務的某公司(面試時長:40min)


  1. 如何使用不平衡數(shù)據(jù)集( unbalanced dataset)處理多類別的分類問題?
  2. 你如何從一個文本語句中進行語言識別?
  3. 如何表示中文或日文中的象形字符?
  4. 如何設計一個聊天機器人?(我沒什么想法,但我嘗試用基于TF-IDF相似性的意圖和反饋來回答這個問題。 )
  5. 能否使用循環(huán)神經(jīng)網(wǎng)絡設計一個聊天機器人來對輸入的問題進行意圖和回答響應。
  6. 假設你在Reddit數(shù)據(jù)集上使用循環(huán)神經(jīng)網(wǎng)絡或長短時記憶神經(jīng)網(wǎng)絡設計了一個聊天機器人,它能夠提供10種可能的回復,如何選擇最佳回復,或者說如何刪除其他的回復?
  7. 解釋一下支持向量機SVM)如何學習非線性邊界。


體驗?:還有幾個問題我已經(jīng)記不清了,這是我第一次在面試中深入談論技術細節(jié),隨后我也拿到了這家公司的offer。

▌公司四:成立一年的醫(yī)療初創(chuàng)公司(面試時長:50min)


  1. 什么是精確率(precision)和召回率(recall)?在醫(yī)療診斷中,你認為哪個更重要?
  2. 解釋一下精確率和召回率。
  3. 如何繪制受試者工作特征曲線 (ROC曲線)?ROC曲線下面積是什么意思?
  4. 如何為多類別分類任務繪制ROC曲線?
  5. 列舉多類別分類任務其他的度量標準。
  6. 什么是靈敏度(sensitivity)和特異度(specificity)?
  7. 隨機森林中的“隨機”指什么?
  8. 如何進行文本分類?
  9. 如何確定已經(jīng)學會了一個文本?沒有TF-IDF技術是不是不可能實現(xiàn)?(我回答說使用n-gram模型(n=1,2,3,4),并使用TF-IDF技術創(chuàng)建一個長的計數(shù)向量)
  10. 你還能利用機器學習做些什么?(我建議將長短期記憶神經(jīng)網(wǎng)絡和word2vec結合起來,或者是一維循環(huán)神經(jīng)網(wǎng)絡與word2vec結合起來,進行分類。但面試官希望改進基于機器學習的算法。)
  11. 神經(jīng)網(wǎng)絡由線性節(jié)點構成時,神經(jīng)網(wǎng)絡如何學習非線性形狀?它學習非線性邊界的原因是什么?


體驗?:還有幾個很好的問題我沒有記住。盡管整個面試過程很不錯,但是我們在一些問題上看法并不一致。并且在面試期間,我發(fā)現(xiàn)作為一個初創(chuàng)公司,目前只有2-3個人在做ML、DL和DS。最后我沒有面試成功。

▌公司五:亞馬遜公司(面試時長:50-55min)


  1. 訓練決策樹時,其參數(shù)是什么?
  2. 決策樹的某個節(jié)點處進行分割,其分割標準是什么?
  3. 基尼系數(shù)的計算公式是什么?
  4. 熵的計算公式是什么?
  5. 決策樹如何決定在哪個特征處必須進行分割?
  6. 如何利用數(shù)學計算收集來的信息?
  7. 簡述隨機森林的優(yōu)點。
  8. 簡述boosting算法。
  9. 梯度提升算法(gradient boosting)是怎樣工作的?
  10. 簡述AdaBoost算法工作原理。
  11. SVM中用到了哪些內核?SVM的優(yōu)化技術有哪些?
  12. SVM如何學習超平面?論述下其數(shù)學運算細節(jié)。
  13. 談一談無監(jiān)督學習?都有哪些算法?
  14. 如何定義K-Means聚類算法中K的值?
  15. 列舉至少3中定義K-Means聚類算法中K的方法。
  16. 除此之外你還知道哪些聚類算法?
  17. 介紹一下DB-SCAM算法。
  18. 簡述下分層凝聚聚類(Hierarchical Agglomerativeclustering)的工作原理。
  19. 解釋一下主成分分析算法(PCA),簡述下使用PCA算法的數(shù)學步驟。
  20. 20.使用 PCA算法有哪些缺點?
  21. 談談卷積神經(jīng)網(wǎng)絡的工作原理?詳細說明其實現(xiàn)細節(jié)。
  22. 解釋一下卷積神經(jīng)網(wǎng)絡中的反向傳播。
  23. 你如何部署機器學習模型?
  24. 我們大部分情況下都要用C++從零開始搭建一個機器學習模型,這一點你能做到嗎?


體驗?:我面試的是亞馬遜level 6的職位。他們的主要關注點是在算法和數(shù)學上。但是我并沒有準備數(shù)學方面的知識,我只是談論了我所了解的東西,并沒有在數(shù)學的細節(jié)上做更為詳細的探討,因此面試官認為我并不適合level 6的工作。我相信如果你能記住機器學習算法在數(shù)學上的通用表示,就可以很輕松的通過亞馬遜技術面試。

▌公司六:某全球服務巨頭(面試時長:50-55min)


  1. Sigmoid 函數(shù)的范圍是什么?
  2. 說出scikit-learn能夠實現(xiàn)邏輯回歸的包的名稱。
  3. 標準正態(tài)分布的均值和方差分別是多少?
  4. 你在Python中都使用什么數(shù)據(jù)結構?
  5. 文本分類的方法有哪些?你會怎么做分類?
  6. 解釋TF-IDF技術及其缺點,如何克服TF-IDF的缺點?
  7. 什么是雙詞搭配(Bigrams)和三詞搭配(Trigrams)?用一個文本語句解釋一下雙詞搭配和三詞搭配的TF-IDF技術。
  8. 舉例說明word2vec有哪些應用。
  9. 如何設計一個神經(jīng)網(wǎng)絡?如何做到“深度”?這是一個基礎的神經(jīng)網(wǎng)絡問題。
  10. 簡述LSTM的工作原理。它是如何記住文本的?
  11. 什么是樸素貝葉斯分類器?
  12. 拋10次硬幣,4次是正面的概率是多少?
  13. 如何獲取Python列表中元素的索引?
  14. 如果合并兩個pandas數(shù)據(jù)集?
  15. 從用戶行為來看,你需要模擬一個欺詐活動,你會如何解決這個問題?這是可能是一個異常檢測問題或分類問題!
  16. 決策樹隨機森林,你更喜歡哪一個?
  17. 邏輯回歸隨機森林有什么區(qū)別?
  18. 你會用決策樹還是隨機森林來解決分類問題?隨機森林有什么優(yōu)點?


體驗?:我也拿到了這家公司的offer。事實上,我很喜歡這次技術交流。或許你會覺著這些問題是機器學習和數(shù)據(jù)科學領域最基礎的問題,但是我感覺面試官可能不是這一領域的,或者是對這個領域的發(fā)展了解的并不多。

▌公司七:全球性商業(yè)管理公司(面試時長:25-30min)


  1. 在不平衡數(shù)據(jù)集中,你會選擇什么模型:隨機森林還是Boosting?為什么?
  2. 你所了解的Boosting技術有哪些?
  3. 采用監(jiān)督學習解決分類問題,你會選擇哪個模型?假設有 40-50個分類!
  4. 你怎樣使用合奏(Ensemble)技術?
  5. 簡述支持向量機SVM)的工作原理。
  6. 什么是Kernel?簡單介紹一下。
  7. 如何實現(xiàn)非線性回歸?
  8. 什么是Lasso回歸和Ridge回歸?


體驗?:說實話,這次面試有點水,以至于我沒有認真對待。但是問題問的很不錯。我面試的職位是要帶領一個十五六人的團隊做項目,在這之后是經(jīng)理面試和HR面試。最終他們給我提供了崗位咨詢以及不錯的薪資。

▌公司八:成立4年的生產(chǎn)和服務型公司(60分鐘)


  1. 你在簡歷上提到曾經(jīng)做過演講中的發(fā)音識別,具體來講講你的實現(xiàn)方法是什么?
  2. 什么是梅爾頻率倒譜(MFCCs)?
  3. 什么是高斯混合模型,它是如何完成聚類的?
  4. 如何實現(xiàn)期望最大化?講講其實現(xiàn)步驟。
  5. GMM模型中的概率如何計算?
  6. 在進行發(fā)音識別時,你是如何為GMM-UBM技術執(zhí)行MAP調整的?
  7. 談談你所用的I-vector技術 。
  8. 在分析語境時,主要因素是什么?
  9. JFA和I-vector的區(qū)別是什么?為什么選擇I-vector而不是JFA?
  10. 你有沒有用過PLDA I-vector技術嗎?
  11. 有沒有讀過百度的Deep Speaker論文?
  12. 如果有兩個模型可供你選擇,你選擇的依據(jù)是什么?(考察模型選擇的技術)
  13. 簡述下貝葉斯信息度量(BIC)和赤池信息量(AIC)的數(shù)學工作原理。
  14. 貝葉斯信息度量和赤池信息量的工作原理是什么?
  15. 如果MFCC特征向量矩陣中的數(shù)據(jù)發(fā)生丟失,應該怎么辦?
  16. 如何進行語音辨識?有什么特點?
  17. 你的分類器是語音和音樂的分類器,還是語音和非語音的分類器?
  18. 深度神經(jīng)網(wǎng)絡是如何應用在語音分析中的?


體驗?:是的,你可能會驚訝這都是些什么問題。巧合的是,我們兩個人的研究領域都是語音分析(尤其是發(fā)音識別)。所以整個面試過程一直在圍繞語音分析進行提問。很顯然,面試官很專業(yè),并且給了我一個正面反饋。之后,這家公司給我提供了AI解決方案架構師的工作。

一些建議

在這整個求職過程中,我大概和25-30位專業(yè)人士有過交流,下面是我為讀者以及求職者提出的建議:

簡歷很重要。一定要在簡歷中寫清楚你參加過的項目、Kaggle競賽、獲得的MOOC課程證書或者論文。我就是在沒有任何推薦人推薦的情況下接到了亞馬遜的面試電話。你的簡歷是打動HR和面試官的利器。

自信心和熱情是成功的一半。參加面試時一定要自信,并且向面試官展示出你的熱情(這一點在面試創(chuàng)業(yè)公司和基于服務的公司時尤為重要)。

不要過于急著回答面試官提出的問題?;ㄐr間組織好答案再回答,如果對問題有不理解的地方,一定要請教面試官。還有就是在面試時一定要冷靜!

在解釋概念時一定要恰當?shù)谋憩F(xiàn)自己。舉幾個你已經(jīng)實現(xiàn)過的項目,并且一定要熟悉簡歷中提到的熟練技能和做過的項目。

大多數(shù)情況下,面試官都是在尋找這個領域內有經(jīng)驗的技術人才。如果你在這個領域還是一個新手,在創(chuàng)建簡歷時可以從自己做過的項目開始。你的GitHub賬號也很有說服力。除此之外,還可以多參加Kaggle競賽和MOOC課程。

面對面試官的時候,一定要謙虛,注意傾聽面試官的意見,否則你就會被拒之門外。有的時候,使用R語言和Python語言的人會相互鄙視,你最好不要陷入這種爭論當中,否則也容易被拒。我個人認為R語言和Python語言都是實現(xiàn)邏輯和概念的工具。

最后,祝大家面試成功!

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師考試動態(tài)
數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調用 initGeetest 進行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調,回調的第一個參數(shù)驗證碼對象,之后可以使用它調用相應的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }