亚洲人成网77777色在线播放,蜜桃av久久久一区二区三区麻豆,99久久99久久免费精品小说

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

面試了8家公司，他們問了我這些機器學(xué)習(xí)題目......

2018-05-04

面試了8家公司，他們問了我這些機器學(xué)習(xí)題目......

今年年初以來，作者一直在印度找數(shù)據(jù)科學(xué)、機器學(xué)習(xí)以及深度學(xué)習(xí)領(lǐng)域的工作。在找工作的這三十四天里，他面試了8到10家公司，其中也包括初創(chuàng)公司、基于服務(wù)的公司以及基于產(chǎn)品的公司。作者希望他的面試經(jīng)驗?zāi)軌驗榍舐氄咛峁┮恍┯杏玫男畔?，因而撰寫了此文。希望你讀后能夠有所收獲！

首先自我介紹一下：

我在機器學(xué)習(xí)（語音分析、文本分析和圖像分析領(lǐng)域應(yīng)用）領(lǐng)域有4年以上的從業(yè)經(jīng)驗?？偟膩碚f，我認為這個領(lǐng)域的大多數(shù)工作職位主要包括文本分析（自然語言處理）和圖像分析（計算機視覺）。很少有公司招聘語音或音頻分析的人才。我現(xiàn)在的目標是應(yīng)聘一個中高級職位，可以帶領(lǐng)一個深度學(xué)習(xí)或機器學(xué)習(xí)團隊做一些有趣的項目。

下面是我在應(yīng)聘過程中被問到的問題，希望能夠?qū)δ阌兴鶐椭?

▌公司一：基于全球性服務(wù)的某公司（面試時長：20-25min）

你在簡歷中提到曾經(jīng)構(gòu)建過一個文檔挖掘系統(tǒng)，你都做了哪些工作？能否在主題建模（topic modeling）中使用LDA技術(shù)實現(xiàn)文檔聚類？
假設(shè)你有數(shù)百兆字節(jié)的數(shù)據(jù)文件，這其中包括PDF文件、文本文件、圖像、掃描的PDF文件等等，請你給出一個分類方案。
你如何閱讀掃描版pdf文件或圖像格式的書面文件的內(nèi)容？
樸素貝葉斯為什么被稱為“樸素”？
請詳細介紹一下樸素貝葉斯分類器。
什么是深度學(xué)習(xí)？深度學(xué)習(xí)和機器學(xué)習(xí)的區(qū)別是什么？

體驗?：除此之外面試官還問了一些問題，但是都把我問懵了，我完全不知道他想聽到什么答案。我一直都想深入的聊一些技術(shù)層面的問題，比如訓(xùn)練一個 tesseract（一款由HP實驗室開發(fā)由Google維護的開源OCR引擎）或語言模型，但是他似乎并不感興趣?；蛟S他只是想聽到一些已經(jīng)實現(xiàn)的成果或者是一個好的解釋，又或者是一些更好的方案。我感覺他們面試一個新手和面試一個有經(jīng)驗的專業(yè)人員之間并沒有什么區(qū)別。

▌公司二：基于全球性服務(wù)的某公司（面試時長：40-45min）

在無監(jiān)督學(xué)習(xí)中，如何進行文件聚類？
如何找到與某些查詢語句/搜索相關(guān)的文件？
解釋下TF-IDF技術(shù)。
根據(jù)我的經(jīng)驗來看，TF-IDF技術(shù)在文件分類或聚類上效果并不好，你將如何改進？
什么是長短期記憶神經(jīng)網(wǎng)絡(luò)（LSTM）?解釋下其工作原理。
什么是word2vec模型？
解釋下python中的可變對象和不可變對象。
你在python中使用過什么數(shù)據(jù)結(jié)構(gòu)？

體驗?：整個面試過程都是圍繞著文本相似度提問的，我都順利通過了。但是這次仍舊沒有更深層次的技術(shù)探討?；蛟S是公司在文本分析領(lǐng)域有幾個小項目，最終我拿到了公司的offer。

▌公司三：基于全球性產(chǎn)品和服務(wù)的某公司（面試時長：40min）

如何使用不平衡數(shù)據(jù)集（ unbalanced dataset）處理多類別的分類問題？
你如何從一個文本語句中進行語言識別？
如何表示中文或日文中的象形字符？
如何設(shè)計一個聊天機器人？(我沒什么想法，但我嘗試用基于TF-IDF相似性的意圖和反饋來回答這個問題。 )
能否使用循環(huán)神經(jīng)網(wǎng)絡(luò)設(shè)計一個聊天機器人來對輸入的問題進行意圖和回答響應(yīng)。
假設(shè)你在Reddit數(shù)據(jù)集上使用循環(huán)神經(jīng)網(wǎng)絡(luò)或長短時記憶神經(jīng)網(wǎng)絡(luò)設(shè)計了一個聊天機器人，它能夠提供10種可能的回復(fù)，如何選擇最佳回復(fù)，或者說如何刪除其他的回復(fù)？
解釋一下支持向量機（SVM）如何學(xué)習(xí)非線性邊界。

體驗?：還有幾個問題我已經(jīng)記不清了，這是我第一次在面試中深入談?wù)摷夹g(shù)細節(jié)，隨后我也拿到了這家公司的offer。

▌公司四：成立一年的醫(yī)療初創(chuàng)公司（面試時長：50min）

什么是精確率（precision）和召回率（recall）？在醫(yī)療診斷中，你認為哪個更重要？
解釋一下精確率和召回率。
如何繪制受試者工作特征曲線（ROC曲線）？ROC曲線下面積是什么意思？
如何為多類別分類任務(wù)繪制ROC曲線？
列舉多類別分類任務(wù)其他的度量標準。
什么是靈敏度（sensitivity）和特異度（specificity）？
隨機森林中的“隨機”指什么？
如何進行文本分類？
如何確定已經(jīng)學(xué)會了一個文本？沒有TF-IDF技術(shù)是不是不可能實現(xiàn)？（我回答說使用n-gram模型（n＝1，2，3，4），并使用TF-IDF技術(shù)創(chuàng)建一個長的計數(shù)向量）
你還能利用機器學(xué)習(xí)做些什么？（我建議將長短期記憶神經(jīng)網(wǎng)絡(luò)和word2vec結(jié)合起來，或者是一維循環(huán)神經(jīng)網(wǎng)絡(luò)與word2vec結(jié)合起來，進行分類。但面試官希望改進基于機器學(xué)習(xí)的算法。）
當神經(jīng)網(wǎng)絡(luò)由線性節(jié)點構(gòu)成時，神經(jīng)網(wǎng)絡(luò)如何學(xué)習(xí)非線性形狀？它學(xué)習(xí)非線性邊界的原因是什么？

體驗?：還有幾個很好的問題我沒有記住。盡管整個面試過程很不錯，但是我們在一些問題上看法并不一致。并且在面試期間，我發(fā)現(xiàn)作為一個初創(chuàng)公司，目前只有2-3個人在做ML、DL和DS。最后我沒有面試成功。

▌公司五：亞馬遜公司（面試時長：50-55min）

訓(xùn)練決策樹時，其參數(shù)是什么？
在決策樹的某個節(jié)點處進行分割，其分割標準是什么？
基尼系數(shù)的計算公式是什么？
熵的計算公式是什么？
決策樹如何決定在哪個特征處必須進行分割？
如何利用數(shù)學(xué)計算收集來的信息？
簡述隨機森林的優(yōu)點。
簡述boosting算法。
梯度提升算法（gradient boosting）是怎樣工作的？
簡述AdaBoost算法工作原理。
SVM中用到了哪些內(nèi)核？SVM的優(yōu)化技術(shù)有哪些？
SVM如何學(xué)習(xí)超平面？論述下其數(shù)學(xué)運算細節(jié)。
談一談無監(jiān)督學(xué)習(xí)？都有哪些算法？
如何定義K-Means聚類算法中K的值？
列舉至少3中定義K-Means聚類算法中K的方法。
除此之外你還知道哪些聚類算法？
介紹一下DB-SCAM算法。
簡述下分層凝聚聚類（Hierarchical Agglomerativeclustering）的工作原理。
解釋一下主成分分析算法（PCA），簡述下使用PCA算法的數(shù)學(xué)步驟。
20.使用 PCA算法有哪些缺點？
談?wù)劸矸e神經(jīng)網(wǎng)絡(luò)的工作原理？詳細說明其實現(xiàn)細節(jié)。
解釋一下卷積神經(jīng)網(wǎng)絡(luò)中的反向傳播。
你如何部署機器學(xué)習(xí)模型？
我們大部分情況下都要用C++從零開始搭建一個機器學(xué)習(xí)模型，這一點你能做到嗎？

體驗?：我面試的是亞馬遜level 6的職位。他們的主要關(guān)注點是在算法和數(shù)學(xué)上。但是我并沒有準備數(shù)學(xué)方面的知識，我只是談?wù)摿宋宜私獾臇|西，并沒有在數(shù)學(xué)的細節(jié)上做更為詳細的探討，因此面試官認為我并不適合level 6的工作。我相信如果你能記住機器學(xué)習(xí)算法在數(shù)學(xué)上的通用表示，就可以很輕松的通過亞馬遜技術(shù)面試。

▌公司六：某全球服務(wù)巨頭（面試時長：50-55min）

Sigmoid 函數(shù)的范圍是什么？
說出scikit-learn能夠?qū)崿F(xiàn)邏輯回歸的包的名稱。
標準正態(tài)分布的均值和方差分別是多少？
你在Python中都使用什么數(shù)據(jù)結(jié)構(gòu)？
文本分類的方法有哪些？你會怎么做分類？
解釋TF-IDF技術(shù)及其缺點，如何克服TF-IDF的缺點？
什么是雙詞搭配(Bigrams)和三詞搭配(Trigrams）？用一個文本語句解釋一下雙詞搭配和三詞搭配的TF-IDF技術(shù)。
舉例說明word2vec有哪些應(yīng)用。
如何設(shè)計一個神經(jīng)網(wǎng)絡(luò)？如何做到“深度”？這是一個基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)問題。
簡述LSTM的工作原理。它是如何記住文本的？
什么是樸素貝葉斯分類器？
拋10次硬幣，4次是正面的概率是多少？
如何獲取Python列表中元素的索引？
如果合并兩個pandas數(shù)據(jù)集？
從用戶行為來看，你需要模擬一個欺詐活動，你會如何解決這個問題？這是可能是一個異常檢測問題或分類問題！
決策樹和隨機森林，你更喜歡哪一個？
邏輯回歸和隨機森林有什么區(qū)別？
你會用決策樹還是隨機森林來解決分類問題？隨機森林有什么優(yōu)點？

體驗?：我也拿到了這家公司的offer。事實上，我很喜歡這次技術(shù)交流?；蛟S你會覺著這些問題是機器學(xué)習(xí)和數(shù)據(jù)科學(xué)領(lǐng)域最基礎(chǔ)的問題，但是我感覺面試官可能不是這一領(lǐng)域的，或者是對這個領(lǐng)域的發(fā)展了解的并不多。