6色成人网,97久久国产亚洲精品超碰热,久久精品国产99精品最新

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

數(shù)據(jù)分析師—技術(shù)面試

2018-03-29

數(shù)據(jù)分析師—技術(shù)面試

三月份開始找實(shí)習(xí)，到現(xiàn)在已經(jīng)有半年的時(shí)間了，在這半年的時(shí)間中，該經(jīng)歷的基本上都已經(jīng)經(jīng)歷，春招實(shí)習(xí)時(shí)候，拿到了7個(gè)offer，校招時(shí)候，成功的拿下一份心儀的工作，結(jié)束了我的秋招旅程。對于面試，技術(shù)層面即算法、軟件等等，業(yè)務(wù)層面就是忽悠（畢竟沒有做過完整的項(xiàng)目），但是也要有自己的邏輯和思考方式（這方面我也有很大的欠缺），下面將自己的面試經(jīng)歷梳理為技術(shù)層面和業(yè)務(wù)層面，來分享給大家。

技術(shù)面試

一、軟件

1. R語言的文件讀?。篶sv文件的讀取方式（read.csv），txt文件的讀取方式（read.table）

2. R語言中一些小函數(shù)的作用

①apply函數(shù)：1代表調(diào)用每一行的函數(shù)，0代表調(diào)用每一列的函數(shù)（注意其用法和Python的區(qū)別）

②runif函數(shù)：生成均勻分布的隨機(jī)數(shù)

③sample（，return = TRUE）：隨機(jī)有放回的抽樣

3. Python中l(wèi)ist列表和元組的最大區(qū)別：元組的值不可以改變，但是列表的值是可以改變的。

4.數(shù)據(jù)庫中表的連接方式

①內(nèi)部連接：inner join

②外部連接：outer join

③左連接：left join

注：對于數(shù)據(jù)分析，建議大家無論是R，Python，sql都有自己一套流程化的體系，這一體系可以很好的幫助你解決實(shí)際中的問題。

二、算法

對于算法（分類，聚類，關(guān)聯(lián)等），更是建議大家有一套流程化的體系，在面試算法的時(shí)候，是一個(gè)依次遞進(jìn)的過程，不要給自己挖坑，相反，更要將自己的優(yōu)勢發(fā)揮的淋漓盡致，把自己會的東西全部釋放出來。

下面我將自己的所有面試串聯(lián)起來，給大家分享一下，僅供參考。

面試官：小張同學(xué)，你好，看了你的簡歷，對相關(guān)算法還是略懂一些，下面開始我們的面試，有這么一個(gè)場景，在一個(gè)樣本集中，其中有100個(gè)樣本屬于A，9900個(gè)樣本屬于B，我想用決策樹算法來實(shí)現(xiàn)對AB樣本進(jìn)行區(qū)分，這時(shí)會遇到什么問題：

小張：欠擬合現(xiàn)象，因?yàn)樵谶@個(gè)樣本集中，AB樣本屬于嚴(yán)重失衡狀態(tài)，在建立決策樹算法的過程中，模型會更多的偏倚到B樣本的性質(zhì)，對A樣本的性質(zhì)訓(xùn)練較差，不能很好的反映樣本集的特征。

面試官：看你決策樹應(yīng)該掌握的不錯(cuò)，你說一下自己對于決策樹算法的理解？

小張：決策樹算法，無論是哪種，其目的都是為了讓模型的不確定性降低的越快越好，基于其評價(jià)指標(biāo)的不同，主要是ID3算法，C4.5算法和CART算法，其中ID3算法的評價(jià)指標(biāo)是信息增益，C4.5算法的評價(jià)指標(biāo)是信息增益率，CART算法的評價(jià)指標(biāo)是基尼系數(shù)。

面試官：信息增益，好的，這里面有一個(gè)信息論的概念，你應(yīng)該知道的吧，敘述一下

小張：香農(nóng)熵，隨機(jī)變量不確定性的度量。利用ID3算法，每一次對決策樹進(jìn)行分叉選取屬性的時(shí)候，我們會選取信息增益最高的屬性來作為分裂屬性，只有這樣，決策樹的不純度才會降低的越快。

面試官：OK，你也知道，在決策樹無限分叉的過程中，會出現(xiàn)一種現(xiàn)象，叫過擬合，和上面說過的欠擬合是不一樣的，你說一下過擬合出現(xiàn)的原因以及我們用什么方法來防止過擬合的產(chǎn)生？

小張：對訓(xùn)練數(shù)據(jù)預(yù)測效果很好，但是測試數(shù)據(jù)預(yù)測效果較差，則稱出現(xiàn)了過擬合現(xiàn)象。對于過擬合現(xiàn)象產(chǎn)生的原因，有以下幾個(gè)方面，第一：在決策樹構(gòu)建的過程中，對決策樹的生長沒有進(jìn)行合理的限制（剪枝）；第二：在建模過程中使用了較多的輸出變量，變量較多也容易產(chǎn)生過擬合；第三：樣本中有一些噪聲數(shù)據(jù)，噪聲數(shù)據(jù)對決策樹的構(gòu)建的干擾很多，沒有對噪聲數(shù)據(jù)進(jìn)行有效的剔除。對于過擬合現(xiàn)象的預(yù)防措施，有以下一些方法，第一：選擇合理的參數(shù)進(jìn)行剪枝，可以分為預(yù)剪枝后剪枝，我們一般用后剪枝的方法來做；第二：K-folds交叉驗(yàn)證，將訓(xùn)練集分為K份，然后進(jìn)行K次的交叉驗(yàn)證，每次使用K-1份作為訓(xùn)練樣本數(shù)據(jù)集，另外的一份作為測試集合；第三：減少特征，計(jì)算每一個(gè)特征和響應(yīng)變量的相關(guān)性，常見的為皮爾遜相關(guān)系數(shù)，將相關(guān)性較小的變量剔除，當(dāng)然還有一些其他的方法來進(jìn)行特征篩選，比如基于決策樹的特征篩選，通過正則化的方式來進(jìn)行特征選取等。

面試官：你剛剛前面有提到預(yù)剪枝和后剪枝，當(dāng)然預(yù)剪枝就是在決策樹生成初期就已經(jīng)設(shè)置了決策樹的參數(shù)，后剪枝是在決策樹完全建立之后再返回去對決策樹進(jìn)行剪枝，你能否說一下剪枝過程中可以參考的某些參數(shù)？

小張：剪枝分為預(yù)剪枝和后剪枝，參數(shù)有很多，在R和Python中都有專門的參數(shù)來進(jìn)行設(shè)置，下面我以Python中的參數(shù)來進(jìn)行敘述，max_depth（樹的高度），min_samples_split（葉子結(jié)點(diǎn)的數(shù)目），max_leaf_nodes（最大葉子節(jié)點(diǎn)數(shù)），min_impurity_split（限制不純度），當(dāng)然R語言里面的rpart包也可以很好的處理這個(gè)問題。

面試官：對了，你剛剛還說到了用決策樹來進(jìn)行特征的篩選，現(xiàn)在我們就以ID3算法為例，來說一下決策樹算法對特征的篩選？

小張：對于離散變量，計(jì)算每一個(gè)變量的信息增益，選擇信息增益最大的屬性來作為結(jié)點(diǎn)的分裂屬性；對于連續(xù)變量，首先將變量的值進(jìn)行升序排列，每對相鄰值的中點(diǎn)作為可能的分離點(diǎn)，對于每一個(gè)劃分，選擇具有最小期望信息要求的點(diǎn)作為分裂點(diǎn)，來進(jìn)行后續(xù)的決策數(shù)的分裂。

面試官：你剛剛還說到了正則化，確實(shí)可以對過擬合現(xiàn)象來進(jìn)行很好的調(diào)整，基于你自己的理解，來說一下正則化？

小張：這一塊的知識掌握的不是很好，我簡單說一下自己對這一塊的了解。以二維情況為例，在L1正則化中，懲罰項(xiàng)是絕對值之和，因此在坐標(biāo)軸上會出現(xiàn)一個(gè)矩形，但是L2正則化的懲罰項(xiàng)是圓形，因此在L1正則化中增大了系數(shù)為0的機(jī)會，這樣具有稀疏解的特性，在L2正則化中，由于系數(shù)為0的機(jī)率大大減小，因此不具有稀疏解的特性。但是L1沒有選到的特性不代表不重要，因此L1和L2正則化要結(jié)合起來使用。

面試官：還可以吧！正則化就是在目標(biāo)函數(shù)后面加上了懲罰項(xiàng)，你也可以將后面的懲罰項(xiàng)理解為范數(shù)。分類算法有很多，邏輯回歸算法也是我們經(jīng)常用到的算法，剛剛主要討論的是決策樹算法，現(xiàn)在我們簡單聊一下不同分類算法之間的區(qū)別吧！討論一下決策樹算法和邏輯回歸算法之間的區(qū)別？

小張：分為以下幾個(gè)方面：第一，邏輯回歸著眼于對整體數(shù)據(jù)的擬合，在整體結(jié)構(gòu)上優(yōu)于決策樹；但是決策樹采用分割的方法，深入到數(shù)據(jù)內(nèi)部，對局部結(jié)構(gòu)的分析是優(yōu)于邏輯回歸；第二，邏輯回歸對線性問題把握較好，因此我們在建立分類算法的時(shí)候也是優(yōu)先選擇邏輯回歸算法，決策樹對非線性問題的把握較好；第三，從本質(zhì)來考慮，決策樹算法假設(shè)每一次決策邊界都是和特征相互平行或垂直的，因此會將特征空間劃分為矩形，因而決策樹會產(chǎn)生復(fù)雜的方程式，這樣會造成過擬合現(xiàn)象；邏輯回歸只是一條平滑的邊界曲線，不容易出現(xiàn)過擬合現(xiàn)象。

面試官：下面呢我們來聊一下模型的評估，算法進(jìn)行模型評估的過程中，常用的一些指標(biāo)都有哪些，精度??？召回率??？ROC曲線??？這些指標(biāo)的具體含義是什么？

小張：精度（precision），精確性的度量，表示標(biāo)記為正例的元組占實(shí)際為正例的比例；召回率（recall），完全性的度量，表示為實(shí)際為正例的元組被正確標(biāo)記的比例；ROC 曲線的橫坐標(biāo)為假陽性，縱坐標(biāo)為真陽性，值越大，表示分類效果越好。

（to be honest，這個(gè)問題第一次我跪了，雖然說是記憶一下肯定沒問題，但是當(dāng)時(shí)面試的那個(gè)時(shí)候大腦是一片空白）

面試官：聚類分析你懂得的吧！在我們一些分析中，它也是我們經(jīng)常用到的一類算法，下面你介紹一下K-means算法吧！

小張：對于K-means算法，可以分為以下幾個(gè)步驟：第一，從數(shù)據(jù)點(diǎn)中隨機(jī)抽取K個(gè)數(shù)據(jù)點(diǎn)作為初始的聚類中心；第二：計(jì)算每個(gè)點(diǎn)到這K個(gè)中心點(diǎn)的距離，并把每個(gè)點(diǎn)分到距離其最近的中心中去；第三：求取各個(gè)類的均值，將這些均值作為新的類中心；第四：重復(fù)進(jìn)行步驟二三過程，直至算法結(jié)束，算法結(jié)束有兩種，一種是迭代的次數(shù)達(dá)到要求，一種是達(dá)到了某種精度。

后記

面試的水很深，在數(shù)據(jù)分析技術(shù)面的時(shí)候問到的東西當(dāng)然遠(yuǎn)遠(yuǎn)不止這些，因此在我們的腦子里面一定要形成一個(gè)完整的體系，無論是對某一門編程語言，還是對數(shù)據(jù)挖掘算法，在工作中都需要形成你的閉環(huán)，在面試中更是需要你形成閉環(huán)，如何更完美的包裝自己，自己好好總結(jié)吧！

附錄

R語言數(shù)據(jù)處理體系：數(shù)據(jù)簡單預(yù)處理個(gè)人總結(jié)

1、數(shù)據(jù)簡單查看

⑴查看數(shù)據(jù)的維度：dim

⑵查看數(shù)據(jù)的屬性：colnames

⑶查看數(shù)據(jù)類型：str

注：有一些算法，比如說組合算法，要求分類變量為因子型變量；層次聚類，要求是一個(gè)距離矩陣，可以通過str函數(shù)進(jìn)行查看

⑷查看前幾行數(shù)據(jù)：head

注：可以初步觀察數(shù)據(jù)是不是有量綱的差異，會后續(xù)的分析做準(zhǔn)備

⑸查看因子型變量的占比情況：table/prop.table

注：可以為后續(xù)數(shù)據(jù)抽樣做準(zhǔn)備，看是否產(chǎn)生類不平衡的問題

2、數(shù)據(jù)缺失值處理

⑴summary函數(shù)進(jìn)行簡單的查看

⑵利用mice和VIM包查看數(shù)據(jù)缺失值情況，代表性函數(shù)： md.pattern、aggr

⑶caret包中的preProcess函數(shù)，可以進(jìn)行缺失值的插補(bǔ)工作，有knn、袋裝、中位數(shù)方法

⑷missForest包中的missForest函數(shù)，可以用隨機(jī)森林的方法進(jìn)行插補(bǔ)

⑸可以用回歸分析的方法完成缺失值插補(bǔ)工作

⑹如果樣本量很多，缺失的數(shù)據(jù)很少，可以選擇直接剔除的方法

3、數(shù)據(jù)異常值處理

⑴summary函數(shù)進(jìn)行簡單的查看，比如：最大值、最小值等

⑵boxplot函數(shù)繪制箱線圖

4、數(shù)據(jù)抽樣

⑴sample函數(shù)進(jìn)行隨機(jī)抽樣

⑵caret包中的createDataPartition()函數(shù)對訓(xùn)練樣本和測試樣本進(jìn)行等比例抽樣

⑶caret包中的createFold函數(shù)根據(jù)某一個(gè)指標(biāo)進(jìn)行等比例抽樣

⑷DMwR包中SMOTE函數(shù)可以解決處理不平衡分類問題

注：比如決策樹算法中，如果樣本嚴(yán)重不平衡，那么模型會出現(xiàn)欠擬合現(xiàn)象

5、變量的多重共線性處理

⑴結(jié)合業(yè)務(wù)，先刪除那些和分析無關(guān)的指標(biāo)

⑵corrgram包的corrgram函數(shù)查看相關(guān)系數(shù)矩陣

⑶caret包中的findCorrelation函數(shù)查看多重共線性

⑷如果相關(guān)性太大，可以考慮刪除變量；如果變量比較重要，可以考慮主成分/因子分析進(jìn)行降維處理

CDA數(shù)據(jù)分析師考試相關(guān)入口一覽（建議收藏）：

? 想報(bào)名CDA認(rèn)證考試，點(diǎn)擊>>> “CDA報(bào)名” 了解CDA考試詳情；

? 想學(xué)習(xí)CDA考試教材，點(diǎn)擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點(diǎn)擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點(diǎn)擊>>> “CDA含金量” 了解CDA考試詳情；

決策樹特征過擬合邏輯回歸 R語言 D3 欠擬合數(shù)據(jù)分析

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇一文讀懂火熱的區(qū)塊鏈江湖，中美兩國有哪些同與不同

下一篇學(xué)會數(shù)據(jù)分析，跟加班“Say goodbye”（附贈書五本）

CDA報(bào)考指南

報(bào)考流程
考試時(shí)間
報(bào)名費(fèi)用
聯(lián)系我們

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

京公網(wǎng)安備 11010802034615號經(jīng)營許可證編號：京B2-20210330

聯(lián)系電話：13321103290 (微信同號)

免密碼登錄

提交首次登錄驗(yàn)證后自動注冊

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

數(shù)據(jù)分析師—技術(shù)面試

數(shù)據(jù)分析師考試動態(tài)

CDA報(bào)考指南

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

【CDA干貨】SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換 ...

【CDA干貨】MySQL 大表拆分與關(guān)聯(lián)查詢效率：打破 “ ...

CDA 數(shù)據(jù)分析師：表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預(yù)期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 ...

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗(yàn)與 t 檢驗(yàn)：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解 ...

【CDA干貨】解析 Python 中 Response 對象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 ...

【CDA干貨】Python HTTP 請求工具對比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點(diǎn)數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu) ...

【CDA干貨】用 SQL 驗(yàn)證業(yè)務(wù)邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據(jù)驅(qū)動下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實(shí)踐到業(yè)務(wù) ...

【CDA干貨】統(tǒng)計(jì)模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

數(shù)據(jù)分析師—技術(shù)面試

數(shù)據(jù)分析師考試動態(tài)

CDA報(bào)考指南

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

【CDA干貨】SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換 ...

【CDA干貨】MySQL 大表拆分與關(guān)聯(lián)查詢效率：打破 “ ...

CDA 數(shù)據(jù)分析師：表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預(yù)期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 ...

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗(yàn)與 t 檢驗(yàn)：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解 ...

【CDA干貨】解析 Python 中 Response 對象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 ...

【CDA干貨】Python HTTP 請求工具對比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點(diǎn)數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu) ...

【CDA干貨】用 SQL 驗(yàn)證業(yè)務(wù)邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據(jù)驅(qū)動下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實(shí)踐到業(yè)務(wù) ...

【CDA干貨】統(tǒng)計(jì)模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

【CDA干貨】深入解析卡方檢驗(yàn)與 t 檢驗(yàn)：差異、適用 ...