99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀2017校招數(shù)據(jù)分析崗筆試/面試知識(shí)點(diǎn)
2017校招數(shù)據(jù)分析崗筆試/面試知識(shí)點(diǎn)
2016-09-26
收藏
2017校招正在火熱的進(jìn)行,后面會(huì)不斷更新涉及到的相關(guān)知識(shí)點(diǎn)。

盡管聽說今年幾個(gè)大互聯(lián)網(wǎng)公司招的人超少,但好像哪一年都說是就業(yè)困難,能夠進(jìn)去當(dāng)然最好,不能進(jìn)去是不是應(yīng)該也抱著好的期望去找自己滿意的呢?

最近筆試了很多家公司校招的數(shù)據(jù)分析數(shù)據(jù)挖掘崗位,今天(9.18r)晚上做完唯品會(huì)的筆試題,才忽然意識(shí)過來,不管題目簡單也好、難也好,都要去切切實(shí)實(shí)的去掌握。畢竟不能永遠(yuǎn)眼高手低,否則最后吃虧的一定是自己。
知識(shí)點(diǎn)1:貝葉斯公式
貝葉斯公式:P(B|A)=P(A|B)*P(B)/P(A)

其中P(A)可以展開為

P(A)=P(A|B1)P(B1)+P(A|B2)P(B2)+...+P(A|Bn)*P(Bn)

(這在很多問答題或者選擇題中都有用到)

知識(shí)點(diǎn)2:關(guān)聯(lián)規(guī)則分析
主要考的是支持度和置信度。


知識(shí)點(diǎn)3:聚類
聚類之間類的度量是分距離和相似系數(shù)來度量的,距離用來度量樣品之間的相似性(K-means聚類,系統(tǒng)聚類中的Q型聚類),相似系數(shù)用來度量變量之間的相似性(系統(tǒng)聚類中的R型聚類)。

最常用的是K-means聚類,適用于大樣本,但需要事先指定分為K個(gè)類。

處理步驟:

1)、從n個(gè)數(shù)據(jù)對象中任意選出k個(gè)對象作為初始的聚類中心

2)、計(jì)算剩余的各個(gè)對象到聚類中心的距離,將它劃分給最近的簇

3)、重新計(jì)算每一簇的平均值(中心對象)

4)、循環(huán)2-3直到每個(gè)聚類不再發(fā)生變化為止。

系統(tǒng)聚類適用于小樣本。

知識(shí)點(diǎn)4:分類
有監(jiān)督就是給的樣本都有標(biāo)簽,分類的訓(xùn)練樣本必須有標(biāo)簽,所以分類算法都是有監(jiān)督算法。

監(jiān)督機(jī)器學(xué)習(xí)問題無非就是“minimizeyour error while regularizing your parameters”,也就是在規(guī)則化參數(shù)的同時(shí)最小化誤差。最小化誤差是為了讓我們的模型擬合我們的訓(xùn)練數(shù)據(jù),而規(guī)則化參數(shù)是防止我們的模型過分?jǐn)M合我們的訓(xùn)練數(shù)據(jù),提高泛化能力。

1.樸素貝葉斯

1)基礎(chǔ)思想:

對于給出的待分類項(xiàng),求解在此項(xiàng)出現(xiàn)的條件下各個(gè)類別出現(xiàn)的概率,哪個(gè)最大,就認(rèn)為此分類項(xiàng)屬于哪個(gè)類別。

2)優(yōu)點(diǎn):

可以和決策樹神經(jīng)網(wǎng)絡(luò)分類算法相媲美,能運(yùn)用于大型數(shù)據(jù)庫中。

方法簡單,分類準(zhǔn)確率高,速度快,所需估計(jì)的參數(shù)少,對于缺失數(shù)據(jù)不敏感。

3)缺點(diǎn):

假設(shè)一個(gè)屬性對定類的影響?yīng)毩⒂谄渌膶傩灾?,這往往并不成立。(喜歡吃番茄、雞蛋,卻不喜歡吃番茄炒蛋)。

需要知道先驗(yàn)概率。

2.決策樹

1)基礎(chǔ)思想:

決策樹是一種簡單但廣泛使用的分類器,它通過訓(xùn)練數(shù)據(jù)構(gòu)建決策樹,對未知的數(shù)據(jù)進(jìn)行分類。決策樹的每個(gè)內(nèi)部節(jié)點(diǎn)表示在一個(gè)屬性上的測試,每個(gè)分枝代表該測試的一個(gè)輸出,而每個(gè)葉結(jié)點(diǎn)存放著一個(gè)類標(biāo)號(hào)。

決策樹算法中,ID3基于信息增益作為屬性選擇的度量,C4.5基于信息增益比作為屬性選擇的度量,CART基于基尼指數(shù)作為屬性選擇的度量。

2)優(yōu)點(diǎn) :

不需要任何領(lǐng)域知識(shí)或參數(shù)假設(shè)。

適合高維數(shù)據(jù)。

簡單易于理解。

短時(shí)間內(nèi)處理大量數(shù)據(jù),得到可行且效果較好的結(jié)果。

3)缺點(diǎn):

對于各類別樣本數(shù)量不一致數(shù)據(jù),信息增益偏向于那些具有更多數(shù)值的特征。

易于過擬合。

忽略屬性之間的相關(guān)性。

3.支持向量機(jī)

1)基礎(chǔ)思想:

支持向量機(jī)把分類問題轉(zhuǎn)化為尋找分類平面的問題,并通過最大化分類邊界點(diǎn)距離分類平面的距離來實(shí)現(xiàn)分類。

2)優(yōu)點(diǎn) :

可以解決小樣本下機(jī)器學(xué)習(xí)的問題。

提高泛化性能。

可以解決文本分類、文字識(shí)別、圖像分類等方面仍受歡迎。

避免神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇和局部極小的問題。

3)缺點(diǎn):

缺失數(shù)據(jù)敏感。

內(nèi)存消耗大,難以解釋。

4.K近鄰

1)基礎(chǔ)思想:

通過計(jì)算每個(gè)訓(xùn)練樣例到待分類樣品的距離,取和待分類樣品距離最近的K個(gè)訓(xùn)練樣例,K個(gè)樣品中哪個(gè)類別的訓(xùn)練樣例占多數(shù),則待分類樣品就屬于哪個(gè)類別。

2)優(yōu)點(diǎn) :

適用于樣本容量比較大的分類問題

3)缺點(diǎn):

計(jì)算量太大

對于樣本量較小的分類問題,會(huì)產(chǎn)生誤分。

5.邏輯回歸(LR)

1)基礎(chǔ)思想:

回歸模型中,y是一個(gè)定型變量,比如y=0或1,logistic方法主要應(yīng)用于研究某些事件發(fā)生的概率。

2)優(yōu)點(diǎn) :

速度快,適合二分類問題。

簡單易于理解,直接看到各個(gè)特征的權(quán)重。

能容易地更新模型吸收新的數(shù)據(jù)。

3)缺點(diǎn):

對數(shù)據(jù)和場景的適應(yīng)能力有局限,不如決策樹算法適應(yīng)性那么強(qiáng)

知識(shí)點(diǎn)5:分類的評判指標(biāo)
準(zhǔn)確率和召回率廣泛用于信息檢索和統(tǒng)計(jì)分類領(lǐng)域

1)準(zhǔn)確率(precision rate):提取出的正確信息條數(shù)/提取出的信息條數(shù)

2)召回率(recall rate):提取出的正確信息條數(shù)/樣本中的信息條數(shù)



ROC和AUC是評價(jià)分類器的指標(biāo)

3)ROC曲線:
ROC關(guān)注兩個(gè)指標(biāo)

True Positive Rate ( TPR,真正率 ) = TP / [ TP + FN] ,TPR代表預(yù)測為正實(shí)際也為正占總正實(shí)例的比例

False Positive Rate( FPR,假正率 ) = FP / [ FP + TN] ,F(xiàn)PR代表預(yù)測為正但實(shí)際為負(fù)占總負(fù)實(shí)例的比例

在ROC 空間中,每個(gè)點(diǎn)的橫坐標(biāo)是FPR,縱坐標(biāo)是TPR

4)AUC:AUC(Area Under Curve)
被定義為ROC曲線下的面積,顯然這個(gè)面積的數(shù)值不會(huì)大于1。又由于ROC曲線一般都處于y=x這條直線的上方,所以AUC的取值范圍在0.5和1之間。使用AUC值作為評價(jià)標(biāo)準(zhǔn)是因?yàn)楹芏鄷r(shí)候ROC曲線并不能清晰的說明哪個(gè)分類器的效果更好,而AUC作為數(shù)值可以直觀的評價(jià)分類器的好壞,值越大越好。

5)如何避免過擬合?
過擬合表現(xiàn)在訓(xùn)練數(shù)據(jù)上的誤差非常小,而在測試數(shù)據(jù)上誤差反而增大。其原因一般是模型過于復(fù)雜,過分得去擬合數(shù)據(jù)的噪聲和outliers。

常見的解決辦法是正則化是:增大數(shù)據(jù)集,正則化

正則化方法是指在進(jìn)行目標(biāo)函數(shù)或代價(jià)函數(shù)優(yōu)化時(shí),在目標(biāo)函數(shù)或代價(jià)函數(shù)后面加上一個(gè)正則項(xiàng),一般有L1正則與L2正則等。規(guī)則化項(xiàng)的引入,在訓(xùn)練(最小化cost)的過程中,當(dāng)某一維的特征所對應(yīng)的權(quán)重過大時(shí),而此時(shí)模型的預(yù)測和真實(shí)數(shù)據(jù)之間距離很小,通過規(guī)則化項(xiàng)就可以使整體的cost取較大的值,從而在訓(xùn)練的過程中避免了去選擇那些某一維(或幾維)特征的權(quán)重過大的情況,即過分依賴某一維(或幾維)的特征

L1正則與L2正則區(qū)別:

L1:計(jì)算絕對值之和,用以產(chǎn)生稀疏性(使參數(shù)矩陣中大部分元素變?yōu)?),因?yàn)樗荓0范式的一個(gè)最優(yōu)凸近似,容易優(yōu)化求解;

L2:計(jì)算平方和再開根號(hào),L2范數(shù)更多是防止過擬合,并且讓優(yōu)化求解變得穩(wěn)定很快速;

所以優(yōu)先使用L2 norm是比較好的選擇。

知識(shí)點(diǎn)6:二叉樹(前、中、后遍歷)
(這里的前中后是指的根節(jié)點(diǎn)的遍歷次序)

1)前序遍歷(DLR),首先訪問根結(jié)點(diǎn),然后遍歷左子樹,最后遍歷右子樹;

2)中序遍歷(LDR),首先遍歷左子樹,然后訪問根結(jié)點(diǎn),最后遍歷右子樹;

3)后序遍歷(LRD),首先遍歷左子樹,然后訪問遍歷右子樹,最后訪問根結(jié)點(diǎn)。



知識(shí)點(diǎn)7:幾種基本排序算法
1)冒泡排序(Bubble Sort)

冒泡排序方法是最簡單的排序方法。這種方法的基本思想是,將待排序的元素看作是豎著排列的“氣泡”,較小的元素比較輕,從而要往上浮。

冒泡排序是穩(wěn)定的。算法時(shí)間復(fù)雜度是O(n^2)。

2)插入排序(Insertion Sort)

插入排序的基本思想是,經(jīng)過i-1遍處理后,L[1..i-1]己排好序。第i遍處理僅將L[i]插入L[1..i-1]的適當(dāng)位置,使得L[1..i]又是排好序的序列。

直接插入排序是穩(wěn)定的。算法時(shí)間復(fù)雜度是O(n^2)。

3)堆排序

堆排序是一種樹形選擇排序,在排序過程中,將A[n]看成是完全二叉樹的順序存儲(chǔ)結(jié)構(gòu),利用完全二叉樹中雙親結(jié)點(diǎn)和孩子結(jié)點(diǎn)之間的內(nèi)在關(guān)系來選擇最小的元素。

堆排序是不穩(wěn)定的。算法時(shí)間復(fù)雜度O(nlog n)。

4)快速排序

快速排序是對冒泡排序的一種本質(zhì)改進(jìn)??焖倥判蛲ㄟ^一趟掃描,就能確保某個(gè)數(shù)(以它為基準(zhǔn)點(diǎn)吧)的左邊各數(shù)都比它小,右邊各數(shù)都比它大。

快速排序是不穩(wěn)定的。最理想情況算法時(shí)間復(fù)雜度O(nlog2n),最壞O(n ^2)。

知識(shí)點(diǎn)8:SQL知識(shí)
1)左連接、右連接、inner連接,full連接

2)修改表:

alter table 教師 add 獎(jiǎng)金 int

alter table 教師 drop 獎(jiǎng)金

alter table 教師 rename 獎(jiǎng)金 to 津貼

3)表權(quán)限的賦予:



4)怎樣清空表數(shù)據(jù),但不刪除表結(jié)構(gòu)

delete from tablename或者delete * from table_name

truncate table tablename

5)外鍵能不能為空

外鍵可以為空,為空表示其值還沒有確定;

如果不為空,剛必須為主鍵相同。

知識(shí)點(diǎn)9:統(tǒng)計(jì)學(xué)基礎(chǔ)知識(shí)
1)四分位極差、左右偏分布、p值

2)方差分析

用于兩個(gè)及兩個(gè)以上樣本均數(shù)差別的顯著性檢驗(yàn),基本思想是:通過分析研究不同來源的變異對總變異的貢獻(xiàn)大小,從而確定控制變量對研究結(jié)果影響力的大小。

3)主成分分析:

是一種統(tǒng)計(jì)方法。通過正交變換將一組可能存在相關(guān)性的變量轉(zhuǎn)換為一組線性不相關(guān)的變量,轉(zhuǎn)換后的這組變量叫主成分。

4)幸存者偏差

意思是指,當(dāng)取得資訊的渠道,僅來自于幸存者時(shí)(因?yàn)樗廊瞬粫?huì)說話),此資訊可能會(huì)存在與實(shí)際情況不同的偏差。

本文為簡書作者是藍(lán)先生原創(chuàng),CDA數(shù)據(jù)分析師已獲得授權(quán)

CDA數(shù)據(jù)分析師課程,全面講解商業(yè)數(shù)據(jù)分析領(lǐng)域技能和應(yīng)用,歡迎參加!


數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }