国产成人啪精品视频午夜,中文字幕亚洲一区一区,www.1314久色.com

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

22道機(jī)器學(xué)習(xí)常見面試題目匯總！(附詳細(xì)答案)

2019-12-03

22道<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>常見面試題目匯總！(附詳細(xì)答案)

作者 | 數(shù)據(jù)分析1480

來源 | lsxxx2011

有監(jiān)督學(xué)習(xí)：對(duì)具有概念標(biāo)記（分類）的訓(xùn)練樣本進(jìn)行學(xué)習(xí)，以盡可能對(duì)訓(xùn)練樣本集外的數(shù)據(jù)進(jìn)行標(biāo)記（分類）預(yù)測。這里，所有的標(biāo)記（分類）是已知的。因此，訓(xùn)練樣本的岐義性低。

無監(jiān)督學(xué)習(xí)：對(duì)沒有概念標(biāo)記（分類）的訓(xùn)練樣本進(jìn)行學(xué)習(xí)，以發(fā)現(xiàn)訓(xùn)練樣本集中的結(jié)構(gòu)性知識(shí)。這里，所有的標(biāo)記（分類）是未知的。因此，訓(xùn)練樣本的岐義性高。聚類就是典型的無監(jiān)督學(xué)習(xí)。

(2) SVM 的推導(dǎo)，特性？多分類怎么處理？

SVM是最大間隔分類器，幾何間隔和樣本的誤分次數(shù)之間存在關(guān)系，

，其中

從線性可分情況下，原問題，特征轉(zhuǎn)換后的dual問題，引入kernel(線性kernel，多項(xiàng)式，高斯)，最后是soft margin。

線性：簡單，速度快，但是需要線性可分。

多項(xiàng)式：比線性核擬合程度更強(qiáng)，知道具體的維度，但是高次容易出現(xiàn)數(shù)值不穩(wěn)定，參數(shù)選擇比較多。

高斯：擬合能力最強(qiáng)，但是要注意過擬合問題。不過只有一個(gè)參數(shù)需要調(diào)整。

多分類問題，一般將二分類推廣到多分類的方式有三種，一對(duì)一，一對(duì)多，多對(duì)多。

一對(duì)一：將N個(gè)類別兩兩配對(duì)，產(chǎn)生N(N-1)/2個(gè)二分類任務(wù)，測試階段新樣本同時(shí)交給所有的分類器，最終結(jié)果通過投票產(chǎn)生。

一對(duì)多：每一次將一個(gè)例作為正例，其他的作為反例，訓(xùn)練N個(gè)分類器，測試時(shí)如果只有一個(gè)分類器預(yù)測為正類，則對(duì)應(yīng)類別為最終結(jié)果，如果有多個(gè)，則一般選擇置信度最大的。從分類器角度一對(duì)一更多，但是每一次都只用了2個(gè)類別，因此當(dāng)類別數(shù)很多的時(shí)候一對(duì)一開銷通常更小(只要訓(xùn)練復(fù)雜度高于O(N)即可得到此結(jié)果)。

多對(duì)多：若干各類作為正類，若干個(gè)類作為反類。注意正反類必須特殊的設(shè)計(jì)。

(3) LR 的推導(dǎo)，特性？

LR的優(yōu)點(diǎn)在于實(shí)現(xiàn)簡單，并且計(jì)算量非常小，速度很快，存儲(chǔ)資源低，缺點(diǎn)就是因?yàn)槟Ｐ秃唵?，?duì)于復(fù)雜的情況下會(huì)出現(xiàn)欠擬合，并且只能處理2分類問題(可以通過一般的二元轉(zhuǎn)換為多元或者用softmax回歸)。

(4) 決策樹的特性？

決策樹基于樹結(jié)構(gòu)進(jìn)行決策，與人類在面臨問題的時(shí)候處理機(jī)制十分類似。其特點(diǎn)在于需要選擇一個(gè)屬性進(jìn)行分支，在分支的過程中選擇信息增益最大的屬性，定義如下　　

在劃分中我們希望決策樹的分支節(jié)點(diǎn)所包含的樣本屬于同一類別，即節(jié)點(diǎn)的純度越來越高。決策樹計(jì)算量簡單，可解釋性強(qiáng)，比較適合處理有缺失屬性值的樣本，能夠處理不相關(guān)的特征，但是容易過擬合，需要使用剪枝或者隨機(jī)森林。信息增益是熵減去條件熵，代表信息不確定性較少的程度，信息增益越大，說明不確定性降低的越大，因此說明該特征對(duì)分類來說很重要。由于信息增益準(zhǔn)則會(huì)對(duì)數(shù)目較多的屬性有所偏好，因此一般用信息增益率(c4.5)

其中分母可以看作為屬性自身的熵。取值可能性越多，屬性的熵越大。

Cart決策樹使用基尼指數(shù)來選擇劃分屬性，直觀的來說，Gini(D)反映了從數(shù)據(jù)集D中隨機(jī)抽取兩個(gè)樣本，其類別標(biāo)記不一致的概率，因此基尼指數(shù)越小數(shù)據(jù)集D的純度越高，一般為了防止過擬合要進(jìn)行剪枝，有預(yù)剪枝和后剪枝，一般用cross validation集進(jìn)行剪枝。

連續(xù)值和缺失值的處理，對(duì)于連續(xù)屬性a，將a在D上出現(xiàn)的不同的取值進(jìn)行排序，基于劃分點(diǎn)t將D分為兩個(gè)子集。一般對(duì)每一個(gè)連續(xù)的兩個(gè)取值的中點(diǎn)作為劃分點(diǎn)，然后根據(jù)信息增益選擇最大的。與離散屬性不同，若當(dāng)前節(jié)點(diǎn)劃分屬性為連續(xù)屬性，該屬性還可以作為其后代的劃分屬性。

(5) SVM、LR、決策樹的對(duì)比？

SVM既可以用于分類問題，也可以用于回歸問題，并且可以通過核函數(shù)快速的計(jì)算，LR實(shí)現(xiàn)簡單，訓(xùn)練速度非常快，但是模型較為簡單，決策樹容易過擬合，需要進(jìn)行剪枝等。從優(yōu)化函數(shù)上看，soft margin的SVM用的是hinge loss，而帶L2正則化的LR對(duì)應(yīng)的是cross entropy loss，另外adaboost對(duì)應(yīng)的是exponential loss。所以LR對(duì)遠(yuǎn)點(diǎn)敏感，但是SVM對(duì)outlier不太敏感，因?yàn)橹魂P(guān)心support vector，SVM可以將特征映射到無窮維空間，但是LR不可以，一般小數(shù)據(jù)中SVM比LR更優(yōu)一點(diǎn)，但是LR可以預(yù)測概率，而SVM不可以，SVM依賴于數(shù)據(jù)測度，需要先做歸一化，LR一般不需要，對(duì)于大量的數(shù)據(jù)LR使用更加廣泛，LR向多分類的擴(kuò)展更加直接，對(duì)于類別不平衡SVM一般用權(quán)重解決，即目標(biāo)函數(shù)中對(duì)正負(fù)樣本代價(jià)函數(shù)不同，LR可以用一般的方法，也可以直接對(duì)最后結(jié)果調(diào)整(通過閾值)，一般小數(shù)據(jù)下樣本維度比較高的時(shí)候SVM效果要更優(yōu)一些。

(6) GBDT 和隨機(jī)森林的區(qū)別？

隨機(jī)森林采用的是bagging的思想，bagging又稱為bootstrap aggreagation，通過在訓(xùn)練樣本集中進(jìn)行有放回的采樣得到多個(gè)采樣集，基于每個(gè)采樣集訓(xùn)練出一個(gè)基學(xué)習(xí)器，再將基學(xué)習(xí)器結(jié)合。隨機(jī)森林在對(duì)決策樹進(jìn)行bagging的基礎(chǔ)上，在決策樹的訓(xùn)練過程中引入了隨機(jī)屬性選擇。傳統(tǒng)決策樹在選擇劃分屬性的時(shí)候是在當(dāng)前節(jié)點(diǎn)屬性集合中選擇最優(yōu)屬性，而隨機(jī)森林則是對(duì)結(jié)點(diǎn)先隨機(jī)選擇包含k個(gè)屬性的子集，再選擇最有屬性，k作為一個(gè)參數(shù)控制了隨機(jī)性的引入程度。

另外，GBDT訓(xùn)練是基于Boosting思想，每一迭代中根據(jù)錯(cuò)誤更新樣本權(quán)重，因此是串行生成的序列化方法，而隨機(jī)森林是bagging的思想，因此是并行化方法。

(7) 如何判斷函數(shù)凸或非凸？什么是凸優(yōu)化？

首先定義凸集，如果x，y屬于某個(gè)集合C，并且所有的

也屬于c，那么c為一個(gè)凸集，進(jìn)一步，如果一個(gè)函數(shù)其定義域是凸集，并且

則該函數(shù)為凸函數(shù)。上述條件還能推出更一般的結(jié)果，

如果函數(shù)有二階導(dǎo)數(shù)，那么如果函數(shù)二階導(dǎo)數(shù)為正，或者對(duì)于多元函數(shù)，Hessian矩陣半正定則為凸函數(shù)。

(也可能引到SVM，或者凸函數(shù)局部最優(yōu)也是全局最優(yōu)的證明，或者上述公式期望情況下的Jessen不等式)

(8) 如何解決類別不平衡問題？

有些情況下訓(xùn)練集中的樣本分布很不平衡，例如在腫瘤檢測等問題中，正樣本的個(gè)數(shù)往往非常的少。從線性分類器的角度，在用

對(duì)新樣本進(jìn)行分類的時(shí)候，事實(shí)上在用預(yù)測出的y值和一個(gè)y值進(jìn)行比較，例如常常在y>0.5的時(shí)候判為正例，否則判為反例。幾率

反映了正例可能性和反例可能性的比值，閾值0.5恰好表明分類器認(rèn)為正反的可能性相同。在樣本不均衡的情況下，應(yīng)該是分類器的預(yù)測幾率高于觀測幾率就判斷為正例，因此應(yīng)該是

時(shí)預(yù)測為正例，這種策略稱為rebalancing。但是訓(xùn)練集并不一定是真實(shí)樣本總體的無偏采樣，通常有三種做法，一種是對(duì)訓(xùn)練集的負(fù)樣本進(jìn)行欠采樣，第二種是對(duì)正例進(jìn)行升采樣，第三種是直接基于原始訓(xùn)練集進(jìn)行學(xué)習(xí)，在預(yù)測的時(shí)候再改變閾值，稱為閾值移動(dòng)。注意過采樣一般通過對(duì)訓(xùn)練集的正例進(jìn)行插值產(chǎn)生額外的正例，而欠采樣將反例劃分為不同的集合供不同的學(xué)習(xí)器使用。

(9) 解釋對(duì)偶的概念。

一個(gè)優(yōu)化問題可以從兩個(gè)角度進(jìn)行考察，一個(gè)是primal 問題，一個(gè)是dual 問題，就是對(duì)偶問題，一般情況下對(duì)偶問題給出主問題最優(yōu)值的下界，在強(qiáng)對(duì)偶性成立的情況下由對(duì)偶問題可以得到主問題的最優(yōu)下界，對(duì)偶問題是凸優(yōu)化問題，可以進(jìn)行較好的求解，SVM中就是將primal問題轉(zhuǎn)換為dual問題進(jìn)行求解，從而進(jìn)一步引入核函數(shù)的思想。

(10) 如何進(jìn)行特征選擇？

特征選擇是一個(gè)重要的數(shù)據(jù)預(yù)處理過程，主要有兩個(gè)原因，首先在現(xiàn)實(shí)任務(wù)中我們會(huì)遇到維數(shù)災(zāi)難的問題(樣本密度非常稀疏)，若能從中選擇一部分特征，那么這個(gè)問題能大大緩解，另外就是去除不相關(guān)特征會(huì)降低學(xué)習(xí)任務(wù)的難度，增加模型的泛化能力。冗余特征指該特征包含的信息可以從其他特征中推演出來，但是這并不代表該冗余特征一定沒有作用，例如在欠擬合的情況下也可以用過加入冗余特征，增加簡單模型的復(fù)雜度。

在理論上如果沒有任何領(lǐng)域知識(shí)作為先驗(yàn)假設(shè)那么只能遍歷所有可能的子集。但是這顯然是不可能的，因?yàn)樾枰闅v的數(shù)量是組合爆炸的。一般我們分為子集搜索和子集評(píng)價(jià)兩個(gè)過程，子集搜索一般采用貪心算法，每一輪從候選特征中添加或者刪除，分別成為前向和后先搜索。或者兩者結(jié)合的雙向搜索。子集評(píng)價(jià)一般采用信息增益，對(duì)于連續(xù)數(shù)據(jù)往往排序之后選擇中點(diǎn)作為分割點(diǎn)。

常見的特征選擇方式有過濾式，包裹式和嵌入式，filter，wrapper和embedding。Filter類型先對(duì)數(shù)據(jù)集進(jìn)行特征選擇，再訓(xùn)練學(xué)習(xí)器。Wrapper直接把最終學(xué)習(xí)器的性能作為特征子集的評(píng)價(jià)準(zhǔn)則，一般通過不斷候選子集，然后利用cross-validation過程更新候選特征，通常計(jì)算量比較大。嵌入式特征選擇將特征選擇過程和訓(xùn)練過程融為了一體，在訓(xùn)練過程中自動(dòng)進(jìn)行了特征選擇，例如L1正則化更易于獲得稀疏解，而L2正則化更不容易過擬合。L1正則化可以通過PGD，近端梯度下降進(jìn)行求解。

(11) 為什么會(huì)產(chǎn)生過擬合，有哪些方法可以預(yù)防或克服過擬合？

一般在機(jī)器學(xué)習(xí)中，將學(xué)習(xí)器在訓(xùn)練集上的誤差稱為訓(xùn)練誤差或者經(jīng)驗(yàn)誤差，在新樣本上的誤差稱為泛化誤差。顯然我們希望得到泛化誤差小的學(xué)習(xí)器，但是我們事先并不知道新樣本，因此實(shí)際上往往努力使經(jīng)驗(yàn)誤差最小化。然而，當(dāng)學(xué)習(xí)器將訓(xùn)練樣本學(xué)的太好的時(shí)候，往往可能把訓(xùn)練樣本自身的特點(diǎn)當(dāng)做了潛在樣本具有的一般性質(zhì)。這樣就會(huì)導(dǎo)致泛化性能下降，稱之為過擬合，相反，欠擬合一般指對(duì)訓(xùn)練樣本的一般性質(zhì)尚未學(xué)習(xí)好，在訓(xùn)練集上仍然有較大的誤差。

欠擬合：一般來說欠擬合更容易解決一些，例如增加模型的復(fù)雜度，增加決策樹中的分支，增加神經(jīng)網(wǎng)絡(luò)中的訓(xùn)練次數(shù)等等。

過擬合：一般認(rèn)為過擬合是無法徹底避免的，因?yàn)?a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)面臨的問題一般是np-hard，但是一個(gè)有效的解一定要在多項(xiàng)式內(nèi)可以工作，所以會(huì)犧牲一些泛化能力。過擬合的解決方案一般有增加樣本數(shù)量，對(duì)樣本進(jìn)行降維，降低模型復(fù)雜度，利用先驗(yàn)知識(shí)(L1，L2正則化)，利用cross-validation，early stopping等等。

(12) 什么是偏差與方差？

泛化誤差可以分解成偏差的平方加上方差加上噪聲。偏差度量了學(xué)習(xí)算法的期望預(yù)測和真實(shí)結(jié)果的偏離程度，刻畫了學(xué)習(xí)算法本身的擬合能力，方差度量了同樣大小的訓(xùn)練集的變動(dòng)所導(dǎo)致的學(xué)習(xí)性能的變化，刻畫了數(shù)據(jù)擾動(dòng)所造成的影響，噪聲表達(dá)了當(dāng)前任務(wù)上任何學(xué)習(xí)算法所能達(dá)到的期望泛化誤差下界，刻畫了問題本身的難度。偏差和方差一般稱為bias和variance，一般訓(xùn)練程度越強(qiáng)，偏差越小，方差越大，泛化誤差一般在中間有一個(gè)最小值，如果偏差較大，方差較小，此時(shí)一般稱為欠擬合，而偏差較小，方差較大稱為過擬合。

偏差：

方差：

(13) 神經(jīng)網(wǎng)絡(luò)的原理，如何進(jìn)行訓(xùn)練？

神經(jīng)網(wǎng)絡(luò)自發(fā)展以來已經(jīng)是一個(gè)非常龐大的學(xué)科，一般而言認(rèn)為神經(jīng)網(wǎng)絡(luò)是由單個(gè)的神經(jīng)元和不同神經(jīng)元之間的連接構(gòu)成，不夠的結(jié)構(gòu)構(gòu)成不同的神經(jīng)網(wǎng)絡(luò)。最常見的神經(jīng)網(wǎng)絡(luò)一般稱為多層前饋神經(jīng)網(wǎng)絡(luò)，除了輸入和輸出層，中間隱藏層的個(gè)數(shù)被稱為神經(jīng)網(wǎng)絡(luò)的層數(shù)。BP算法是訓(xùn)練神經(jīng)網(wǎng)絡(luò)中最著名的算法，其本質(zhì)是梯度下降和鏈?zhǔn)椒▌t。

(14) 介紹卷積神經(jīng)網(wǎng)絡(luò)，和 DBN 有什么區(qū)別？

卷積神經(jīng)網(wǎng)絡(luò)的特點(diǎn)是卷積核，CNN中使用了權(quán)共享，通過不斷的上采用和卷積得到不同的特征表示，采樣層又稱為pooling層，基于局部相關(guān)性原理進(jìn)行亞采樣，在減少數(shù)據(jù)量的同時(shí)保持有用的信息。DBN是深度信念網(wǎng)絡(luò)，每一層是一個(gè)RBM，整個(gè)網(wǎng)絡(luò)可以視為RBM堆疊得到，通常使用無監(jiān)督逐層訓(xùn)練，從第一層開始，每一層利用上一層的輸入進(jìn)行訓(xùn)練，等各層訓(xùn)練結(jié)束之后再利用BP算法對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。

(15) 采用 EM 算法求解的模型有哪些，為什么不用牛頓法或梯度下降法？

用EM算法求解的模型一般有GMM或者協(xié)同過濾，k-means其實(shí)也屬于EM。EM算法一定會(huì)收斂，但是可能收斂到局部最優(yōu)。由于求和的項(xiàng)數(shù)將隨著隱變量的數(shù)目指數(shù)上升，會(huì)給梯度計(jì)算帶來麻煩。

(16) 用 EM 算法推導(dǎo)解釋 Kmeans。

k-means算法是高斯混合聚類在混合成分方差相等，且每個(gè)樣本僅指派一個(gè)混合成分時(shí)候的特例。注意k-means在運(yùn)行之前需要進(jìn)行歸一化處理，不然可能會(huì)因?yàn)闃颖驹谀承┚S度上過大導(dǎo)致距離計(jì)算失效。k-means中每個(gè)樣本所屬的類就可以看成是一個(gè)隱變量，在E步中，我們固定每個(gè)類的中心，通過對(duì)每一個(gè)樣本選擇最近的類優(yōu)化目標(biāo)函數(shù)，在M步，重新更新每個(gè)類的中心點(diǎn)，該步驟可以通過對(duì)目標(biāo)函數(shù)求導(dǎo)實(shí)現(xiàn)，最終可得新的類中心就是類中樣本的均值。

(17) 用過哪些聚類算法，解釋密度聚類算法。

k-means算法，聚類性能的度量一般分為兩類，一類是聚類結(jié)果與某個(gè)參考模型比較(外部指標(biāo))，另外是直接考察聚類結(jié)果(內(nèi)部指標(biāo))。后者通常有DB指數(shù)和DI，DB指數(shù)是對(duì)每個(gè)類，找出類內(nèi)平均距離/類間中心距離最大的類，然后計(jì)算上述值，并對(duì)所有的類求和，越小越好。類似k-means的算法僅在類中數(shù)據(jù)構(gòu)成簇的情況下表現(xiàn)較好，密度聚類算法從樣本密度的角度考察樣本之間的可連接性，并基于可連接樣本不斷擴(kuò)展聚類蔟得到最終結(jié)果。DBSCAN(density-based spatial clustering of applications with noise)是一種著名的密度聚類算法，基于一組鄰域參數(shù)

進(jìn)行刻畫，包括鄰域，核心對(duì)象(鄰域內(nèi)至少包含

個(gè)對(duì)象)，密度直達(dá)(j由i密度直達(dá)，表示j在i的鄰域內(nèi)，且i是一個(gè)核心對(duì)象)，密度可達(dá)(j由i密度可達(dá)，存在樣本序列使得每一對(duì)都密度直達(dá))，密度相連(xi，xj存在k，i，j均有k可達(dá))，先找出樣本中所有的核心對(duì)象，然后以任一核心對(duì)象作為出發(fā)點(diǎn)，找出由其密度可達(dá)的樣本生成聚類蔟，直到所有核心對(duì)象被訪問過為止。

(18) 聚類算法中的距離度量有哪些？

聚類算法中的距離度量一般用閩科夫斯基距離，在p取不同的值下對(duì)應(yīng)不同的距離，例如p=1的時(shí)候?qū)?yīng)曼哈頓距離，p=2的情況下對(duì)應(yīng)歐式距離，p=inf的情況下變?yōu)榍斜妊┓蚓嚯x，還有jaccard距離，冪距離(閩科夫斯基的更一般形式)，余弦相似度，加權(quán)的距離，馬氏距離(類似加權(quán))作為距離度量需要滿足非負(fù)性，同一性，對(duì)稱性和直遞性，閩科夫斯基在p>=1的時(shí)候滿足讀來那個(gè)性質(zhì)，對(duì)于一些離散屬性例如{飛機(jī)，火車，輪船}則不能直接在屬性值上計(jì)算距離，這些稱為無序?qū)傩?，可以用VDM(Value Diffrence Metrix)，屬性u(píng)上兩個(gè)離散值a，b之間的VDM距離定義為

其中

表示在第i個(gè)簇中屬性u(píng)上a的樣本數(shù)，樣本空間中不同屬性的重要性不同的時(shí)候可以采用加權(quán)距離，一般如果認(rèn)為所有屬性重要性相同則要對(duì)特征進(jìn)行歸一化。一般來說距離需要的是相似性度量，距離越大，相似度越小，用于相似性度量的距離未必一定要滿足距離度量的所有性質(zhì)，例如直遞性。比如人馬和人，人馬和馬的距離較近，然后人和馬的距離可能就很遠(yuǎn)。

(19) 解釋貝葉斯公式和樸素貝葉斯分類。

貝葉斯公式：

最小化分類錯(cuò)誤的貝葉斯最優(yōu)分類器等價(jià)于最大化后驗(yàn)概率。

基于貝葉斯公式來估計(jì)后驗(yàn)概率的主要困難在于，條件概率

是所有屬性上的聯(lián)合概率，難以從有限的訓(xùn)練樣本直接估計(jì)得到。樸素貝葉斯分類器采用了屬性條件獨(dú)立性假設(shè)，對(duì)于已知的類別，假設(shè)所有屬性相互獨(dú)立。這樣，樸素貝葉斯分類則定義為

如果有足夠多的獨(dú)立同分布樣本，那么

可以根據(jù)每個(gè)類中的樣本數(shù)量直接估計(jì)出來。在離散情況下先驗(yàn)概率可以利用樣本數(shù)量估計(jì)或者離散情況下根據(jù)假設(shè)的概率密度函數(shù)進(jìn)行最大似然估計(jì)。樸素貝葉斯可以用于同時(shí)包含連續(xù)變量和離散變量的情況。如果直接基于出現(xiàn)的次數(shù)進(jìn)行估計(jì)，會(huì)出現(xiàn)一項(xiàng)為0而乘積為0的情況，所以一般會(huì)用一些平滑的方法，例如拉普拉斯修正，

這樣既可以保證概率的歸一化，同時(shí)還能避免上述出現(xiàn)的現(xiàn)象。

(20) 解釋L1和L2正則化的作用。

L1正則化是在代價(jià)函數(shù)后面加上

，L2正則化是在代價(jià)函數(shù)后面增加了

，兩者都起到一定的過擬合作用，兩者都對(duì)應(yīng)一定的先驗(yàn)知識(shí)，L1對(duì)應(yīng)拉普拉斯分布，L2對(duì)應(yīng)高斯分布，L1偏向于參數(shù)稀疏性，L2偏向于參數(shù)分布較為稠

(21) TF-IDF是什么？

TF指Term frequecy，代表詞頻，IDF代表inverse document frequency，叫做逆文檔頻率，這個(gè)算法可以用來提取文檔的關(guān)鍵詞，首先一般認(rèn)為在文章中出現(xiàn)次數(shù)較多的詞是關(guān)鍵詞，詞頻就代表了這一項(xiàng)，然而有些詞是停用詞，例如的，是，有這種大量出現(xiàn)的詞，首先需要進(jìn)行過濾，比如過濾之后再統(tǒng)計(jì)詞頻出現(xiàn)了中國，蜜蜂，養(yǎng)殖且三個(gè)詞的詞頻幾乎一致，但是中國這個(gè)詞出現(xiàn)在其他文章的概率比其他兩個(gè)詞要高不少，因此我們應(yīng)該認(rèn)為后兩個(gè)詞更能表現(xiàn)文章的主題，IDF就代表了這樣的信息，計(jì)算該值需要一個(gè)語料庫，如果一個(gè)詞在語料庫中出現(xiàn)的概率越小，那么該詞的IDF應(yīng)該越大，一般來說TF計(jì)算公式為(某個(gè)詞在文章中出現(xiàn)次數(shù)/文章的總詞數(shù))，這樣消除長文章中詞出現(xiàn)次數(shù)多的影響，IDF計(jì)算公式為log(語料庫文章總數(shù)/(包含該詞的文章數(shù))+1)。將兩者乘乘起來就得到了詞的TF-IDF。傳統(tǒng)的TF-IDF對(duì)詞出現(xiàn)的位置沒有進(jìn)行考慮，可以針對(duì)不同位置賦予不同的權(quán)重進(jìn)行修正，注意這些修正之所以是有效的，正是因?yàn)槿擞^測過了大量的信息，因此建議了一個(gè)先驗(yàn)估計(jì)，人將這個(gè)先驗(yàn)估計(jì)融合到了算法里面，所以使算法更加的有效

(22) 文本中的余弦距離是什么，有哪些作用？

余弦距離是兩個(gè)向量的距離的一種度量方式，其值在-1~1之間，如果為1表示兩個(gè)向量同相，0表示兩個(gè)向量正交，-1表示兩個(gè)向量反向。使用TF-IDF和余弦距離可以尋找內(nèi)容相似的文章，例如首先用TF-IDF找出兩篇文章的關(guān)鍵詞，然后每個(gè)文章分別取出k個(gè)關(guān)鍵詞(10-20個(gè))，統(tǒng)計(jì)這些關(guān)鍵詞的詞頻，生成兩篇文章的詞頻向量，然后用余弦距離計(jì)算其相似度。

CDA數(shù)據(jù)分析師考試相關(guān)入口一覽（建議收藏）：

? 想報(bào)名CDA認(rèn)證考試，點(diǎn)擊>>> “CDA報(bào)名” 了解CDA考試詳情；