
作者 | 數(shù)據(jù)分析1480
來源 | lsxxx2011
(1) 無監(jiān)督和有監(jiān)督算法的區(qū)別?
有監(jiān)督學(xué)習(xí):對(duì)具有概念標(biāo)記(分類)的訓(xùn)練樣本進(jìn)行學(xué)習(xí),以盡可能對(duì)訓(xùn)練樣本集外的數(shù)據(jù)進(jìn)行標(biāo)記(分類)預(yù)測。這里,所有的標(biāo)記(分類)是已知的。因此,訓(xùn)練樣本的岐義性低。
無監(jiān)督學(xué)習(xí):對(duì)沒有概念標(biāo)記(分類)的訓(xùn)練樣本進(jìn)行學(xué)習(xí),以發(fā)現(xiàn)訓(xùn)練樣本集中的結(jié)構(gòu)性知識(shí)。這里,所有的標(biāo)記(分類)是未知的。因此,訓(xùn)練樣本的岐義性高。聚類就是典型的無監(jiān)督學(xué)習(xí)。
(2) SVM 的推導(dǎo),特性?多分類怎么處理?
SVM是最大間隔分類器,幾何間隔和樣本的誤分次數(shù)之間存在關(guān)系,
,其中
從線性可分情況下,原問題,特征轉(zhuǎn)換后的dual問題,引入kernel(線性kernel,多項(xiàng)式,高斯),最后是soft margin。
線性:簡單,速度快,但是需要線性可分。
多項(xiàng)式:比線性核擬合程度更強(qiáng),知道具體的維度,但是高次容易出現(xiàn)數(shù)值不穩(wěn)定,參數(shù)選擇比較多。
高斯:擬合能力最強(qiáng),但是要注意過擬合問題。不過只有一個(gè)參數(shù)需要調(diào)整。
多分類問題,一般將二分類推廣到多分類的方式有三種,一對(duì)一,一對(duì)多,多對(duì)多。
一對(duì)一:將N個(gè)類別兩兩配對(duì),產(chǎn)生N(N-1)/2個(gè)二分類任務(wù),測試階段新樣本同時(shí)交給所有的分類器,最終結(jié)果通過投票產(chǎn)生。
一對(duì)多:每一次將一個(gè)例作為正例,其他的作為反例,訓(xùn)練N個(gè)分類器,測試時(shí)如果只有一個(gè)分類器預(yù)測為正類,則對(duì)應(yīng)類別為最終結(jié)果,如果有多個(gè),則一般選擇置信度最大的。從分類器角度一對(duì)一更多,但是每一次都只用了2個(gè)類別,因此當(dāng)類別數(shù)很多的時(shí)候一對(duì)一開銷通常更小(只要訓(xùn)練復(fù)雜度高于O(N)即可得到此結(jié)果)。
多對(duì)多:若干各類作為正類,若干個(gè)類作為反類。注意正反類必須特殊的設(shè)計(jì)。
(3) LR 的推導(dǎo),特性?
LR的優(yōu)點(diǎn)在于實(shí)現(xiàn)簡單,并且計(jì)算量非常小,速度很快,存儲(chǔ)資源低,缺點(diǎn)就是因?yàn)槟P秃唵?,?duì)于復(fù)雜的情況下會(huì)出現(xiàn)欠擬合,并且只能處理2分類問題(可以通過一般的二元轉(zhuǎn)換為多元或者用softmax回歸)。
(4) 決策樹的特性?
決策樹基于樹結(jié)構(gòu)進(jìn)行決策,與人類在面臨問題的時(shí)候處理機(jī)制十分類似。其特點(diǎn)在于需要選擇一個(gè)屬性進(jìn)行分支,在分支的過程中選擇信息增益最大的屬性,定義如下
在劃分中我們希望決策樹的分支節(jié)點(diǎn)所包含的樣本屬于同一類別,即節(jié)點(diǎn)的純度越來越高。決策樹計(jì)算量簡單,可解釋性強(qiáng),比較適合處理有缺失屬性值的樣本,能夠處理不相關(guān)的特征,但是容易過擬合,需要使用剪枝或者隨機(jī)森林。信息增益是熵減去條件熵,代表信息不確定性較少的程度,信息增益越大,說明不確定性降低的越大,因此說明該特征對(duì)分類來說很重要。由于信息增益準(zhǔn)則會(huì)對(duì)數(shù)目較多的屬性有所偏好,因此一般用信息增益率(c4.5)
其中分母可以看作為屬性自身的熵。取值可能性越多,屬性的熵越大。
Cart決策樹使用基尼指數(shù)來選擇劃分屬性,直觀的來說,Gini(D)反映了從數(shù)據(jù)集D中隨機(jī)抽取兩個(gè)樣本,其類別標(biāo)記不一致的概率,因此基尼指數(shù)越小數(shù)據(jù)集D的純度越高,一般為了防止過擬合要進(jìn)行剪枝,有預(yù)剪枝和后剪枝,一般用cross validation集進(jìn)行剪枝。
連續(xù)值和缺失值的處理,對(duì)于連續(xù)屬性a,將a在D上出現(xiàn)的不同的取值進(jìn)行排序,基于劃分點(diǎn)t將D分為兩個(gè)子集。一般對(duì)每一個(gè)連續(xù)的兩個(gè)取值的中點(diǎn)作為劃分點(diǎn),然后根據(jù)信息增益選擇最大的。與離散屬性不同,若當(dāng)前節(jié)點(diǎn)劃分屬性為連續(xù)屬性,該屬性還可以作為其后代的劃分屬性。
SVM既可以用于分類問題,也可以用于回歸問題,并且可以通過核函數(shù)快速的計(jì)算,LR實(shí)現(xiàn)簡單,訓(xùn)練速度非常快,但是模型較為簡單,決策樹容易過擬合,需要進(jìn)行剪枝等。從優(yōu)化函數(shù)上看,soft margin的SVM用的是hinge loss,而帶L2正則化的LR對(duì)應(yīng)的是cross entropy loss,另外adaboost對(duì)應(yīng)的是exponential loss。所以LR對(duì)遠(yuǎn)點(diǎn)敏感,但是SVM對(duì)outlier不太敏感,因?yàn)橹魂P(guān)心support vector,SVM可以將特征映射到無窮維空間,但是LR不可以,一般小數(shù)據(jù)中SVM比LR更優(yōu)一點(diǎn),但是LR可以預(yù)測概率,而SVM不可以,SVM依賴于數(shù)據(jù)測度,需要先做歸一化,LR一般不需要,對(duì)于大量的數(shù)據(jù)LR使用更加廣泛,LR向多分類的擴(kuò)展更加直接,對(duì)于類別不平衡SVM一般用權(quán)重解決,即目標(biāo)函數(shù)中對(duì)正負(fù)樣本代價(jià)函數(shù)不同,LR可以用一般的方法,也可以直接對(duì)最后結(jié)果調(diào)整(通過閾值),一般小數(shù)據(jù)下樣本維度比較高的時(shí)候SVM效果要更優(yōu)一些。
(6) GBDT 和隨機(jī)森林的區(qū)別?
隨機(jī)森林采用的是bagging的思想,bagging又稱為bootstrap aggreagation,通過在訓(xùn)練樣本集中進(jìn)行有放回的采樣得到多個(gè)采樣集,基于每個(gè)采樣集訓(xùn)練出一個(gè)基學(xué)習(xí)器,再將基學(xué)習(xí)器結(jié)合。隨機(jī)森林在對(duì)決策樹進(jìn)行bagging的基礎(chǔ)上,在決策樹的訓(xùn)練過程中引入了隨機(jī)屬性選擇。傳統(tǒng)決策樹在選擇劃分屬性的時(shí)候是在當(dāng)前節(jié)點(diǎn)屬性集合中選擇最優(yōu)屬性,而隨機(jī)森林則是對(duì)結(jié)點(diǎn)先隨機(jī)選擇包含k個(gè)屬性的子集,再選擇最有屬性,k作為一個(gè)參數(shù)控制了隨機(jī)性的引入程度。
另外,GBDT訓(xùn)練是基于Boosting思想,每一迭代中根據(jù)錯(cuò)誤更新樣本權(quán)重,因此是串行生成的序列化方法,而隨機(jī)森林是bagging的思想,因此是并行化方法。
(7) 如何判斷函數(shù)凸或非凸?什么是凸優(yōu)化?
首先定義凸集,如果x,y屬于某個(gè)集合C,并且所有的
也屬于c,那么c為一個(gè)凸集,進(jìn)一步,如果一個(gè)函數(shù)其定義域是凸集,并且
則該函數(shù)為凸函數(shù)。上述條件還能推出更一般的結(jié)果,
如果函數(shù)有二階導(dǎo)數(shù),那么如果函數(shù)二階導(dǎo)數(shù)為正,或者對(duì)于多元函數(shù),Hessian矩陣半正定則為凸函數(shù)。
(也可能引到SVM,或者凸函數(shù)局部最優(yōu)也是全局最優(yōu)的證明,或者上述公式期望情況下的Jessen不等式)
(8) 如何解決類別不平衡問題?
有些情況下訓(xùn)練集中的樣本分布很不平衡,例如在腫瘤檢測等問題中,正樣本的個(gè)數(shù)往往非常的少。從線性分類器的角度,在用
對(duì)新樣本進(jìn)行分類的時(shí)候,事實(shí)上在用預(yù)測出的y值和一個(gè)y值進(jìn)行比較,例如常常在y>0.5的時(shí)候判為正例,否則判為反例。幾率
反映了正例可能性和反例可能性的比值,閾值0.5恰好表明分類器認(rèn)為正反的可能性相同。在樣本不均衡的情況下,應(yīng)該是分類器的預(yù)測幾率高于觀測幾率就判斷為正例,因此應(yīng)該是
時(shí)預(yù)測為正例,這種策略稱為rebalancing。但是訓(xùn)練集并不一定是真實(shí)樣本總體的無偏采樣,通常有三種做法,一種是對(duì)訓(xùn)練集的負(fù)樣本進(jìn)行欠采樣,第二種是對(duì)正例進(jìn)行升采樣,第三種是直接基于原始訓(xùn)練集進(jìn)行學(xué)習(xí),在預(yù)測的時(shí)候再改變閾值,稱為閾值移動(dòng)。注意過采樣一般通過對(duì)訓(xùn)練集的正例進(jìn)行插值產(chǎn)生額外的正例,而欠采樣將反例劃分為不同的集合供不同的學(xué)習(xí)器使用。
(9) 解釋對(duì)偶的概念。
一個(gè)優(yōu)化問題可以從兩個(gè)角度進(jìn)行考察,一個(gè)是primal 問題,一個(gè)是dual 問題,就是對(duì)偶問題,一般情況下對(duì)偶問題給出主問題最優(yōu)值的下界,在強(qiáng)對(duì)偶性成立的情況下由對(duì)偶問題可以得到主問題的最優(yōu)下界,對(duì)偶問題是凸優(yōu)化問題,可以進(jìn)行較好的求解,SVM中就是將primal問題轉(zhuǎn)換為dual問題進(jìn)行求解,從而進(jìn)一步引入核函數(shù)的思想。
(10) 如何進(jìn)行特征選擇?
特征選擇是一個(gè)重要的數(shù)據(jù)預(yù)處理過程,主要有兩個(gè)原因,首先在現(xiàn)實(shí)任務(wù)中我們會(huì)遇到維數(shù)災(zāi)難的問題(樣本密度非常稀疏),若能從中選擇一部分特征,那么這個(gè)問題能大大緩解,另外就是去除不相關(guān)特征會(huì)降低學(xué)習(xí)任務(wù)的難度,增加模型的泛化能力。冗余特征指該特征包含的信息可以從其他特征中推演出來,但是這并不代表該冗余特征一定沒有作用,例如在欠擬合的情況下也可以用過加入冗余特征,增加簡單模型的復(fù)雜度。
在理論上如果沒有任何領(lǐng)域知識(shí)作為先驗(yàn)假設(shè)那么只能遍歷所有可能的子集。但是這顯然是不可能的,因?yàn)樾枰闅v的數(shù)量是組合爆炸的。一般我們分為子集搜索和子集評(píng)價(jià)兩個(gè)過程,子集搜索一般采用貪心算法,每一輪從候選特征中添加或者刪除,分別成為前向和后先搜索。或者兩者結(jié)合的雙向搜索。子集評(píng)價(jià)一般采用信息增益,對(duì)于連續(xù)數(shù)據(jù)往往排序之后選擇中點(diǎn)作為分割點(diǎn)。
常見的特征選擇方式有過濾式,包裹式和嵌入式,filter,wrapper和embedding。Filter類型先對(duì)數(shù)據(jù)集進(jìn)行特征選擇,再訓(xùn)練學(xué)習(xí)器。Wrapper直接把最終學(xué)習(xí)器的性能作為特征子集的評(píng)價(jià)準(zhǔn)則,一般通過不斷候選子集,然后利用cross-validation過程更新候選特征,通常計(jì)算量比較大。嵌入式特征選擇將特征選擇過程和訓(xùn)練過程融為了一體,在訓(xùn)練過程中自動(dòng)進(jìn)行了特征選擇,例如L1正則化更易于獲得稀疏解,而L2正則化更不容易過擬合。L1正則化可以通過PGD,近端梯度下降進(jìn)行求解。
(11) 為什么會(huì)產(chǎn)生過擬合,有哪些方法可以預(yù)防或克服過擬合?
一般在機(jī)器學(xué)習(xí)中,將學(xué)習(xí)器在訓(xùn)練集上的誤差稱為訓(xùn)練誤差或者經(jīng)驗(yàn)誤差,在新樣本上的誤差稱為泛化誤差。顯然我們希望得到泛化誤差小的學(xué)習(xí)器,但是我們事先并不知道新樣本,因此實(shí)際上往往努力使經(jīng)驗(yàn)誤差最小化。然而,當(dāng)學(xué)習(xí)器將訓(xùn)練樣本學(xué)的太好的時(shí)候,往往可能把訓(xùn)練樣本自身的特點(diǎn)當(dāng)做了潛在樣本具有的一般性質(zhì)。這樣就會(huì)導(dǎo)致泛化性能下降,稱之為過擬合,相反,欠擬合一般指對(duì)訓(xùn)練樣本的一般性質(zhì)尚未學(xué)習(xí)好,在訓(xùn)練集上仍然有較大的誤差。
欠擬合:一般來說欠擬合更容易解決一些,例如增加模型的復(fù)雜度,增加決策樹中的分支,增加神經(jīng)網(wǎng)絡(luò)中的訓(xùn)練次數(shù)等等。
過擬合:一般認(rèn)為過擬合是無法徹底避免的,因?yàn)?a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)面臨的問題一般是np-hard,但是一個(gè)有效的解一定要在多項(xiàng)式內(nèi)可以工作,所以會(huì)犧牲一些泛化能力。過擬合的解決方案一般有增加樣本數(shù)量,對(duì)樣本進(jìn)行降維,降低模型復(fù)雜度,利用先驗(yàn)知識(shí)(L1,L2正則化),利用cross-validation,early stopping等等。
(12) 什么是偏差與方差?
泛化誤差可以分解成偏差的平方加上方差加上噪聲。偏差度量了學(xué)習(xí)算法的期望預(yù)測和真實(shí)結(jié)果的偏離程度,刻畫了學(xué)習(xí)算法本身的擬合能力,方差度量了同樣大小的訓(xùn)練集的變動(dòng)所導(dǎo)致的學(xué)習(xí)性能的變化,刻畫了數(shù)據(jù)擾動(dòng)所造成的影響,噪聲表達(dá)了當(dāng)前任務(wù)上任何學(xué)習(xí)算法所能達(dá)到的期望泛化誤差下界,刻畫了問題本身的難度。偏差和方差一般稱為bias和variance,一般訓(xùn)練程度越強(qiáng),偏差越小,方差越大,泛化誤差一般在中間有一個(gè)最小值,如果偏差較大,方差較小,此時(shí)一般稱為欠擬合,而偏差較小,方差較大稱為過擬合。
偏差:
方差:
(13) 神經(jīng)網(wǎng)絡(luò)的原理,如何進(jìn)行訓(xùn)練?
神經(jīng)網(wǎng)絡(luò)自發(fā)展以來已經(jīng)是一個(gè)非常龐大的學(xué)科,一般而言認(rèn)為神經(jīng)網(wǎng)絡(luò)是由單個(gè)的神經(jīng)元和不同神經(jīng)元之間的連接構(gòu)成,不夠的結(jié)構(gòu)構(gòu)成不同的神經(jīng)網(wǎng)絡(luò)。最常見的神經(jīng)網(wǎng)絡(luò)一般稱為多層前饋神經(jīng)網(wǎng)絡(luò),除了輸入和輸出層,中間隱藏層的個(gè)數(shù)被稱為神經(jīng)網(wǎng)絡(luò)的層數(shù)。BP算法是訓(xùn)練神經(jīng)網(wǎng)絡(luò)中最著名的算法,其本質(zhì)是梯度下降和鏈?zhǔn)椒▌t。
(14) 介紹卷積神經(jīng)網(wǎng)絡(luò),和 DBN 有什么區(qū)別?
卷積神經(jīng)網(wǎng)絡(luò)的特點(diǎn)是卷積核,CNN中使用了權(quán)共享,通過不斷的上采用和卷積得到不同的特征表示,采樣層又稱為pooling層,基于局部相關(guān)性原理進(jìn)行亞采樣,在減少數(shù)據(jù)量的同時(shí)保持有用的信息。DBN是深度信念網(wǎng)絡(luò),每一層是一個(gè)RBM,整個(gè)網(wǎng)絡(luò)可以視為RBM堆疊得到,通常使用無監(jiān)督逐層訓(xùn)練,從第一層開始,每一層利用上一層的輸入進(jìn)行訓(xùn)練,等各層訓(xùn)練結(jié)束之后再利用BP算法對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
(15) 采用 EM 算法求解的模型有哪些,為什么不用牛頓法或梯度下降法?
用EM算法求解的模型一般有GMM或者協(xié)同過濾,k-means其實(shí)也屬于EM。EM算法一定會(huì)收斂,但是可能收斂到局部最優(yōu)。由于求和的項(xiàng)數(shù)將隨著隱變量的數(shù)目指數(shù)上升,會(huì)給梯度計(jì)算帶來麻煩。
(16) 用 EM 算法推導(dǎo)解釋 Kmeans。
k-means算法是高斯混合聚類在混合成分方差相等,且每個(gè)樣本僅指派一個(gè)混合成分時(shí)候的特例。注意k-means在運(yùn)行之前需要進(jìn)行歸一化處理,不然可能會(huì)因?yàn)闃颖驹谀承┚S度上過大導(dǎo)致距離計(jì)算失效。k-means中每個(gè)樣本所屬的類就可以看成是一個(gè)隱變量,在E步中,我們固定每個(gè)類的中心,通過對(duì)每一個(gè)樣本選擇最近的類優(yōu)化目標(biāo)函數(shù),在M步,重新更新每個(gè)類的中心點(diǎn),該步驟可以通過對(duì)目標(biāo)函數(shù)求導(dǎo)實(shí)現(xiàn),最終可得新的類中心就是類中樣本的均值。
(17) 用過哪些聚類算法,解釋密度聚類算法。
k-means算法,聚類性能的度量一般分為兩類,一類是聚類結(jié)果與某個(gè)參考模型比較(外部指標(biāo)),另外是直接考察聚類結(jié)果(內(nèi)部指標(biāo))。后者通常有DB指數(shù)和DI,DB指數(shù)是對(duì)每個(gè)類,找出類內(nèi)平均距離/類間中心距離最大的類,然后計(jì)算上述值,并對(duì)所有的類求和,越小越好。類似k-means的算法僅在類中數(shù)據(jù)構(gòu)成簇的情況下表現(xiàn)較好,密度聚類算法從樣本密度的角度考察樣本之間的可連接性,并基于可連接樣本不斷擴(kuò)展聚類蔟得到最終結(jié)果。DBSCAN(density-based spatial clustering of applications with noise)是一種著名的密度聚類算法,基于一組鄰域參數(shù)
進(jìn)行刻畫,包括鄰域,核心對(duì)象(鄰域內(nèi)至少包含
個(gè)對(duì)象),密度直達(dá)(j由i密度直達(dá),表示j在i的鄰域內(nèi),且i是一個(gè)核心對(duì)象),密度可達(dá)(j由i密度可達(dá),存在樣本序列使得每一對(duì)都密度直達(dá)),密度相連(xi,xj存在k,i,j均有k可達(dá)),先找出樣本中所有的核心對(duì)象,然后以任一核心對(duì)象作為出發(fā)點(diǎn),找出由其密度可達(dá)的樣本生成聚類蔟,直到所有核心對(duì)象被訪問過為止。
(18) 聚類算法中的距離度量有哪些?
聚類算法中的距離度量一般用閩科夫斯基距離,在p取不同的值下對(duì)應(yīng)不同的距離,例如p=1的時(shí)候?qū)?yīng)曼哈頓距離,p=2的情況下對(duì)應(yīng)歐式距離,p=inf的情況下變?yōu)榍斜妊┓蚓嚯x,還有jaccard距離,冪距離(閩科夫斯基的更一般形式),余弦相似度,加權(quán)的距離,馬氏距離(類似加權(quán))作為距離度量需要滿足非負(fù)性,同一性,對(duì)稱性和直遞性,閩科夫斯基在p>=1的時(shí)候滿足讀來那個(gè)性質(zhì),對(duì)于一些離散屬性例如{飛機(jī),火車,輪船}則不能直接在屬性值上計(jì)算距離,這些稱為無序?qū)傩?,可以用VDM(Value Diffrence Metrix),屬性u(píng)上兩個(gè)離散值a,b之間的VDM距離定義為
其中
表示在第i個(gè)簇中屬性u(píng)上a的樣本數(shù),樣本空間中不同屬性的重要性不同的時(shí)候可以采用加權(quán)距離,一般如果認(rèn)為所有屬性重要性相同則要對(duì)特征進(jìn)行歸一化。一般來說距離需要的是相似性度量,距離越大,相似度越小,用于相似性度量的距離未必一定要滿足距離度量的所有性質(zhì),例如直遞性。比如人馬和人,人馬和馬的距離較近,然后人和馬的距離可能就很遠(yuǎn)。
(19) 解釋貝葉斯公式和樸素貝葉斯分類。
貝葉斯公式:
最小化分類錯(cuò)誤的貝葉斯最優(yōu)分類器等價(jià)于最大化后驗(yàn)概率。
基于貝葉斯公式來估計(jì)后驗(yàn)概率的主要困難在于,條件概率
是所有屬性上的聯(lián)合概率,難以從有限的訓(xùn)練樣本直接估計(jì)得到。樸素貝葉斯分類器采用了屬性條件獨(dú)立性假設(shè),對(duì)于已知的類別,假設(shè)所有屬性相互獨(dú)立。這樣,樸素貝葉斯分類則定義為
如果有足夠多的獨(dú)立同分布樣本,那么
可以根據(jù)每個(gè)類中的樣本數(shù)量直接估計(jì)出來。在離散情況下先驗(yàn)概率可以利用樣本數(shù)量估計(jì)或者離散情況下根據(jù)假設(shè)的概率密度函數(shù)進(jìn)行最大似然估計(jì)。樸素貝葉斯可以用于同時(shí)包含連續(xù)變量和離散變量的情況。如果直接基于出現(xiàn)的次數(shù)進(jìn)行估計(jì),會(huì)出現(xiàn)一項(xiàng)為0而乘積為0的情況,所以一般會(huì)用一些平滑的方法,例如拉普拉斯修正,
這樣既可以保證概率的歸一化,同時(shí)還能避免上述出現(xiàn)的現(xiàn)象。
(20) 解釋L1和L2正則化的作用。
L1正則化是在代價(jià)函數(shù)后面加上
,L2正則化是在代價(jià)函數(shù)后面增加了
,兩者都起到一定的過擬合作用,兩者都對(duì)應(yīng)一定的先驗(yàn)知識(shí),L1對(duì)應(yīng)拉普拉斯分布,L2對(duì)應(yīng)高斯分布,L1偏向于參數(shù)稀疏性,L2偏向于參數(shù)分布較為稠
(21) TF-IDF是什么?
TF指Term frequecy,代表詞頻,IDF代表inverse document frequency,叫做逆文檔頻率,這個(gè)算法可以用來提取文檔的關(guān)鍵詞,首先一般認(rèn)為在文章中出現(xiàn)次數(shù)較多的詞是關(guān)鍵詞,詞頻就代表了這一項(xiàng),然而有些詞是停用詞,例如的,是,有這種大量出現(xiàn)的詞,首先需要進(jìn)行過濾,比如過濾之后再統(tǒng)計(jì)詞頻出現(xiàn)了中國,蜜蜂,養(yǎng)殖且三個(gè)詞的詞頻幾乎一致,但是中國這個(gè)詞出現(xiàn)在其他文章的概率比其他兩個(gè)詞要高不少,因此我們應(yīng)該認(rèn)為后兩個(gè)詞更能表現(xiàn)文章的主題,IDF就代表了這樣的信息,計(jì)算該值需要一個(gè)語料庫,如果一個(gè)詞在語料庫中出現(xiàn)的概率越小,那么該詞的IDF應(yīng)該越大,一般來說TF計(jì)算公式為(某個(gè)詞在文章中出現(xiàn)次數(shù)/文章的總詞數(shù)),這樣消除長文章中詞出現(xiàn)次數(shù)多的影響,IDF計(jì)算公式為log(語料庫文章總數(shù)/(包含該詞的文章數(shù))+1)。將兩者乘乘起來就得到了詞的TF-IDF。傳統(tǒng)的TF-IDF對(duì)詞出現(xiàn)的位置沒有進(jìn)行考慮,可以針對(duì)不同位置賦予不同的權(quán)重進(jìn)行修正,注意這些修正之所以是有效的,正是因?yàn)槿擞^測過了大量的信息,因此建議了一個(gè)先驗(yàn)估計(jì),人將這個(gè)先驗(yàn)估計(jì)融合到了算法里面,所以使算法更加的有效
(22) 文本中的余弦距離是什么,有哪些作用?
余弦距離是兩個(gè)向量的距離的一種度量方式,其值在-1~1之間,如果為1表示兩個(gè)向量同相,0表示兩個(gè)向量正交,-1表示兩個(gè)向量反向。使用TF-IDF和余弦距離可以尋找內(nèi)容相似的文章,例如首先用TF-IDF找出兩篇文章的關(guān)鍵詞,然后每個(gè)文章分別取出k個(gè)關(guān)鍵詞(10-20個(gè)),統(tǒng)計(jì)這些關(guān)鍵詞的詞頻,生成兩篇文章的詞頻向量,然后用余弦距離計(jì)算其相似度。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10