99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
2018-10-18 閱讀量: 1605
有哪些分類算法?

1. 樸素貝葉斯模型

最簡單的監(jiān)督學(xué)習(xí)分類器,這個分類器模型是建立在每一個類別的特征向量服從正態(tài)分布的基礎(chǔ)上的(據(jù)說不滿足獨立分布,效果也很好),因此也被稱為概率分類器。整個分布函數(shù)被假設(shè)為一個高斯分布,每一類別一組系數(shù)。當(dāng)給定了訓(xùn)練數(shù)據(jù),算法將會估計每一個類別的向量均值和方差矩陣,然后根據(jù)這些進行預(yù)測。

特點:如果沒有很多數(shù)據(jù),該模型會比很多復(fù)雜的模型獲得更好的性能,因為復(fù)雜的模型用了太多假設(shè),以致產(chǎn)生欠擬合。

2.K近鄰

這個算法首先貯藏所有的訓(xùn)練樣本,然后通過分析(包括選舉,計算加權(quán)和等方式)一個新樣本周圍K個最近鄰,然后把新樣本標(biāo)記為在K近鄰點中頻率最高的類。

這種方法有時候被稱作“基于樣本的學(xué)習(xí)”,即為了預(yù)測,我們對于給定的輸入搜索最近的已知其相應(yīng)的特征向量。

特點:簡單有效,但因為需要存儲所有的訓(xùn)練集,占用很大內(nèi)存,速度比較慢。使用該方法前通常訓(xùn)練集先聚類來降低數(shù)據(jù)大小。

3. 支持向量機

SVM是一種基于核函數(shù)的方法,它通過某些核函數(shù)把特征向量映射到高維空間(一般情況下高維空間上比低維空間上更加線性可分),然后建立一個線性判別函數(shù)(或者說是一個高維空間中的能夠區(qū)分訓(xùn)練數(shù)據(jù)的最優(yōu)超平面)。最優(yōu)解在某種意義上是兩類中距離分割面最近的特征向量和分割面的距離最大化。離分割面最近的特征向量被稱為”支持向量”,意即其它向量不影響分割面(決策函數(shù))。

注:

特點:當(dāng)數(shù)據(jù)集合比較小的時候,支持向量機的效果常常最好。對于核來說,不僅僅只存在于?SVM 內(nèi),對于任意的算法,只要計算時出現(xiàn)了內(nèi)積的,都可以用核函數(shù)替代,從而提高在高維數(shù)據(jù)上的性能。

4. 決策樹

決策樹是一個二叉樹。當(dāng)每個葉節(jié)點用類別標(biāo)識(多個葉子可能有相同的標(biāo)識)時,它可以表示分類樹;當(dāng)每個葉節(jié)點被分配了一個常量(所以回歸函數(shù)是分段常量)時,決策樹就成了回歸樹。決策樹是從根結(jié)點遞歸構(gòu)造的。用所有的訓(xùn)練數(shù)據(jù)(特征向量和對應(yīng)的響應(yīng))來在根結(jié)點處進行分裂。在每個結(jié)點處,優(yōu)化準(zhǔn)則(比如最優(yōu)分裂)是基于一些基本原則來確定的(比如ML中的“純度purity”原則被用來進行分類,方差之和用來進行回歸)。所有的數(shù)據(jù)根據(jù)初始和替代分裂點來劃分給左右子結(jié)點(就像在預(yù)測算法里做的一樣)。然后算法回歸的繼續(xù)分裂左右子結(jié)點。在以下情況下算法可能會在某個結(jié)點停止:

a) 樹的深度達(dá)到了指定的最大值

b) 在該結(jié)點訓(xùn)練樣本的數(shù)目少于指定值,比如,沒有統(tǒng)計意義上的集合來進一步進行結(jié)點分裂了。

c) 在該結(jié)點所有的樣本屬于同一類(或者,如果是回歸的話,變化已經(jīng)非常小了)

d) 跟隨機選擇相比,能選擇到的最好的分裂已經(jīng)基本沒有什么有意義的改進了。

決策樹自身的優(yōu)點:

a) 計算簡單,易于理解;

b) 適應(yīng)不同的數(shù)據(jù)類型(包括類別數(shù)據(jù),數(shù)值數(shù)據(jù),未歸一化的和混合的數(shù)據(jù));

c) 比較適合處理有缺失屬性的樣本;

d) 通過分裂的順序給數(shù)據(jù)特征賦不同的重要性;

e) 能夠處理不相關(guān)的特征;

f) 在相對短的時間內(nèi)能夠?qū)Υ笮蛿?shù)據(jù)源做出可行且結(jié)果良好的結(jié)果;

g) 決策樹構(gòu)成了其他算法的基礎(chǔ)(如boosting和隨機數(shù))。

決策樹的缺點:

a) 容易發(fā)生過擬合(隨即森林可以很大程度上減少過擬合);

b) 忽略了數(shù)據(jù)之間的相關(guān)性;

c) 對于那些,各類別樣本數(shù)量不一致的數(shù)據(jù),在決策樹中,信息增益的結(jié)果偏向于那些具有更多數(shù)值的特征(只要使用了信息增益,都有這個特點,如RF)

5. Boosting

Boosting 是個非常強大的學(xué)習(xí)方法, 它也是一個監(jiān)督的分類學(xué)習(xí)方法。它組合許多“弱”分類器來產(chǎn)生一個強大的分類器組。一個弱分類器的性能只是比隨機選擇好一點,因此它可以被設(shè)計的非常簡單并且不會有太大的計算花費。將很多弱分類器結(jié)合起來組成一個集成的強分類器。boosting分類器和隨機森林在內(nèi)部使用了決策樹,所以繼承了決策樹的很多有用的性質(zhì)(能夠處理混合數(shù)據(jù)模型、沒有歸一化的數(shù)據(jù)、特征丟失)。

AdaBoost算法如下:

1. 給定N樣本?(xi,yi) 其中

2. 初始化權(quán)值

3. 重復(fù)?for m = 1,2,…,M:

a) 根據(jù)每個訓(xùn)練數(shù)據(jù)的wi計算。

b) 計算

c) 更新權(quán)值并歸一化使?Σiwi= 1.

4. 輸出分類器

特點:簡單,不容易發(fā)生過擬合,不用做特征篩選。Boosting算法是一個兩類分類器(不像決策樹和隨機森林)

6. 隨機森林

隨機森林既可以解決回歸問題,也可以解決分類問題。隨機森林可以通過收集很多樹的子節(jié)點對各個類別投票,然后選擇獲得最多投票的類別作為判斷結(jié)果。通過計算”森林“的所有子節(jié)點的值的平均值來解決回歸問題。

隨機森林建立時的基本子系統(tǒng)也是決策樹。在建立決策樹時會一直繼續(xù)下去直到數(shù)據(jù)純凈。因此,盡管每個樹都很好的學(xué)習(xí)了訓(xùn)練數(shù)據(jù),但各個樹之間仍有很大不同。我們把這些樹放到一起求平均以消除這些不同(因此叫隨機森林)。當(dāng)然,如果所有的樹都相同,隨機森林也沒有很大作用。為了克服這點,隨機森林通過在樹的建立過程中,隨機選擇特征子集來使各個樹不同。例如,一個目標(biāo)識別樹可以有很多可能的特征:顏色,質(zhì)地,傾斜度等。樹的每個節(jié)點可以從這些特征中隨機的選擇子集,來決定怎樣更好地分裂數(shù)據(jù)。每個后來的節(jié)點都獲得新的、隨機選擇的特征子集。

特點:與boosting和決策樹相比,隨機森林可以使用更少的重要變量,獲得最好的預(yù)測性能。即我們可以收縮特征集的大小,在不損失性能的前提下減少計算量和內(nèi)存使用隨機森林。

7. 神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)是對非線性可分?jǐn)?shù)據(jù)的分類方法。與輸入直接相連的稱為隱藏層( hidden layer),與輸出直接相連的稱為輸出層(output layer)。

特點:不知道隱藏層計算的東西的意義;有比較多的局部最優(yōu)值,可以通過多次隨機設(shè)定初始值然后運行梯度下降算法獲得最優(yōu)值。

0.0000
3
關(guān)注作者
收藏
評論(0)

發(fā)表評論

暫無數(shù)據(jù)
推薦帖子