現(xiàn)在知道類不平衡問(wèn)題是什么以及它為什么是一個(gè)問(wèn)題,我們需要知道如何處理這個(gè)問(wèn)題。
我們可以將方法粗略地分為兩大類:基于抽樣的方法和基于成本函數(shù)的方法。
基于成本函數(shù)的方法
基于成本函數(shù)的方法背后的直覺是,如果我們認(rèn)為一個(gè)假陰性比一個(gè)假陽(yáng)性更差,我們將計(jì)算一個(gè)假陰性,例如100個(gè)假陰性。例如,如果1個(gè)假陰性與100個(gè)假陽(yáng)性一樣昂貴,則機(jī)器學(xué)習(xí)算法將嘗試與假陽(yáng)性相比產(chǎn)生更少的假陰性(因?yàn)樗阋耍@纾赟VM的情況下,通用公式為:
其中w是超平面的法向量。并且E [i]是每個(gè)數(shù)據(jù)實(shí)例的錯(cuò)誤,C是成本常數(shù),n是數(shù)據(jù)實(shí)例的數(shù)量。要為假陰性和誤報(bào)分配不同的成本函數(shù),我們可以將公式修改為如下:
其中C +?是陽(yáng)性病例的成本常數(shù),C-是陰性病例的成本常數(shù),n +是陽(yáng)性病例的總數(shù),n-是陰性病例的總數(shù)。如果不深入研究上面的公式,這只是一個(gè)例子,可以指出不同的成本與正面和負(fù)面類別。
基于抽樣的方法
這大致可分為三類:
- 過(guò)采樣,通過(guò)添加更多的少數(shù)類,因此它對(duì)機(jī)器學(xué)習(xí)算法有更大的影響
- 通過(guò)刪除一些大多數(shù)類來(lái)進(jìn)行欠采樣,因此它對(duì)機(jī)器學(xué)習(xí)算法的影響較小
- 混合,過(guò)采樣和欠采樣的混合
然而,這些方法具有明顯的缺點(diǎn),如下所述。
欠抽樣
通過(guò)抽樣,我們可以冒險(xiǎn)刪除一些更具代表性的多數(shù)類實(shí)例,從而丟棄有用的信息。這可以說(shuō)明如下:
這里綠線是我們想要的理想決策邊界,藍(lán)色是實(shí)際結(jié)果。左側(cè)是僅使用通用機(jī)器學(xué)習(xí)算法而不使用欠采樣的結(jié)果。在右邊,我們對(duì)負(fù)面類進(jìn)行了欠采樣,但刪除了一些信息負(fù)面類,并導(dǎo)致藍(lán)色決策邊界傾斜,導(dǎo)致一些負(fù)面類被錯(cuò)誤地歸類為正類。
過(guò)采樣
通過(guò)過(guò)采樣,只是復(fù)制少數(shù)類可能導(dǎo)致分類器過(guò)度擬合幾個(gè)例子,如下所示:
左側(cè)是過(guò)采樣之前,右側(cè)是過(guò)采樣。在右側(cè),厚的正號(hào)表示該數(shù)據(jù)實(shí)例有多個(gè)重復(fù)的副本。然后,機(jī)器學(xué)習(xí)算法多次看到這些情況,因此設(shè)計(jì)為特別地過(guò)度擬合這些示例,導(dǎo)致如上所述的藍(lán)線邊界。
混合方法
通過(guò)結(jié)合欠采樣和過(guò)采樣方法,我們獲得了上述兩種方法的優(yōu)點(diǎn),但也存在缺點(diǎn),這仍然是一種權(quán)衡。








暫無(wú)數(shù)據(jù)