99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
2018-11-23 閱讀量: 813
處理非均衡問(wèn)題的數(shù)據(jù)抽樣方法

另外一種針對(duì)非均衡問(wèn)題調(diào)節(jié)分類器的方法,就是對(duì)分類器的訓(xùn)練數(shù)據(jù)進(jìn)行改造。這可以通

過(guò)欠抽樣(undersampling)或者過(guò)抽樣(oversampling)來(lái)實(shí)現(xiàn)。過(guò)抽樣意味著復(fù)制樣例,而欠

抽樣意味著刪除樣例。不管采用哪種方式,數(shù)據(jù)都會(huì)從原始形式改造為新形式。抽樣過(guò)程則可以

通過(guò)隨機(jī)方式或者某個(gè)預(yù)定方式來(lái)實(shí)現(xiàn)。

通常也會(huì)存在某個(gè)罕見(jiàn)的類別需要我們來(lái)識(shí)別,比如在信用卡欺詐當(dāng)中。如前所述,正例類

別屬于罕見(jiàn)類別。我們希望對(duì)于這種罕見(jiàn)類別能盡可能保留更多的信息,因此,我們應(yīng)該保留正

例類別中的所有樣例,而對(duì)反例類別進(jìn)行欠抽樣或者樣例刪除處理。這種方法的一個(gè)缺點(diǎn)就在于

要確定哪些樣例需要進(jìn)行剔除。但是,在選擇剔除的樣例中可能攜帶了剩余樣例中并不包含的有

價(jià)值信息。

上述問(wèn)題的一種解決辦法,就是選擇那些離決策邊界較遠(yuǎn)的樣例進(jìn)行刪除。假定我們有一個(gè)

數(shù)據(jù)集,其中有50例信用卡欺詐交易和5000例合法交易。如果我們想要對(duì)合法交易樣例進(jìn)行欠抽

樣處理,使得這兩類數(shù)據(jù)比較均衡的話,那么我們就需要去掉4950個(gè)樣例,而這些樣例中可能包

含很多有價(jià)值的信息。這看上去有些極端,因此有一種替代的策略就是使用反例類別的欠抽樣和

正例類別的過(guò)抽樣相混合的方法。

要對(duì)正例類別進(jìn)行過(guò)抽樣,我們可以復(fù)制已有樣例或者加入與已有樣例相似的點(diǎn)。一種方法

是加入已有數(shù)據(jù)點(diǎn)的插值點(diǎn),但是這種做法可能會(huì)導(dǎo)致過(guò)擬合的問(wèn)題。

0.0000
4
關(guān)注作者
收藏
評(píng)論(0)

發(fā)表評(píng)論

暫無(wú)數(shù)據(jù)
推薦帖子