99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
2018-10-23 閱讀量: 877
如何解決類別不平衡問(wèn)題?

有些情況下訓(xùn)練集中的樣本分布很不平衡,例如在腫瘤檢測(cè)等問(wèn)題中,正樣本的個(gè)數(shù)往往非常的少。

從線性分類器的角度,在用 y = wx +b 對(duì)新樣本進(jìn)行分類的時(shí)候,事實(shí)上在用預(yù)測(cè)出的y值和一個(gè)y值進(jìn)行比較,例如常常在y>0.5的時(shí)候判為正例,否則判為反例。幾率y/1-y反映了正例可能性和反例可能性的比值,閾值0.5恰好表明分類器認(rèn)為正反的可能性相同。

在樣本不均衡的情況下,應(yīng)該是分類器的預(yù)測(cè)幾率高于觀測(cè)幾率就判斷為正例,因此應(yīng)該是 y/1-y > m+/m- 時(shí)預(yù)測(cè)為正例,這種策略稱為rebalancing。但是訓(xùn)練集并不一定是真實(shí)樣本總體的無(wú)偏采樣,通常有三種做法,一種是對(duì)訓(xùn)練集的負(fù)樣本進(jìn)行欠采樣,第二種是對(duì)正例進(jìn)行升采樣,第三種是直接基于原始訓(xùn)練集進(jìn)行學(xué)習(xí),在預(yù)測(cè)的時(shí)候再改變閾值,稱為閾值移動(dòng)。

注意過(guò)采樣一般通過(guò)對(duì)訓(xùn)練集的正例進(jìn)行插值產(chǎn)生額外的正例,而欠采樣將反例劃分為不同的集合供不同的學(xué)習(xí)器使用。

0.0000
1
關(guān)注作者
收藏
評(píng)論(0)

發(fā)表評(píng)論

暫無(wú)數(shù)據(jù)
推薦帖子