99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
2018-10-23 閱讀量: 833
如何解決類別不平衡問題?

有些情況下訓(xùn)練集中的樣本分布很不平衡,例如在腫瘤檢測等問題中,正樣本的個數(shù)往往非常的少。

從線性分類器的角度,在用 y = wx +b 對新樣本進(jìn)行分類的時候,事實上在用預(yù)測出的y值和一個y值進(jìn)行比較,例如常常在y>0.5的時候判為正例,否則判為反例。幾率y/1-y反映了正例可能性和反例可能性的比值,閾值0.5恰好表明分類器認(rèn)為正反的可能性相同。

在樣本不均衡的情況下,應(yīng)該是分類器的預(yù)測幾率高于觀測幾率就判斷為正例,因此應(yīng)該是 y/1-y > m+/m- 時預(yù)測為正例,這種策略稱為rebalancing。但是訓(xùn)練集并不一定是真實樣本總體的無偏采樣,通常有三種做法,一種是對訓(xùn)練集的負(fù)樣本進(jìn)行欠采樣,第二種是對正例進(jìn)行升采樣,第三種是直接基于原始訓(xùn)練集進(jìn)行學(xué)習(xí),在預(yù)測的時候再改變閾值,稱為閾值移動。

注意過采樣一般通過對訓(xùn)練集的正例進(jìn)行插值產(chǎn)生額外的正例,而欠采樣將反例劃分為不同的集合供不同的學(xué)習(xí)器使用。

0.0000
1
關(guān)注作者
收藏
評論(0)

發(fā)表評論

暫無數(shù)據(jù)
推薦帖子