2018-10-23
閱讀量:
833
如何解決類別不平衡問題?
有些情況下訓(xùn)練集中的樣本分布很不平衡,例如在腫瘤檢測等問題中,正樣本的個數(shù)往往非常的少。
從線性分類器的角度,在用 y = wx +b 對新樣本進(jìn)行分類的時候,事實上在用預(yù)測出的y值和一個y值進(jìn)行比較,例如常常在y>0.5的時候判為正例,否則判為反例。幾率y/1-y反映了正例可能性和反例可能性的比值,閾值0.5恰好表明分類器認(rèn)為正反的可能性相同。
在樣本不均衡的情況下,應(yīng)該是分類器的預(yù)測幾率高于觀測幾率就判斷為正例,因此應(yīng)該是 y/1-y > m+/m- 時預(yù)測為正例,這種策略稱為rebalancing。但是訓(xùn)練集并不一定是真實樣本總體的無偏采樣,通常有三種做法,一種是對訓(xùn)練集的負(fù)樣本進(jìn)行欠采樣,第二種是對正例進(jìn)行升采樣,第三種是直接基于原始訓(xùn)練集進(jìn)行學(xué)習(xí),在預(yù)測的時候再改變閾值,稱為閾值移動。
注意過采樣一般通過對訓(xùn)練集的正例進(jìn)行插值產(chǎn)生額外的正例,而欠采樣將反例劃分為不同的集合供不同的學(xué)習(xí)器使用。






評論(0)


暫無數(shù)據(jù)
推薦帖子
0條評論
0條評論
0條評論
0條評論