2018-10-23
閱讀量:
877
如何解決類別不平衡問(wèn)題?
有些情況下訓(xùn)練集中的樣本分布很不平衡,例如在腫瘤檢測(cè)等問(wèn)題中,正樣本的個(gè)數(shù)往往非常的少。
從線性分類器的角度,在用 y = wx +b 對(duì)新樣本進(jìn)行分類的時(shí)候,事實(shí)上在用預(yù)測(cè)出的y值和一個(gè)y值進(jìn)行比較,例如常常在y>0.5的時(shí)候判為正例,否則判為反例。幾率y/1-y反映了正例可能性和反例可能性的比值,閾值0.5恰好表明分類器認(rèn)為正反的可能性相同。
在樣本不均衡的情況下,應(yīng)該是分類器的預(yù)測(cè)幾率高于觀測(cè)幾率就判斷為正例,因此應(yīng)該是 y/1-y > m+/m- 時(shí)預(yù)測(cè)為正例,這種策略稱為rebalancing。但是訓(xùn)練集并不一定是真實(shí)樣本總體的無(wú)偏采樣,通常有三種做法,一種是對(duì)訓(xùn)練集的負(fù)樣本進(jìn)行欠采樣,第二種是對(duì)正例進(jìn)行升采樣,第三種是直接基于原始訓(xùn)練集進(jìn)行學(xué)習(xí),在預(yù)測(cè)的時(shí)候再改變閾值,稱為閾值移動(dòng)。
注意過(guò)采樣一般通過(guò)對(duì)訓(xùn)練集的正例進(jìn)行插值產(chǎn)生額外的正例,而欠采樣將反例劃分為不同的集合供不同的學(xué)習(xí)器使用。






評(píng)論(0)


暫無(wú)數(shù)據(jù)
CDA考試動(dòng)態(tài)
CDA報(bào)考指南
推薦帖子
0條評(píng)論
0條評(píng)論
0條評(píng)論
0條評(píng)論