2022-09-15
閱讀量:
795
python中過(guò)采樣處理數(shù)據(jù)不平衡問(wèn)題
什么是過(guò)采樣:
目的:處理數(shù)據(jù)不平衡問(wèn)題。
方法:當(dāng)數(shù)據(jù)不平衡的時(shí),比如樣本標(biāo)簽1有10000個(gè)數(shù)據(jù),樣本標(biāo)簽0有100個(gè)數(shù)據(jù),這時(shí)如果采用下采樣會(huì)浪費(fèi)很多樣本,
所以引入過(guò)采樣,過(guò)采樣是根據(jù)樣本標(biāo)簽少的樣本的規(guī)律去生成更多該標(biāo)簽樣本,這樣使得數(shù)據(jù)趨向于平衡。
典型的過(guò)采樣方式是SMOTE等.
關(guān)于SMOTE具體算法:
1.對(duì)于少數(shù)類(lèi)中每一個(gè)樣本x,以歐氏距離為標(biāo)準(zhǔn)計(jì)算它到少數(shù)類(lèi)樣本集Smin中所有樣本的距離,得到其k近鄰。
2.根據(jù)樣本不平衡比例設(shè)置一個(gè)采樣比例以確定采樣倍率N,對(duì)于每一個(gè)少數(shù)類(lèi)樣本x,從其k近鄰中隨機(jī)選擇若干個(gè)樣本,假設(shè)選擇的近鄰為xn。
3.對(duì)于每一個(gè)隨機(jī)選出的近鄰xn,分別與原樣本按照如下的公式構(gòu)建新的樣本 。






評(píng)論(0)


暫無(wú)數(shù)據(jù)
CDA考試動(dòng)態(tài)
CDA報(bào)考指南
推薦帖子
0條評(píng)論
0條評(píng)論
0條評(píng)論
0條評(píng)論