2022-09-15
閱讀量:
754
python中過采樣處理數(shù)據不平衡問題
什么是過采樣:
目的:處理數(shù)據不平衡問題。
方法:當數(shù)據不平衡的時,比如樣本標簽1有10000個數(shù)據,樣本標簽0有100個數(shù)據,這時如果采用下采樣會浪費很多樣本,
所以引入過采樣,過采樣是根據樣本標簽少的樣本的規(guī)律去生成更多該標簽樣本,這樣使得數(shù)據趨向于平衡。
典型的過采樣方式是SMOTE等.
關于SMOTE具體算法:
1.對于少數(shù)類中每一個樣本x,以歐氏距離為標準計算它到少數(shù)類樣本集Smin中所有樣本的距離,得到其k近鄰。
2.根據樣本不平衡比例設置一個采樣比例以確定采樣倍率N,對于每一個少數(shù)類樣本x,從其k近鄰中隨機選擇若干個樣本,假設選擇的近鄰為xn。
3.對于每一個隨機選出的近鄰xn,分別與原樣本按照如下的公式構建新的樣本 。






評論(0)


暫無數(shù)據
推薦帖子
0條評論
0條評論
0條評論