1、對數(shù)變換 即將原始數(shù)據(jù)X的對數(shù)值作為新的分布數(shù)據(jù):
X’=lgX
當原始數(shù)據(jù)中有小值及零時,亦可取X’=lg(X+1)
還可根據(jù)需要選用X’=lg(X+k)或X’=lg(k-X)
對數(shù)變換常用于(1)使服從對數(shù)正態(tài)分布的數(shù)據(jù)正態(tài)化。如環(huán)境中某些污染物的分布,人體中某些微量元素的分布等,可用對數(shù)正態(tài)分布改善其正態(tài)性。(2)使數(shù)據(jù)達到方差齊性,特別是各樣本的標準差與均數(shù)成比例或變異系數(shù)CV接近于一個常數(shù)時。
2、平方根變換 即將原始數(shù)據(jù)X的平方根作為新的分布數(shù)據(jù)。
X’=sqrt(X)
平方根變換常用于:1)使服從Poission分布的計數(shù)資料或輕度偏態(tài)資料正態(tài)化,可用平方根變換使其正態(tài)化。2)當各樣本的方差與均數(shù)呈正相關時,可使資料達到方差齊性。
3、倒數(shù)變換 即將原始數(shù)據(jù)X的倒數(shù)作為新的分析數(shù)據(jù)。
X’=1/X
常用于資料兩端波動較大的資料,可使極端值的影響減小。
4、平方根反正旋變換 即將原始數(shù)據(jù)X的平方根反正玄值做為新的分析數(shù)據(jù)。
X’=sin-1sqrt(X)
常用于服從二項分布的率或百分比的資料。一般認為等總體率較小如<30%時或較大(如>70%時),偏離正態(tài)較為明顯,通過樣本率的平方根反正玄變換,可使資料接近正態(tài)分布,達到方差齊性的要求。
5. 計量經(jīng)濟學中常用的BOX-COX變換
6、等頻歸一化
通過對訓練數(shù)據(jù)的分析,我們發(fā)現(xiàn)不同維度特征的取值分布、相同維度下特征值的差異都很大。例如距離、價格等特征的數(shù)據(jù)服從長尾分布,體現(xiàn)為大部分樣本的特征值都比較小,存在少量樣本的特征值非常大。常規(guī)的歸一化方法(例如
min-max,
z-score)都只是對數(shù)據(jù)的分布進行平移和拉伸,最后特征的分布仍然是長尾分布,這就導致大部分樣本的特征值都集中在非常小的取值范圍內(nèi),使得樣本特征的區(qū)分度減??;與此同時,少量的大值特征可能造成訓練時的波動,減緩收斂速度。此外也可以對特征值做對數(shù)轉(zhuǎn)化,但由于不同維度間特征的分布不同,這種特征值處理的方式并不一定適用于其他維度的特征。在實踐中,我們參考了Google的Wide
& Deep
Model[^6]中對于連續(xù)特征的處理方式,根據(jù)特征值在累計分布函數(shù)中的位置進行歸一化。即將特征進行等頻分桶,保證每個桶里的樣本量基本相等,假設總共分了n個桶,而特征x
屬于其中的第b (b ∈ {0, …, n - 1})個桶,則特征x 最終會歸一化成 b
/n。這種方法保證對于不同分布的特征都可以映射到近似均勻分布,從而保證樣本間特征的區(qū)分度和數(shù)值的穩(wěn)定性。








暫無數(shù)據(jù)