為什么要去量綱?
進(jìn)行變量重要性排序(選擇對因變量影響最大的自變量)或特征篩選(用于提供后續(xù)模型精度等)時(shí),不同的變量單位不同,因此數(shù)值差異極大。例如1cm和1kg等。
什么是去量綱?
數(shù)據(jù)分析的本質(zhì)是數(shù)值,去量綱就是去除掉單位對數(shù)值的影響。使得所有的變量都在同等的水平上,才能“公平”的參與后續(xù)處理。
常見的去量綱化方法:
注:!此處去除掉網(wǎng)上將z-score方法成為標(biāo)準(zhǔn)化,將min-max稱為歸一化等叫法。直接用名稱可以除去翻譯的語義導(dǎo)致的誤解,也能去除被必要的區(qū)分。
(1)初值化:使用序列數(shù)據(jù)中的初始值作為除數(shù),消除不同變量之間的量級或單位差異。其結(jié)果由樣本初始值決定,可以消除不同變量間大量級的差異,處理后數(shù)據(jù)接近1左右。方便簡單,但是隨機(jī)性較高。
(2)均值化:每個(gè)變量除以該變量的均值。可以去除量綱差異,相除后接近1左右。
(3)min-max變換:通過線性變換去除量綱影響。映射結(jié)果在[0,1]之間,但容易受到異常值的影響。
好處1:對于原始變異值不大的數(shù)據(jù),用該方法可以放大差異。
如:1.70 1.71 1.72 1.73,min-max處理后為0,0.33.0.67,1。
好處2:可以維持稀疏矩陣中的0.
(4)極差最大值變換:也依賴于最小值和最大值。
(5)Z-score變換:zero mean normalization:減去均值,除以標(biāo)準(zhǔn)差。
處理后的數(shù)據(jù)均值為0,方差接近1,分布接近正態(tài)分布。
好處:該方法更適用于涉及到距離關(guān)系的應(yīng)用中,通過該處理后,對數(shù)據(jù)由于量綱引起的差異去除的更為徹底,因此對于精確的變量差異,如距離計(jì)算中,使用該方法更好,例如:相似度,PCA,聚類分析等。 而min-max相當(dāng)于保存了原始數(shù)據(jù)標(biāo)準(zhǔn)差所能代表的潛在權(quán)重關(guān)系。
總結(jié):
具體用啥看情況決定。例如在灰色關(guān)聯(lián)度分析中用均值化,PCA用z-score。
后續(xù)自己各種處理中用什么會回來填坑。 作者:大專廠妹の奮斗生活 https://www.bilibili.com/read/cv17032876/ 出處:bilibili








暫無數(shù)據(jù)