99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
2019-06-24 閱讀量: 1082
降維方法?

降維方法?

答:

缺失值比率 (Missing Values Ratio)該方法的是基于包含太多缺失值的數(shù)據(jù)列包含有用信息的可能性較少。因此,可以將數(shù)據(jù)列缺失值大于某個閾值的列去掉。閾值越高,降維方法更為積極,即降維越少。

低方差濾波 (Low Variance Filter)與上個方法相似,該方法假設數(shù)據(jù)列變化非常小的列包含的信息量少。因此,所有的數(shù)據(jù)列方差小的列被移除。需要注意的一點是:方差與數(shù)據(jù)范圍相關的,因此在采用該方法前需要對數(shù)據(jù)做歸一化處理。

高相關濾波 (High Correlation Filter)高相關濾波認為當兩列數(shù)據(jù)變化趨勢相似時,它們包含的信息也顯示。這樣,使用相似列中的一列就可以滿足機器學習模型。對于數(shù)值列之間的相似性通過計算相關系數(shù)來表示,對于名詞類列的相關系數(shù)可以通過計算皮爾遜卡方值來表示。相關系數(shù)大于某個閾值的兩列只保留一列。同樣要注意的是:相關系數(shù)對范圍敏感,所以在計算之前也需要對數(shù)據(jù)進行歸一化處理。

隨機森林/組合樹(Random Forests)組合決策樹通常又被稱為隨機森林,它在進行特征選擇與構建有效的分類器時非常有用。一種常用的降維方法是對目標屬性產(chǎn)生許多巨大的樹,然后根據(jù)對每個屬性的統(tǒng)計結果找到信息量最大的特征子集。Eg,如果我們能能夠對一個非常巨大的數(shù)據(jù)集生成非常層次非常淺的樹,每棵樹只訓練一小部分屬性。如果一個屬性經(jīng)常成為最佳分裂屬性,那么它很有可能是需要保留的信息特征。對隨機森林數(shù)據(jù)屬性的統(tǒng)計評分會向我們揭示與其它屬性相比,哪個屬性才是預測能力最好的屬性。

主成分分析(PCA)通過正交變換將原始的n維數(shù)據(jù)集變換到一個新的唄稱作主成分的數(shù)據(jù)集中。變換后的結果中,第一個主成分具有最大的方差值,每個后續(xù)的成分在與前述主成分正交條件限制下與具有最大方差。降維時僅保存前m個主成分即可保持最大的數(shù)據(jù)信息量。需要注意的是主成分變換對正交向量的尺度敏感。數(shù)據(jù)在變換前需要進行歸一化處理。同樣也需要注意的是,新的主成分并不是由實際系統(tǒng)產(chǎn)生的,因此在進行PCA變換后會喪失數(shù)據(jù)的解釋性。

反向特征消除,所有分類算法先用n個特征進行訓練。每次降維操作,采用n-1個特征對分類器訓練n次,得到新的n個分類器。將新分類器中錯分率變化最小的分類器所用的n-1維特征作為降維后的特征集。不斷的對該過程進行迭代,即得到降維后的結果。第k次迭代過程中得到的是n-k維特征分類器。通過選擇最大的錯誤容忍率,我們可以得到在選擇分類器上打到指定分類性能最小需要多少個特征。

降維本質:提取數(shù)據(jù)中有用的信息,用最少的數(shù)據(jù)得到最有用的結果

0.0000
3
關注作者
收藏
評論(0)

發(fā)表評論

暫無數(shù)據(jù)
推薦帖子