99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

<optgroup id="c6xu4"></optgroup>

熱線電話：13121318867

登錄

zzz778290113

2020-08-07 閱讀量: 1520

特征篩選及PAC

特征篩選：

當特征非常多的時候，可能存在冗余，特征越多，可能噪音越多，同時特征越多，模型效率越低，可以考慮進行特征篩選來去掉無效的信息，看看是否可以提高模型的準確度。既可以提升模型的泛化能力，也能夠減少模型運行的時間
特征篩選的方法，在對測試集進行篩選的時候，使用的是通過訓練集訓練之后的模型進行篩選
在特征篩選的方法中，以下方法一到四的效果（單變量特征篩選方法）不如方法五和方法六的效果好
方法一：方差過濾，單變量特征篩選方法

一般來說方差大，所包含的信息量也大
首先計算出每個特征的方差，如果方差小于0.05，就刪掉，反之保留
from sklearn.feature_selection import VarianceThreshold：通過這個包進行方差過濾
使用參數threshold，進行方差的閾值設置
樹模型中可能不會用到全部的特征值，可能只會用到部分特征值，所以樹模型構建的時間比較快
get_support，是一個函數，可以查看到原數據集中刪除掉的特征值是哪些，返回的是True和False的數組
variances_，記錄的是每個特征的方差

相關性過濾方法，有可能三個方法都需要去試一下，或者將三個方法串聯起來使用。三個方法的結果可能是差異不大，如果差異很大的話那么就需要使用Embedded或者Wrapper這兩種方法
方法二：相關性過濾之卡方檢驗，單變量特征篩選方法

查看每個特征和標簽之間的相關性，如果沒有相關則刪除
卡方檢驗檢驗的就是特征是否與標簽之間獨立，獨立的特征刪掉
如果模型的解釋性要求沒有那么高，可以使用卡方檢驗來篩選特征，也可以使用互信息過濾

方法三：相關性過濾之F檢驗，檢驗特征和標簽之前是否有線性關系

方差為0的特征不能進行F檢驗
如果需要構建可解釋模型，可以使用線性回歸、邏輯回歸等，這個時候可以使用F檢驗來進行相關的特征選取，也可以使用互信息過濾來進行特征選擇

方法四：相關性過濾之互信息過濾，檢驗特征和標簽之前是否有非線性關系

這種方法找了很多種非線性關系，所以很耗時

方法五：Embedded嵌入法

通過模型擬合出來的效果，feature_importance特征重要性來進行特征的篩選
可以通過參數threshold來進行閾值的設置
這個方法的缺點是threshold參數的值沒有明確的標準進行設置，除非使用學習曲線或者網格搜索
這個模型只跑了一遍，而不一樣的數據集在模型中的表現可能不一樣，可能導致嵌入法選擇的特征是有偏的

方法六：包裝法

使用遞歸的形式來找到最優(yōu)的特征，例如使用遞歸特征消除法
這個方法耗時很長，但是效果很好
每次刪掉一部分最不重要的特征，導入模型進行下一次的迭代，此時重新生成特征重要性，再刪除最不重要的一部分特征，直到特征數量為我們自己設置的數量為止。這個過程中，特征重要性的計算也會原來越準確
這個方法中需要設置保留特征值的個數，只能通過業(yè)務來確認或者通過學習曲線來確認
ranking_中可以看到每個特征的重要性，ranking_越小，特征越重要，否則越不重要

所有特征篩選中的方法，都可以使用get_support來查看選中的是哪些特征
特征選擇的方法即是刪除掉部分特征，這個方法比較危險，會刪除特征，也會刪除特征間的相關性
樹模型算法傾向卡方過濾(決策樹，隨機森林)；使用線性回歸類的算法傾向F檢驗(線性回歸，邏輯回歸， SVM)；這些方法都沒有RFE好

降維算法：

PCA，手動實現該算法之前首先要進行去中心化，方便后面的計算
計算原來矩陣協(xié)方差矩陣（原矩陣去中心化后（減去均值）得到的矩陣的轉置乘以去中心化后的矩陣）的特征值和特征向量，用特征向量中的值分別乘以原矩陣的列向量，則構造出新的特征
新構造出的特征兩兩獨立，新特征的方差正好是對應的特征值
1. PCA使用線性代數的方法，對數據集的空間進行了變化
2. 計算協(xié)方差矩陣，了解到，非對角線上是非0 ，如果直接刪某一個特征的，會一并將非對角線上的值刪除
3. 同PCA的方法，計算方差矩陣的特征向量，使用特征向量對空間進行變化。換一句話來說，使用原來所有P個老的特征，借助特征向量通過線性組合，得到P個新特征
4. 新的P個特征的特點，每一個新特征都是由所有老的特征通過線性組合的得到了。并且所有的新的特征兩兩獨立！
5. 新的空間下，PCA保證得到的新特征兩兩獨立，這樣的話，就可以輕松無憂無慮來進行方差過濾了
PCA的實現過程

為什么新的特征的方差為方差矩陣的特征向量
協(xié)方差矩陣長這樣
PCA的缺點：不能解釋，每一個新的特征都是由原來所有的老特征通過線性組合得到，每一個特征都不可以解釋，且PCA只能針對連續(xù)型的變量
pca模型中可以通過極大似然方法，讓模型自己選擇最好的個數

32.2423

4

1

關注作者

收藏

評論(0)

發(fā)表評論

暫無數據

CDA考試動態(tài)

CDA報考指南

推薦帖子