2021-03-13
閱讀量:
679
數(shù)據(jù)降維特征選擇和主成分分析PCA介紹
數(shù)據(jù)維度:特征數(shù)量
特征選擇和主成分分析使用:
特征選擇 特征較少時(shí)使用
主成分分析 特征有上百個(gè)
1、特征選擇
主要方法:
Filter 過濾式 (方差variance)
Embedded 嵌入式(正則化,決策時(shí))
Wrapper 包裹式
神經(jīng)網(wǎng)絡(luò)
代碼示例
from sklearn.feature_selection import VarianceThreshold # 特征選擇-刪除低方差的特征 data = [ [0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3] ] var = VarianceThreshold(threshold=0.0) result = var.fit_transform(data) print(result) """ [[2 0] [1 4] [1 1]] """
2、主成分分析PCA
PCA(principal Component Analysis)
二維表示一個(gè)立體物體
特征選擇的原因
冗余:部分特征的相關(guān)度高,容易消耗計(jì)算資源
噪聲:部分特征對(duì)預(yù)測(cè)結(jié)果有影響
本質(zhì):一種分析,簡化數(shù)據(jù)集的技術(shù)
目的:使數(shù)據(jù)維數(shù)壓縮,竟可能降低元數(shù)據(jù)的維數(shù)(復(fù)雜度),損失少量信息
作用:可以削減回歸分析或者聚類分析中特征的數(shù)量
場(chǎng)景:特征數(shù)量達(dá)到上百的時(shí)候,考慮數(shù)據(jù)簡化
代碼示例
from sklearn.decomposition import PCA data = [ [2, 8, 4, 5], [6, 3, 0, 8], [5, 4, 9, 1] ] # n_components取小數(shù):保留百分比,取整數(shù):保留特征個(gè)數(shù) pca = PCA(n_components=0.9) result = pca.fit_transform(data) print(result) """ [[-3.13587302e-16 3.82970843e+00] [-5.74456265e+00 -1.91485422e+00] [ 5.74456265e+00 -1.91485422e+00]] """






評(píng)論(0)


暫無數(shù)據(jù)
CDA考試動(dòng)態(tài)
CDA報(bào)考指南
推薦帖子
0條評(píng)論
0條評(píng)論
0條評(píng)論
0條評(píng)論