99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀數(shù)據(jù)挖掘中常用的基本降維思路及方法總結(jié)
數(shù)據(jù)挖掘中常用的基本降維思路及方法總結(jié)
2021-06-29
收藏

來源:數(shù)據(jù)STUDIO

作者:云朵君


01、降維的意義

  • 降低無效、錯誤數(shù)據(jù)對建模的影響,提高建模的準(zhǔn)確性。
  • 少量切具有代表性的數(shù)據(jù)將大幅縮減挖掘所需的時間。
  • 降低存儲數(shù)據(jù)的成本。

02、需要降維的情況

大多數(shù)情況下,面臨高維數(shù)據(jù),就要降維處理

  • 維度數(shù)量。降維基本前提是高維。
  • 建模輸出是否必須保留原始維度。如果需要最終建模輸出是能夠分析、解釋和應(yīng)用,則只能通過特征篩選或聚類等方式降維。
  • 對模型對計算效率和建模時效性有要求。
  • 是否需要保留完整的數(shù)據(jù)特征。

03、基于特征選擇的降維

根據(jù)一定的規(guī)則和經(jīng)驗,直接選取原有維度的一部分參與后續(xù)的計算和建模過程,用選擇的維度代替所有維度。優(yōu)勢是既能滿足后續(xù)數(shù)據(jù)處理和建模要求,又能保留維度原本的業(yè)務(wù)含義,以便業(yè)務(wù)理解和應(yīng)用。

四種思路

經(jīng)驗法: 根據(jù)業(yè)務(wù)專家或數(shù)據(jù)專家的以往經(jīng)驗、實際數(shù)據(jù)情況、業(yè)務(wù)理解程度等進行綜合考慮。

測算法: 通過不斷測試多種維度選擇參與計算,通過結(jié)果來反復(fù)驗證和調(diào)整,并最終找到最佳特征方案。

基于統(tǒng)計分析方法: 通過相關(guān)分析不同維度間的線性關(guān)系,在相關(guān)性高的維度中進行人工去除或篩選

  • 方差過濾:classs sklearn.feature_selection.VarianceThreshold(threshold=0.0) .fit_transform(X,y)
  • 卡方過濾:原假設(shè)是相互獨立 SelectKBest(chi2,k).fit_transform(X,y)
  • F檢驗:原假設(shè)是不存在顯著的線性關(guān)系 SelectKBest(f_classif,k).fit_transform(X,y)
  • 通過計算不同維度間的互信息,找到具有較高互信息特征集,然后去除或留下其中一個。SelectKBest(model,k).fit_transform(X,y) 其中 model=multual_info_classif 或 multual_info_regression

機器學(xué)習(xí)算法: 通過機器學(xué)習(xí)算法得到不同特征特征值或權(quán)重,選擇權(quán)重較大的特征。

  • 嵌入法:精確度模型本身,是過濾法的進階版。
    sklearn.feature_selection.SelectFromModel(sklearn.ensemble.RandomForestClassifier(),threshold=0.01).fit_transfrom(X,y)
  • 包裝法:
    sklearn.feature_selection.RFE(sklearn.SVM.SVC(),k).fit_transfrom(X,y)

04、基于特征轉(zhuǎn)換的降維

按照一定的數(shù)學(xué)變換方法,把給定的一組相關(guān)變量(特征)通過數(shù)學(xué)模型將高維空間數(shù)據(jù)點映射到低維空間中,然后用映射后到變量的特征來表示原有變量的總體特征。這種方式是一種產(chǎn)生新維度的過程,轉(zhuǎn)換后的維度并非原有的維度本體,而是其綜合多個維度轉(zhuǎn)換或映射后的表達(dá)式。

PCA(主成分分析)

PCA (Principal Component Analysis) sklearn.decomposition.PCA(n_components=None,whiten=False)

from sklearn.decomposition import PCA
pca=PCA().fit()
pca.components_ # 返回模型各個特征向量 pca.explained_variance_ratio_ # 返回各自成分的方差百分比 
<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數(shù)據(jù)挖掘</a>中常用的基本<a href='/map/jiangwei/' style='color:#000;font-size:inherit;'>降維</a>思路及方法總結(jié)

圖片來源網(wǎng)絡(luò)

按照一定的數(shù)學(xué)變換方法,把給定的一組相關(guān)變量(特征)通過線性變換轉(zhuǎn)換成另一組不相關(guān)的變量,這些新變量按照方差依次遞減的順序排列。方法越大,包含的信息越多。無監(jiān)督式學(xué)習(xí),從特征的協(xié)方差角度,去選擇樣本點投影具有最大方差方向)n維可用。

二維轉(zhuǎn)一維舉例

<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數(shù)據(jù)挖掘</a>中常用的基本<a href='/map/jiangwei/' style='color:#000;font-size:inherit;'>降維</a>思路及方法總結(jié)

所謂主成分:選出比原始變量個數(shù)少、能夠解釋數(shù)據(jù)中大部分的變量的幾個新變量,來替換原始變量進行建模。

PCA是將數(shù)據(jù)投影到方差最大的幾個相互正交的方向上,以期待保留最多的樣本信息。

PCA算法

1,將原始數(shù)據(jù)按列組成 行 列矩陣
2,將 的每一行(代表一個屬性字段) 進行標(biāo)準(zhǔn)化處理。
3,求出相關(guān)系數(shù)矩陣
4,求出 的特征值 及對應(yīng)的特征向量
5,將特征向量按對應(yīng)特征值大小從上到下按行排列成矩陣,取前 行組成矩陣
6,

,

LDA(線性判別分析

LDA (Linear Discriminant Analysis)

通過已知類別的“訓(xùn)練樣本”,來建立判別準(zhǔn)則,并通過預(yù)測變量來為已知數(shù)據(jù)進行分類。有監(jiān)督式學(xué)習(xí),考慮分類標(biāo)簽信息,投影后選擇分類性能最好的方向) C-1維(分類標(biāo)簽數(shù)-1)

基本思想是將高維數(shù)據(jù)的模式樣本投影到最佳鑒別矢量空間,已到達(dá)抽取分類信息和壓縮特征空間維度的效果。投影后保證模式樣本在新子空間的類空間距離和最小的類距離,集模式在該空間中有最佳可分離性。

使樣本盡可能好分的投影方向,就是要使投影后使得同類樣本盡可能近,不同類樣本盡可能遠(yuǎn)。

<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數(shù)據(jù)挖掘</a>中常用的基本<a href='/map/jiangwei/' style='color:#000;font-size:inherit;'>降維</a>思路及方法總結(jié)

圖片來源網(wǎng)絡(luò)

05、基于特征組合的降維

將輸入特征與目標(biāo)預(yù)測變量做擬合的過程,它將輸入特征經(jīng)過運算,并得出能對目標(biāo)變量作出很好解釋(預(yù)測性)對復(fù)合特征,這些特征不是原有對單一特征,而是經(jīng)過組合和變換后的新特征

優(yōu)點: 提高模型準(zhǔn)確率、降低噪聲干擾(魯棒性更強)、增加了對目標(biāo)變量的解釋性。

方法:

  • 基于單一特征離散化后的組合。 現(xiàn)將連續(xù)性特征離散化后組合成新的特征。RFM模型
  • 基于單一特征的運算后的組合。 對于單一列基于不同條件下獲得的數(shù)據(jù)記錄做求和、均值等獲得新特征
  • 基于多個特征的運算后的組合。 將多個單一特征做復(fù)合計算(包括加減乘除對數(shù)等),(一般基于數(shù)值型特征)獲得新特征。
  • 基于模型等特征最優(yōu)組合。 基于輸入特征與目標(biāo)變量,在特定的優(yōu)化函數(shù)的前提下做模型迭代計算,以到達(dá)模型最優(yōu)的解。如多項式的特征組合、基于GBDT的特征組合。

GBDT

sklearn.ensemble.GradientBoostingClassifier(
        ).fit(X,y).apply(X)[:,:,0] 

apply()返回的是
[n_samples,n_estimators, n_classes]

多項式

sklearn.preprocessing. PolynomialFeatures.fit_transform(X,y ).get_feature_names()

Ok,今天的分享就到這里啦!

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務(wù)器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }