99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話：13121318867

登錄

首頁精彩閱讀四大機器學(xué)習(xí)降維算法：PCA、LDA、LLE、Laplacian Eigenmaps

四大機器學(xué)習(xí)降維算法：PCA、LDA、LLE、Laplacian Eigenmaps

2015-04-02

四大機器學(xué)習(xí)降維算法：PCA、LDA、LLE、Laplacian Eigenmaps

引言

機器學(xué)習(xí)領(lǐng)域中所謂的降維就是指采用某種映射方法，將原高維空間中的數(shù)據(jù)點映射到低維度的空間中。降維的本質(zhì)是學(xué)習(xí)一個映射函數(shù) f : x->y，其中x是原始數(shù)據(jù)點的表達(dá)，目前最多使用向量表達(dá)形式。 y是數(shù)據(jù)點映射后的低維向量表達(dá)，通常y的維度小于x的維度（當(dāng)然提高維度也是可以的）。f可能是顯式的或隱式的、線性的或非線性的。

目前大部分降維算法處理向量表達(dá)的數(shù)據(jù)，也有一些降維算法處理高階張量表達(dá)的數(shù)據(jù)。之所以使用降維后的數(shù)據(jù)表示是因為在原始的高維空間中，包含有冗余信息以及噪音信息，在實際應(yīng)用例如圖像識別中造成了誤差，降低了準(zhǔn)確率；而通過降維,我們希望減少冗余信息所造成的誤差,提高識別（或其他應(yīng)用）的精度。又或者希望通過降維算法來尋找數(shù)據(jù)內(nèi)部的本質(zhì)結(jié)構(gòu)特征。

在很多算法中，降維算法成為了數(shù)據(jù)預(yù)處理的一部分，如PCA。事實上，有一些算法如果沒有降維預(yù)處理，其實是很難得到很好的效果的。

主成分分析算法（PCA）

Principal Component Analysis(PCA)是最常用的線性降維方法，它的目標(biāo)是通過某種線性投影，將高維的數(shù)據(jù)映射到低維的空間中表示，并期望在所投影的維度上數(shù)據(jù)的方差最大，以此使用較少的數(shù)據(jù)維度，同時保留住較多的原數(shù)據(jù)點的特性。

通俗的理解，如果把所有的點都映射到一起，那么幾乎所有的信息（如點和點之間的距離關(guān)系）都丟失了，而如果映射后方差盡可能的大，那么數(shù)據(jù)點則會分散開來，以此來保留更多的信息。可以證明，PCA是丟失原始數(shù)據(jù)信息最少的一種線性降維方式。（實際上就是最接近原始數(shù)據(jù)，但是PCA并不試圖去探索數(shù)據(jù)內(nèi)在結(jié)構(gòu)）

設(shè)n維向量w為目標(biāo)子空間的一個坐標(biāo)軸方向（稱為映射向量），最大化數(shù)據(jù)映射后的方差，有：大數(shù)據(jù)

其中m是數(shù)據(jù)實例的個數(shù)， xi是數(shù)據(jù)實例i的向量表達(dá)， x拔是所有數(shù)據(jù)實例的平均向量。定義W為包含所有映射向量為列向量的矩陣，經(jīng)過線性代數(shù)變換，可以得到如下優(yōu)化目標(biāo)函數(shù)：大數(shù)據(jù)

其中tr表示矩陣的跡，大數(shù)據(jù)

A是數(shù)據(jù)協(xié)方差矩陣。

容易得到最優(yōu)的W是由數(shù)據(jù)協(xié)方差矩陣前k個最大的特征值對應(yīng)的特征向量作為列向量構(gòu)成的。這些特征向量形成一組正交基并且最好地保留了數(shù)據(jù)中的信息。

PCA的輸出就是Y = W‘X，由X的原始維度降低到了k維。

PCA追求的是在降維之后能夠最大化保持?jǐn)?shù)據(jù)的內(nèi)在信息，并通過衡量在投影方向上的數(shù)據(jù)方差的大小來衡量該方向的重要性。但是這樣投影以后對數(shù)據(jù)的區(qū)分作用并不大，反而可能使得數(shù)據(jù)點揉雜在一起無法區(qū)分。這也是PCA存在的最大一個問題，這導(dǎo)致使用PCA在很多情況下的分類效果并不好。具體可以看下圖所示，若使用PCA將數(shù)據(jù)點投影至一維空間上時，PCA會選擇2軸，這使得原本很容易區(qū)分的兩簇點被揉雜在一起變得無法區(qū)分；而這時若選擇1軸將會得到很好的區(qū)分結(jié)果。大數(shù)據(jù)

Discriminant Analysis所追求的目標(biāo)與PCA不同，不是希望保持?jǐn)?shù)據(jù)最多的信息，而是希望數(shù)據(jù)在降維后能夠很容易地被區(qū)分開來。后面會介紹LDA的方法，是另一種常見的線性降維方法。另外一些非線性的降維方法利用數(shù)據(jù)點的局部性質(zhì)，也可以做到比較好地區(qū)分結(jié)果，例如LLE，Laplacian Eigenmap等。以后會介紹。

LDA

Linear Discriminant Analysis (也有叫做Fisher Linear Discriminant)是一種有監(jiān)督的（supervised）線性降維算法。與PCA保持?jǐn)?shù)據(jù)信息不同，LDA是為了使得降維后的數(shù)據(jù)點盡可能地容易被區(qū)分！

假設(shè)原始數(shù)據(jù)表示為X，（m*n矩陣，m是維度，n是sample的數(shù)量）

既然是線性的，那么就是希望找到映射向量a，使得 a‘X后的數(shù)據(jù)點能夠保持以下兩種性質(zhì)：

1、同類的數(shù)據(jù)點盡可能的接近（within class）

2、不同類的數(shù)據(jù)點盡可能的分開（between class）

所以呢還是上次PCA用的這張圖，如果圖中兩堆點是兩類的話，那么我們就希望他們能夠投影到軸1去（PCA結(jié)果為軸2），這樣在一維空間中也是很容易區(qū)分的。大數(shù)據(jù)

接下來是推導(dǎo)，因為這里寫公式很不方便，我就引用Deng Cai老師的一個ppt中的一小段圖片了：
大數(shù)據(jù)

思路還是非常清楚的，目標(biāo)函數(shù)就是最后一行J（a)，μ（一飄）就是映射后的中心用來評估類間距，s（一瓢）就是映射后的點與中心的距離之和用來評估類內(nèi)距。J(a)正好就是從上述兩個性質(zhì)演化出來的。

因此兩類情況下：

加上a’a=1的條件（類似于PCA）大數(shù)據(jù)

可以拓展成多類：大數(shù)據(jù)

以上公式推導(dǎo)可以具體參考pattern classification書中的相應(yīng)章節(jié)，講fisher discirminant的

OK，計算映射向量a就是求最大特征向量，也可以是前幾個最大特征向量組成矩陣A=[a1,a2,….ak]之后，就可以對新來的點進(jìn)行降維了：y = A’X（線性的一個好處就是計算方便?。?/span>

可以發(fā)現(xiàn)，LDA最后也是轉(zhuǎn)化成為一個求矩陣特征向量的問題，和PCA很像，事實上很多其他的算法也是歸結(jié)于這一類，一般稱之為譜（spectral）方法。

線性降維算法我想最重要的就是PCA和LDA了，后面還會介紹一些非線性的方法。

局部線性嵌入（LLE）

Locally linear embedding（LLE）是一種非線性降維算法，它能夠使降維后的數(shù)據(jù)較好地保持原有流形結(jié)構(gòu)。LLE可以說是流形學(xué)習(xí)方法最經(jīng)典的工作之一。很多后續(xù)的流形學(xué)習(xí)、降維方法都與LLE有密切聯(lián)系。

見圖1，使用LLE將三維數(shù)據(jù)（b）映射到二維（c）之后，映射后的數(shù)據(jù)仍能保持原有的數(shù)據(jù)流形（紅色的點互相接近，藍(lán)色的也互相接近），說明LLE有效地保持了數(shù)據(jù)原有的流行結(jié)構(gòu)。

但是LLE在有些情況下也并不適用，如果數(shù)據(jù)分布在整個封閉的球面上，LLE則不能將它映射到二維空間，且不能保持原有的數(shù)據(jù)流形。那么我們在處理數(shù)據(jù)中，首先假設(shè)數(shù)據(jù)不是分布在閉合的球面或者橢球面上。大數(shù)據(jù)

圖1 LLE降維算法使用實例

LLE算法認(rèn)為每一個數(shù)據(jù)點都可以由其近鄰點的線性加權(quán)組合構(gòu)造得到。算法的主要步驟分為三步：(1)尋找每個樣本點的k個近鄰點；（2）由每個樣本點的近鄰點計算出該樣本點的局部重建權(quán)值矩陣；（3）由該樣本點的局部重建權(quán)值矩陣和其近鄰點計算出該樣本點的輸出值。具體的算法流程如圖2所示：大數(shù)據(jù)

圖 2 LLE算法步驟大數(shù)據(jù)

Laplacian Eigenmaps 拉普拉斯特征映射

繼續(xù)寫一點經(jīng)典的降維算法，前面介紹了PCA,LDA，LLE，這里講一講Laplacian Eigenmaps。其實不是說每一個算法都比前面的好，而是每一個算法都是從不同角度去看問題，因此解決問題的思路是不一樣的。這些降維算法的思想都很簡單，卻在有些方面很有效。這些方法事實上是后面一些新的算法的思路來源。

Laplacian Eigenmaps[1] 看問題的角度和LLE有些相似，也是用局部的角度去構(gòu)建數(shù)據(jù)之間的關(guān)系。

它的直觀思想是希望相互間有關(guān)系的點（在圖中相連的點）在降維后的空間中盡可能的靠近。Laplacian Eigenmaps可以反映出數(shù)據(jù)內(nèi)在的流形結(jié)構(gòu)。大數(shù)據(jù)

使用時算法具體步驟為：

步驟1：構(gòu)建圖

使用某一種方法來將所有的點構(gòu)建成一個圖，例如使用KNN算法，將每個點最近的K個點連上邊。K是一個預(yù)先設(shè)定的值。

步驟2：確定權(quán)重

確定點與點之間的權(quán)重大小，例如選用熱核函數(shù)來確定，如果點i和點j相連，那么它們關(guān)系的權(quán)重設(shè)定為：大數(shù)據(jù)

使用最小的m個非零特征值對應(yīng)的特征向量作為降維后的結(jié)果輸出。

前面提到過，Laplacian Eigenmap具有區(qū)分?jǐn)?shù)據(jù)點的特性，可以從下面的例子看出：大數(shù)據(jù)

見圖1所示，左邊的圖表示有兩類數(shù)據(jù)點（數(shù)據(jù)是圖片），中間圖表示采用Laplacian Eigenmap降維后每個數(shù)據(jù)點在二維空間中的位置，右邊的圖表示采用PCA并取前兩個主要方向投影后的結(jié)果，可以清楚地看到，在此分類問題上，Laplacian Eigenmap的結(jié)果明顯優(yōu)于PCA。大數(shù)據(jù)

圖2 roll數(shù)據(jù)的降維

圖2說明的是，高維數(shù)據(jù)（圖中3D）也有可能是具有低維的內(nèi)在屬性的（圖中roll實際上是2D的），但是這個低維不是原來坐標(biāo)表示，例如如果要保持局部關(guān)系，藍(lán)色和下面黃色是完全不相關(guān)的，但是如果只用任何2D或者3D的距離來描述都是不準(zhǔn)確的。

下面三個圖是Laplacian Eigenmap在不同參數(shù)下的展開結(jié)果（降維到2D），可以看到，似乎是要把整個帶子拉平了。于是藍(lán)色和黃色差的比較遠(yuǎn)。

CDA數(shù)據(jù)分析師考試相關(guān)入口一覽（建議收藏）：

? 想報名CDA認(rèn)證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學(xué)習(xí)CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

降維 PCA 大數(shù)據(jù) 特征特征向量機器學(xué)習(xí) KNN 有監(jiān)督

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇圖論在大數(shù)據(jù)分析中的作用！

下一篇CDA認(rèn)證再升一檔！與國家共同推進(jìn)大數(shù)據(jù)人才培養(yǎng)標(biāo)準(zhǔn)教育事業(yè)！

CDA報考指南

報考流程
考試時間
報名費用
聯(lián)系我們

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

京公網(wǎng)安備 11010802034615號經(jīng)營許可證編號：京B2-20210330

聯(lián)系電話：13321103290 (微信同號)

CDA教材
CDA題庫
CDA大綱

客服在線

立即咨詢

客服在線

立即咨詢

<center id="ovknz"></center>

免密碼登錄

提交首次登錄驗證后自動注冊

') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1：配置參數(shù) // 參數(shù)2：回調(diào)，回調(diào)的第一個參數(shù)驗證碼對象，之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須，不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務(wù)器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式，包括：float，popup width: "280px", https: true // 更多配置參數(shù)說明請參見：http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'！'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'！'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

四大機器學(xué)習(xí)降維算法：PCA、LDA、LLE、Laplacian Eigenmaps

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

【CDA干貨】LSTM 模型輸入長度選擇技巧：提升序列建 ...

CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南 ...

【CDA干貨】數(shù)據(jù)透視表中兩列相乘合計的實用指南 ...

CDA 認(rèn)證考試大綱 2025 重磅更新：一二級考綱變化匯 ...

BI 大數(shù)據(jù)分析師：連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者 ...

SQL 在預(yù)測分析中的應(yīng)用：從數(shù)據(jù)查詢到趨勢預(yù)判 ...

數(shù)據(jù)查詢結(jié)束后：分析師的收尾工作與價值深化 ...

CDA 數(shù)據(jù)分析師考試：從報考到取證的全攻略 ...

【CDA干貨】單樣本趨勢性檢驗：捕捉數(shù)據(jù)背后的時間 ...

year_month數(shù)據(jù)類型：時間維度的精準(zhǔn)切片 ...

CDA 備考干貨：Python 在數(shù)據(jù)分析中的核心應(yīng)用與實 ...

【CDA干貨】SPSS 中的 Mann-Kendall 檢驗：數(shù)據(jù)趨勢 ...

備戰(zhàn) CDA 數(shù)據(jù)分析師考試：需要多久？如何規(guī)劃？ ...

【CDA干貨】LSTM 輸出不確定的成因、影響與應(yīng)對策略 ...

統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用 ...

CDA數(shù)據(jù)分析師證書考試全攻略

剖析 CDA 數(shù)據(jù)分析師考試題型：解鎖高效備考與答題 ...

【CDA干貨】SQL Server 字符串截取轉(zhuǎn)日期：解鎖數(shù)據(jù) ...

CDA 數(shù)據(jù)分析師視角：從數(shù)據(jù)迷霧中探尋商業(yè)真相 ...

CDA 數(shù)據(jù)分析師：開啟數(shù)據(jù)職業(yè)發(fā)展新征程 ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

四大機器學(xué)習(xí)降維算法：PCA、LDA、LLE、Laplacian Eigenmaps

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

【CDA干貨】LSTM 模型輸入長度選擇技巧：提升序列建 ...

CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南 ...

【CDA干貨】數(shù)據(jù)透視表中兩列相乘合計的實用指南 ...

CDA 認(rèn)證考試大綱 2025 重磅更新：一二級考綱變化匯 ...

BI 大數(shù)據(jù)分析師：連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者 ...

SQL 在預(yù)測分析中的應(yīng)用：從數(shù)據(jù)查詢到趨勢預(yù)判 ...

數(shù)據(jù)查詢結(jié)束后：分析師的收尾工作與價值深化 ...

CDA 數(shù)據(jù)分析師考試：從報考到取證的全攻略 ...

【CDA干貨】單樣本趨勢性檢驗：捕捉數(shù)據(jù)背后的時間 ...

year_month數(shù)據(jù)類型：時間維度的精準(zhǔn)切片 ...

CDA 備考干貨：Python 在數(shù)據(jù)分析中的核心應(yīng)用與實 ...

【CDA干貨】SPSS 中的 Mann-Kendall 檢驗：數(shù)據(jù)趨勢 ...

備戰(zhàn) CDA 數(shù)據(jù)分析師考試：需要多久？如何規(guī)劃？ ...

【CDA干貨】LSTM 輸出不確定的成因、影響與應(yīng)對策略 ...

統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用 ...

CDA數(shù)據(jù)分析師證書考試全攻略

剖析 CDA 數(shù)據(jù)分析師考試題型：解鎖高效備考與答題 ...

【CDA干貨】SQL Server 字符串截取轉(zhuǎn)日期：解鎖數(shù)據(jù) ...

CDA 數(shù)據(jù)分析師視角：從數(shù)據(jù)迷霧中探尋商業(yè)真相 ...

CDA 數(shù)據(jù)分析師：開啟數(shù)據(jù)職業(yè)發(fā)展新征程 ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

四大機器學(xué)習(xí)降維算法：PCA、LDA、LLE、Laplacian Eigenmaps

備戰(zhàn) CDA 數(shù)據(jù)分析師考試：需要多久？如何規(guī)劃？ ...

【CDA干貨】LSTM 輸出不確定的成因、影響與應(yīng)對策略 ...