
PCA在機(jī)器學(xué)習(xí)中很常用,是一種無參數(shù)的數(shù)據(jù)降維方法。PCA步驟:
PCA通過線性變換將原始數(shù)據(jù)變換為一組各維度線性無關(guān)的表示,可用于提取數(shù)據(jù)的主要特征分量,常用于高維數(shù)據(jù)的降維。
我們知道PCA是一種數(shù)據(jù)降維的方法,在降低維度的過程中,我們當(dāng)然想要保留更多的特征,PCA就是經(jīng)過數(shù)學(xué)推導(dǎo),保留最多特征同時(shí)降維的方法。
在推導(dǎo)之前要先知道幾個(gè)基礎(chǔ)知識(shí):
兩個(gè)維數(shù)相同的向量的內(nèi)積被定義為:
假設(shè)A和B是兩個(gè)n維向量,我們知道n維向量可以等價(jià)表示為n維空間中的一條從原點(diǎn)發(fā)射的有向線段,為了簡(jiǎn)單起見我們假設(shè)A和B均為二維向量,則A=(x1,y1),B=(x2,y2)。則在二維平面上A和B可以用兩條發(fā)自原點(diǎn)的有向線段表示,見下圖:
現(xiàn)在我們從A點(diǎn)向B所在直線引一條垂線。我們知道垂線與B的交點(diǎn)叫做A在B上的投影,再設(shè)A與B的夾角是a,則投影的矢量長度為|A|cos(a),其中|A|是向量A的模,也就是A線段的標(biāo)量長度。
到這里還是看不出內(nèi)積和這東西有什么關(guān)系,不過如果我們將內(nèi)積表示為另一種我們熟悉的形式:
現(xiàn)在事情似乎是有點(diǎn)眉目了:A與B的內(nèi)積等于A到B的投影長度乘以B的模。再進(jìn)一步,如果我們假設(shè)B的模為1,即讓|B|=1,那么就變成了:
也就是說,設(shè)向量B的模為1,則A與B的內(nèi)積值等于A向B所在直線投影的矢量長度!這就是內(nèi)積的一種幾何解釋,也是我們得到的第一個(gè)重要結(jié)論。在后面的推導(dǎo)中,將反復(fù)使用這個(gè)結(jié)論。
下面我們繼續(xù)在二維空間內(nèi)討論向量。上文說過,一個(gè)二維向量可以對(duì)應(yīng)二維笛卡爾直角坐標(biāo)系中從原點(diǎn)出發(fā)的一個(gè)有向線段。例如下面這個(gè)向量:
在代數(shù)表示方面,我們經(jīng)常用線段終點(diǎn)的點(diǎn)坐標(biāo)表示向量,例如上面的向量可以表示為(3,2),這是我們?cè)偈煜げ贿^的向量表示。
我們列舉的例子中基是正交的(即內(nèi)積為0,或直觀說相互垂直),但可以成為一組基的唯一要求就是線性無關(guān),非正交的基也是可以的。不過因?yàn)檎换休^好的性質(zhì),所以一般使用的基都是正交的。
一般的,如果我們有M個(gè)N維向量,想將其變換為由R個(gè)N維向量表示的新空間中,那么首先將R個(gè)基按行組成矩陣A,然后將向量按列組成矩陣B,那么兩矩陣的乘積AB就是變換結(jié)果,其中AB的第m列為A中第m列變換后的結(jié)果。(新基按行,向量按列)
特別要注意的是,這里R可以小于N,而R決定了變換后數(shù)據(jù)的維數(shù)。也就是說,我們可以將一N維數(shù)據(jù)變換到更低維度的空間中去,變換后的維度取決于基的數(shù)量。因此這種矩陣相乘的表示也可以表示降維變換。
最后,上述分析同時(shí)給矩陣相乘找到了一種物理解釋:兩個(gè)矩陣相乘的意義是將右邊矩陣中的每一列列向量變換到左邊矩陣中每一行行向量為基所表示的空間中去。更抽象的說,一個(gè)矩陣可以表示一種線性變換。很多同學(xué)在學(xué)線性代數(shù)時(shí)對(duì)矩陣相乘的方法感到奇怪,但是如果明白了矩陣相乘的物理意義,其合理性就一目了然了。
我們從上面的矩陣乘法與基變換可以看出,當(dāng)新基的維數(shù)小于原來的維數(shù)時(shí)可以做到數(shù)據(jù)的降維,但是究竟如何選擇新基就是我們現(xiàn)在面臨的問題,我們想要選擇一個(gè)維數(shù)更小的新基,同時(shí)新基保留有更多的信息。我們知道矩陣向新基投影的形式,也就是PCA是將一組N維的特征投影到K維(K
那么怎么衡量更多的特征,也就是投影后盡量少的重疊,投影值盡可能分散。
從二維到一維的降維,只需要找到一個(gè)一維基使得方差最大,但是三維降到二維呢?我們需要找到兩個(gè)基讓這個(gè)三維數(shù)據(jù)投影到兩個(gè)基上,如果我們找方差最大的兩個(gè)基,會(huì)發(fā)現(xiàn)他們完全一樣或者線性相關(guān),這和一個(gè)基沒什么區(qū)別,不能表達(dá)更多的信息,所以我們需要添加限制條件,我們希望這兩個(gè)基彼此線性無關(guān),擴(kuò)展到K個(gè)基也是一樣。
當(dāng)協(xié)方差為0時(shí),表示兩個(gè)字段完全獨(dú)立。為了讓協(xié)方差為0,我們選擇第二個(gè)基時(shí)只能在與第一個(gè)基正交的方向上選擇。因此最終選擇的兩個(gè)方向一定是正交的。
至此,我們得到了降維問題的優(yōu)化目標(biāo):將一組N維向量降為K維(K大于0,小于N),其目標(biāo)是選擇K個(gè)單位(模為1)正交基,使得原始數(shù)據(jù)變換到這組基上后,各字段兩兩間協(xié)方差為0,而字段的方差則盡可能大(在正交的約束下,取最大的K個(gè)方差)。
在我的文章特征值和特征向量中說過,特征值反映了矩陣對(duì)于特征向量的拉伸程度,只有拉伸而沒有旋轉(zhuǎn),也就是在特征向量方向上的作用程度,所以在PCA中我們選取前K個(gè)特征向量組成新基進(jìn)行投影,就是因?yàn)樵?a href='/map/tezheng/' style='color:#000;font-size:inherit;'>特征在前K個(gè)特征向量有最大的作用程度。
投影過后可以保留更多的信息,作用程度是用特征值表示的,所以我們可以使用下面的式子表示貢獻(xiàn)率,貢獻(xiàn)率是表示投影后信息的保留程度的變量,也就是特征值的總和比上前K個(gè)特征值,一般來說貢獻(xiàn)率要大于85%。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03