
十分鐘搞定PCA主成分分析
在數(shù)據(jù)建模當(dāng)中我們經(jīng)常會(huì)聽到一個(gè)詞叫做降維,首先咱們先來嘮一嘮數(shù)據(jù)為啥要降維呢?最主要的原因還是在于一方面使得我們需要計(jì)算的量更少啦,想象一下一個(gè)100維的數(shù)據(jù)和一個(gè)10維數(shù)據(jù)計(jì)算的速度肯定是不一樣的,另一方面如果我們的數(shù)據(jù)中有很無關(guān)特征,這些對結(jié)果看起來沒什么促進(jìn)的作用,那我們就干脆把有價(jià)值的拿出來,因?yàn)樗麄儾攀菦Q定模型的關(guān)鍵!
第一個(gè)強(qiáng)調(diào)的關(guān)鍵點(diǎn):PCA是一種無監(jiān)督算法,也就是我們不需要標(biāo)簽也能對數(shù)據(jù)做降維,這就使得其應(yīng)用范圍更加廣泛了。那么PCA的核心思想是什么呢?這里我們提到了方差,咱們可以想象一下,如果一群人都堆疊在一起,我們想?yún)^(qū)分他們是不是比較困難,但是如果這群人站在馬路兩側(cè),我們就可以很清晰的判斷出來應(yīng)該這是兩伙人。所以基于方差我們可以做的就是讓方差來去判斷咱們數(shù)據(jù)的擁擠程度,在這里我們認(rèn)為方差大的應(yīng)該辨識(shí)度更高一些,因?yàn)榉值谋容^開(一條馬路給隔開啦)。但是PCA也有一個(gè)問題,原來的數(shù)據(jù)中比如包括了年齡,性別,身高等指標(biāo)降維后的數(shù)據(jù)既然維度變小了,那么每一維都是什么含義呢?這個(gè)就很難解釋了,所以PCA本質(zhì)來說是無法解釋降維后的數(shù)據(jù)的物理含義,換句話說就是降維完啦計(jì)算機(jī)能更好的認(rèn)識(shí)這些數(shù)據(jù),但是咱們就很難理解了。
在我們深入到PCA原理之前,先來解釋一下什么叫基,把這個(gè)搞清楚之后就好理解了,大家一般所認(rèn)識(shí)的坐標(biāo)系一般都是X,Y軸。
就像我們圖上面的,我說有一個(gè)向量(3,2),但是為什么這個(gè)向量是這樣的表示呢?因?yàn)樗谖覀兊淖鰳?biāo)系中,如果我把坐標(biāo)系換了,它就不是(3,2)了。作為基,首先的一個(gè)前提就是要相互垂直,或者說內(nèi)積為0,因?yàn)閄和Y它們表達(dá)的分別是兩種指標(biāo),我們不希望它們之間內(nèi)部存在任何聯(lián)系,所以必須讓他們內(nèi)積為0,這樣就是各自獨(dú)立的啦!
那么對我們坐標(biāo)來說能否進(jìn)行變換呢?肯定是可以的,比如我現(xiàn)在把(3,2)變換到另外一組基中,它的表達(dá)方式就不一樣啦!這回咱們應(yīng)該發(fā)現(xiàn)了這樣一個(gè)事了吧,所謂的降維就是要把我們的數(shù)據(jù)投影到最合適的基中,那下面我們的目標(biāo)就是尋找最好的基!
咱這之前,還是得先來了解下另外一個(gè)知識(shí)點(diǎn),叫做協(xié)方差,剛才我們已經(jīng)有了目標(biāo)就是尋找一個(gè)基,可以使得我們數(shù)據(jù)投影過去后方差能夠越大越好!這個(gè)是我們的前提,但是只滿足這一點(diǎn)就夠了嘛?還不可以,因?yàn)槲覀冞€需要保證基的前提就是相互垂直,這就可以用協(xié)方差來進(jìn)行表示啦,如果兩個(gè)變量他們之間是相互獨(dú)立的那么它們的協(xié)方差就必定為0,這就是我們的第二點(diǎn)要求啦,數(shù)據(jù)投影到的新基,其各個(gè)維度協(xié)方差都必須為0。(上圖中假定數(shù)據(jù)各個(gè)維度均值為0)
終于到啦要揭開謎底的時(shí)候啦!我們恰好遇到了一個(gè)東西叫做協(xié)方差矩陣,在公式中只需要對數(shù)據(jù)X進(jìn)行變換就可以得到的。觀察一下協(xié)方差矩陣,恰好發(fā)現(xiàn)了這樣一個(gè)事,主對角線不就是我們的方差嘛(假設(shè)均值為0),非對角線上的元素又恰好是協(xié)方差。按照咱們之前的兩點(diǎn)約定,我們只需要讓方差越大越好,并且協(xié)方差等于0不就可以啦嘛!
怎么做上面的那件事呢?這就是我們的目標(biāo)了。讓非對角線全為0這就需要對矩陣進(jìn)行對角化啦,按照我們上面的定理,我們可以完成對角化操作,對我們所得的協(xié)方差矩陣求解其特征值與特征向量不就OK啦嘛。接下來按照特征值的大小進(jìn)行排列,如果你想把數(shù)據(jù)降到3維,那就取前3個(gè)特征值所對應(yīng)的特征向量就可以啦!
全部的過程就在這里啦,其實(shí)只需要得到協(xié)方差矩陣,然后對角化,將得到的特征向量進(jìn)行選擇就得到我們要投影到的基啦!數(shù)據(jù)降維操作就這么愉快的搞定啦!
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03