
在翻譯sklearn文檔 2.無監(jiān)督學習 部分過程中,發(fā)現(xiàn)協(xié)方差矩陣幾乎貫穿整個章節(jié),但sklearn指導手冊把協(xié)方差部分放在了這一章節(jié)偏后的部分,作為機器學習一個基礎概念,在這篇文章中,想把協(xié)方差矩陣的相關(guān)知識以及主要應用。
統(tǒng)計學中常用平均值,方差,標準差等描述數(shù)據(jù)。平均值描述了樣本集合的中間點;方差總是一個非負數(shù),當隨機變量的可能值集中在數(shù)學期望的附近時,方差較小; 反之, 則方差較大。所以, 由方差的大小可以推斷隨機變量分布的分散程度, 方差能反映隨機變量的一切可能值在數(shù)學期望周圍的分散程度。標準差描述了各個樣本點到均值的距離的平均值。但這些統(tǒng)計量都是針對一維數(shù)據(jù)的計算,在處理高維數(shù)據(jù)時,便可以采用協(xié)方差來查看數(shù)據(jù)集中的一些規(guī)律。協(xié)方差來度量兩個隨機變量關(guān)系的統(tǒng)計量,它描述的意義是:如果結(jié)果為正值,則說明兩者是正相關(guān)的,否則是負相關(guān)的。需要注意的是,協(xié)方差是計算不同特征之間的統(tǒng)計量,不是不同樣本之間的統(tǒng)計量。
協(xié)方差公式:
設n個隨機向量:
從公式上看,協(xié)方差是兩個變量與自身期望做差再相乘, 然后對乘積取期望。也就是說,當其中一個變量的取值大于自身期望,另一個變量的取值也大于自身期望時,即兩個變量的變化趨勢相同, 此時,兩個變量之間的協(xié)方差取正值。反之,即其中一個變量大于自身期望時,另外一個變量小于自身期望,那么這兩個變量之間的協(xié)方差取負值。下面根據(jù)舉一個例子來對協(xié)方差形象的解釋:
協(xié)方差矩陣是實對稱矩陣,實對稱矩陣的性質(zhì):
協(xié)方差矩陣中的對角線元素表示方差, 非對角線元素表示隨機向量 X 的不同分量之 問的協(xié)方差. 協(xié)方差一定程度上體現(xiàn)了相關(guān)性, 因而可作為刻畫不同分 量之間相關(guān)性的一個評判量。若不同分量之問的相關(guān)性越小,則 非對角線元素的值就越小。特別地, 若不同分量彼此不相關(guān), 那么 C 就變成了一個對角陣。注意, 我們并不能得到協(xié)方差矩陣 $C(X)$ 的真實值, 只能根據(jù)所提供的 X 的樣本數(shù)據(jù)對其進行近似估計。因此, 這樣計算得到的協(xié)方差矩陣是依賴于樣本數(shù)據(jù)的, 通常提供的樣本數(shù)目越多 , 樣本在總體中的覆蓋面就越廣。
理解協(xié)方差矩陣的關(guān)鍵就在于牢記它計算的是不同維度之間的協(xié)方差,而不是不同樣本之間,拿到一個樣本矩陣,我們最先要明確的就是一行是一個樣本還是一個維度,心中明確這個整個計算過程就會順流而下,這么一來就不會迷茫了。其實還有一個更簡單的容易記還不容易出錯的方法:協(xié)方差矩陣一定是一個對稱的方陣,
有時候由于種種原因,并不使用全部的樣本數(shù)據(jù)計算協(xié)方差矩陣,而是利用部分樣本數(shù)據(jù)計算,這時候就要考慮利用部分樣本計算得到的協(xié)方差矩陣是否和真實的協(xié)方差矩陣相同或者近似。
當提供的樣本數(shù)目相對于特征數(shù)足夠多時,利用最大似然估計(或者稱為經(jīng)驗協(xié)方差)計算的結(jié)果,可以認為是協(xié)方差矩陣的幾個近似結(jié)果。這種情況下,會假設數(shù)據(jù)的分布符合一個多元正太分布,數(shù)據(jù)的概率密度函數(shù)中是包含協(xié)方差矩陣的,利用最大似然函數(shù),對其進行估計。
在矩陣的求逆過程中, 最大似然估計不是協(xié)方差矩陣的特征值的一個很好的估計, 所以從反演得到的精度矩陣是不準確的。 有時,甚至出現(xiàn)因矩陣元素地特性,經(jīng)驗協(xié)方差矩陣不能求逆。 為了避免這樣的反演問題,引入了經(jīng)驗協(xié)方差矩陣的一種變換方式,收縮協(xié)方差。
PCA的本質(zhì)其實就是對角化協(xié)方差矩陣。PCA的目的就是“降噪”和“去冗余”?!敖翟搿钡哪康木褪鞘贡A粝聛淼木S度間的相關(guān)性盡可能小,而“去冗余”的目的就是使保留下來的維度含有的“能量”即方差盡可能大。那首先的首先,我們得需要知道各維度間的相關(guān)性以及個維度上的方差??!那有什么數(shù)據(jù)結(jié)構(gòu)能同時表現(xiàn)不同維度間的相關(guān)性以及各個維度上的方差呢?自然是非協(xié)方差矩陣莫屬。協(xié)方差矩陣度量的是維度與維度之間的關(guān)系,而非樣本與樣本之間。協(xié)方差矩陣的主對角線上的元素是各個維度上的方差(即能量),其他元素是兩兩維度間的協(xié)方差(即相關(guān)性)。我們需要的東西,協(xié)方差矩陣都有了。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03