
如上篇kd樹blog所述相關(guān)系數(shù) ( Correlation coefficient )的定義是:
(其中,E為數(shù)學(xué)期望或均值,D為方差,D開根號為標(biāo)準(zhǔn)差,E{ [X-E(X)] [Y-E(Y)]}稱為隨機變量X與Y的協(xié)方差,記為Cov(X,Y),即Cov(X,Y) = E{ [X-E(X)] [Y-E(Y)]},而兩個變量之間的協(xié)方差和標(biāo)準(zhǔn)差的商則稱為隨機變量X與Y的相關(guān)系數(shù),記為)
相關(guān)系數(shù)衡量隨機變量X與Y相關(guān)程度的一種方法,相關(guān)系數(shù)的取值范圍是[-1,1]。相關(guān)系數(shù)的絕對值越大,則表明X與Y相關(guān)度越高。當(dāng)X與Y線性相關(guān)時,相關(guān)系數(shù)取值為1(正線性相關(guān))或-1(負(fù)線性相關(guān))。
具體的,如果有兩個變量:X、Y,最終計算出的相關(guān)系數(shù)的含義可以有如下理解:
協(xié)方差矩陣
由上,我們已經(jīng)知道:協(xié)方差是衡量兩個隨機變量的相關(guān)程度。且隨機變量 之間的協(xié)方差可以表示為
故根據(jù)已知的樣本值可以得到協(xié)方差的估計值如下:
可以進一步地簡化為:
如此,便引出了所謂的協(xié)方差矩陣:
主成成分分析
盡管從上面看來,協(xié)方差矩陣貌似很簡單,可它卻是很多領(lǐng)域里的非常有力的工具。它能導(dǎo)出一個變換矩陣,這個矩陣能使數(shù)據(jù)完全去相關(guān)(decorrelation)。從不同的角度看,也就是說能夠找出一組最佳的基以緊湊的方式來表達(dá)數(shù)據(jù)。這個方法在統(tǒng)計學(xué)中被稱為主成分分析(principal components analysis,簡稱PCA),在圖像處理中稱為Karhunen-Loève 變換(KL-變換)。
根據(jù)wikipedia上的介紹,主成分分析PCA由卡爾·皮爾遜于1901年發(fā)明,用于分析數(shù)據(jù)及建立數(shù)理模型。其方法主要是通過對協(xié)方差矩陣進行特征分解,以得出數(shù)據(jù)的主成分(即特征矢量)與它們的權(quán)值(即特征值)。PCA是最簡單的以特征量分析多元統(tǒng)計分布的方法。其結(jié)果可以理解為對原數(shù)據(jù)中的方差做出解釋:哪一個方向上的數(shù)據(jù)值對方差的影響最大。
然為何要使得變換后的數(shù)據(jù)有著最大的方差呢?我們知道,方差的大小描述的是一個變量的信息量,我們在講一個東西的穩(wěn)定性的時候,往往說要減小方差,如果一個模型的方差很大,那就說明模型不穩(wěn)定了。但是對于我們用于機器學(xué)習(xí)的數(shù)據(jù)(主要是訓(xùn)練數(shù)據(jù)),方差大才有意義,不然輸入的數(shù)據(jù)都是同一個點,那方差就為0了,這樣輸入的多個數(shù)據(jù)就等同于一個數(shù)據(jù)了。
簡而言之,主成分分析PCA,留下主成分,剔除噪音,是一種降維方法,限高斯分布,n維眏射到k維,再換言之,PCA提供了一種降低數(shù)據(jù)維度的有效辦法;如果分析者在原數(shù)據(jù)中除掉最小的特征值所對應(yīng)的成分,那么所得的低維度數(shù)據(jù)必定是最優(yōu)化的(也即,這樣降低維度必定是失去訊息最少的方法)。主成分分析在分析復(fù)雜數(shù)據(jù)時尤為有用,比如人臉識別。
此外,據(jù)wikipedia上的介紹,包括上面介紹的棣莫弗-拉普拉斯定理在內(nèi),歷史上前后發(fā)展了三個相關(guān)的中心極限定理,它們得出的結(jié)論及內(nèi)容分別是:
其內(nèi)容為:若是n次伯努利實驗中事件A出現(xiàn)的次數(shù),
,則對任意有限區(qū)間
:
(i)當(dāng)及
時,一致地有
(ii)當(dāng)
時,一致地有
,
![]()
,其中
。
其內(nèi)容為:設(shè)隨機變量獨立同分布, 且具有有限的數(shù)學(xué)期望和方差
,
。
記,
,則
,
其中
是標(biāo)準(zhǔn)正態(tài)分布的分布函數(shù)。
其內(nèi)容為:記隨機變量序列(
獨立但不一定同分布,
且有有限方差)部分和為
![]()
記![]()
,
![]()
如果對每個,序列滿足
則稱它滿足林德伯格(Lindeberg)條件。
滿足此條件的序列趨向于正態(tài)分布,即![]()
與之相關(guān)的是李雅普諾夫(Lyapunov)條件:
滿足李雅普諾夫條件的序列必滿足林德伯格條件。
它表明,滿足一定條件時,獨立,但不同分布的隨機變量序列的標(biāo)準(zhǔn)化和依然以標(biāo)準(zhǔn)正態(tài)分布為極限。
如上所述,中心極限定理的歷史可大致概括為:
如今,中心極限定理被認(rèn)為是(非正式地)概率論中的首席定理。本文來自:http://www.3lll3.cn/
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03