主成分分析(Principal Component Analysis,PCA),主要用于數(shù)據(jù)降維。
首先說一下什么是降維,字面意思就是降低數(shù)據(jù)的維數(shù),而數(shù)據(jù)維數(shù)也可簡(jiǎn)單理解為列的個(gè)數(shù),比如我們有一組數(shù)據(jù)如下:
這就是二維數(shù)據(jù),我們可以通過主成分分析降維成一維數(shù)據(jù)。
現(xiàn)在就讓我們說說是如何把二維降一維的。
可以從散點(diǎn)圖看出兩者完全正相關(guān),因此有一列其實(shí)是多余的,所以我們要進(jìn)行降維:
其中的一列數(shù)據(jù)房?jī)r(jià)。
這種一維數(shù)據(jù)可以直接放在實(shí)數(shù)軸上:
不過數(shù)據(jù)還需要處理下,假設(shè)房?jī)r(jià)樣本用X表示,那么均值為:
然后以均值X-為原點(diǎn),以X-為0,那么上述表格的數(shù)字就需要修改下:
這個(gè)過程稱為“中心化”?!爸行幕碧幚淼脑蚴?,這些數(shù)字后繼會(huì)參與統(tǒng)計(jì)運(yùn)算,比如求樣本方差,中間就包含了Xi -X-,
用“中心化”的數(shù)據(jù)就可以直接算出“房?jī)r(jià)”的樣本方差:
“中心化”之后可以看出數(shù)據(jù)大概可以分為兩類
現(xiàn)在新采集了房屋的面積,可以看出兩者完全正相關(guān),有一列其實(shí)是多余的:
求出房屋樣本、面積樣本的均值,分別對(duì)房屋樣本、面積樣本進(jìn)行“中心化”后得到:
房?jī)r(jià)X,和面積Y的樣本協(xié)方差是這樣的(這里也是用的一致估計(jì)量):
可見“中心化”后的數(shù)據(jù)可以簡(jiǎn)化上面這個(gè)公式,這點(diǎn)后面還會(huì)看到具體應(yīng)用。
把這個(gè)二維數(shù)據(jù)畫在坐標(biāo)軸上,橫縱坐標(biāo)分別為“房?jī)r(jià)”、“面積”,可以看出它們排列為一條直線
如果旋轉(zhuǎn)坐標(biāo)系,讓橫坐標(biāo)和這條直線重合:
旋轉(zhuǎn)后的坐標(biāo)系,橫縱坐標(biāo)不再代表“房?jī)r(jià)”、“面積”了,而是兩者的混合(術(shù)語是線性組合),這里把它們稱作“主元1”、“主元2”,坐標(biāo)值很容易用勾股定理計(jì)算出來,比如a在“主
元1”的坐標(biāo)值為:
很顯然a在“主元2”上的坐標(biāo)為0,把所有的房間換算到新的坐標(biāo)系上:
因?yàn)椤爸髟?”全都為0,完全是多余的,我們只需要“主元1”就夠了,這樣就又把數(shù)據(jù)降為了一維,而且沒有丟失任何信息:
https://www.zhihu.com/question/41120789








暫無數(shù)據(jù)