99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
2020-06-13 閱讀量: 2182
通俗易懂地講解什么是 PCA 主成分分析?

主成分分析(Principal Component Analysis,PCA),主要用于數(shù)據(jù)降維。

首先說一下什么是降維,字面意思就是降低數(shù)據(jù)的維數(shù),而數(shù)據(jù)維數(shù)也可簡(jiǎn)單理解為列的個(gè)數(shù),比如我們有一組數(shù)據(jù)如下:


這就是二維數(shù)據(jù),我們可以通過主成分分析降維成一維數(shù)據(jù)。

現(xiàn)在就讓我們說說是如何把二維降一維的。

可以從散點(diǎn)圖看出兩者完全正相關(guān),因此有一列其實(shí)是多余的,所以我們要進(jìn)行降維:


其中的一列數(shù)據(jù)房?jī)r(jià)。

這種一維數(shù)據(jù)可以直接放在實(shí)數(shù)軸上:





不過數(shù)據(jù)還需要處理下,假設(shè)房?jī)r(jià)樣本用X表示,那么均值為:


然后以均值X-為原點(diǎn),以X-為0,那么上述表格的數(shù)字就需要修改下:


這個(gè)過程稱為“中心化”?!爸行幕碧幚淼脑蚴?,這些數(shù)字后繼會(huì)參與統(tǒng)計(jì)運(yùn)算,比如求樣本方差,中間就包含了Xi -X-




用“中心化”的數(shù)據(jù)就可以直接算出“房?jī)r(jià)”的樣本方差:



“中心化”之后可以看出數(shù)據(jù)大概可以分為兩類



現(xiàn)在新采集了房屋的面積,可以看出兩者完全正相關(guān),有一列其實(shí)是多余的:


求出房屋樣本、面積樣本的均值,分別對(duì)房屋樣本、面積樣本進(jìn)行“中心化”后得到:


房?jī)r(jià)X,和面積Y的樣本協(xié)方差是這樣的(這里也是用的一致估計(jì)量):



可見“中心化”后的數(shù)據(jù)可以簡(jiǎn)化上面這個(gè)公式,這點(diǎn)后面還會(huì)看到具體應(yīng)用。

把這個(gè)二維數(shù)據(jù)畫在坐標(biāo)軸上,橫縱坐標(biāo)分別為“房?jī)r(jià)”、“面積”,可以看出它們排列為一條直線



如果旋轉(zhuǎn)坐標(biāo)系,讓橫坐標(biāo)和這條直線重合:




旋轉(zhuǎn)后的坐標(biāo)系,橫縱坐標(biāo)不再代表“房?jī)r(jià)”、“面積”了,而是兩者的混合(術(shù)語是線性組合),這里把它們稱作“主元1”、“主元2”,坐標(biāo)值很容易用勾股定理計(jì)算出來,比如a在“主

元1”的坐標(biāo)值為:



很顯然a在“主元2”上的坐標(biāo)為0,把所有的房間換算到新的坐標(biāo)系上:


因?yàn)椤爸髟?”全都為0,完全是多余的,我們只需要“主元1”就夠了,這樣就又把數(shù)據(jù)降為了一維,而且沒有丟失任何信息:











https://www.zhihu.com/question/41120789



0.2064
0
關(guān)注作者
收藏
評(píng)論(0)

發(fā)表評(píng)論

暫無數(shù)據(jù)
推薦帖子