
主成分分析法及其在SPSS中的操作
一、主成分分析基本原理
概念:主成分分析是把原來多個變量劃為少數(shù)幾個綜合指標的一種統(tǒng)計分析方法。從數(shù)學角度來看,這是一種降維處理技術。
思路:一個研究對象,往往是多要素的復雜系統(tǒng)。變量太多無疑會增加分析問題的難度和復雜性,利用原變量之間的相關關系,用較少的新變量代替原來較多的變量,并使這些少數(shù)變量盡可能多的保留原來較多的變量所反應的信息,這樣問題就簡單化了。
原理:假定有n個樣本,每個樣本共有p個變量,構成一個n×p階的數(shù)據(jù)矩陣,
?x11?x21?X??????xn1x12x22?xn2???x1p??x2p????xnp??
記原變量指標為x1,x2,?,xp,設它們降維處理后的綜合指標,即新變量為 z1,z2,z3,? ,zm(m≤p),則
系數(shù)lij的確定原則:
①zi與zj(i≠j;i,j=1,2,?,m)相互無關;
②z1是x1,x2,?,xP的一切線性組合中方差最大者,z2是與z1不相關的x1,x2,?,xP的所有線性組合中方差最大者; zm是與z1,z2,??,zm-1都不相關的x1,x2,?xP , 的所有線性組合中方差最大者。
新變量指標z1,z2,?,zm分別稱為原變量指標x1,x2,?,xP的第1,第2,?,第m主成分。
從以上的分析可以看出,主成分分析的實質(zhì)就是確定原來變量xj(j=1,2 ,?, p)在諸主成分zi(i=1,2,?,m)上的荷載 lij( i=1,2,?,m; j=1,2 ,?,p)。 ?z1?l11x1?l12x2???l1pxp??z2?l21x1?l22x2???l2pxp?............??z?lx?lx???lxm11m22mpp?m
從數(shù)學上可以證明,它們分別是相關矩陣m個較大的特征值所對應的特征向量。
二、主成分分析的計算步驟 1、計算相關系數(shù)矩陣
?r11
?r21?R??????rp1
r12r22?rp2
???
r1p?
?r2p
????rpp??
rij(i,j=1,2,?,p)為原變量xi與xj的相關系數(shù), rij=rji,其計算公式為
n
rij?
n
?(x
k?1
ki
?i)(xkj?j)
n2
?(x
k?1
ki
?i)
?(x
k?1
kj
?j)
2
I? R ?0 ,常用雅可比法(Jacobi)求出特征值,并使其按大解特征方程 ?
?1??2????p?0; 小順序排列
p
2
ei(i?1,2,L,p)?i的特征向量 ei
分別求出對應于特征值 ,即? eij?1
j?1
eij表示向量 ei的第j個分量。 其中
3、計算主成分貢獻率及累計貢獻率
貢獻率:
?i
p
(i?1,2,L,p)
k
i
??
k?1
??
累計貢獻率:
k?1
p
k
(i?1,2,L,p)
k
??
k?1
?1,?2,L,?m所對應的第1、第一般取累計貢獻率達85%-95%的特征值,
2、?、第m(m≤p)個主成分。 4、計算主成分載荷
lij?p(zi,xj)?
?ieij(i,j?1,2,L,p)
5、各主成分得分
?z11?z21?Z?????zn1z12z22?zn2???z1m??z2m????znm?
三、主成分分析法在SPSS中的操作
1、指標數(shù)據(jù)選取、收集與錄入(表1)
2、Analyze →Data Reduction →Factor Analysis,彈出Factor Analysis 對話框:
3、把指標數(shù)據(jù)選入Variables 框,Descriptives: Correlation Matrix 框組中選中Coefficients,然后點擊Continue, 返回Factor Analysis 對話框,單擊OK。
注意:SPSS 在調(diào)用Factor Analyze 過程進行分析時, SPSS 會自動對原始數(shù)據(jù)進行標
準化處理, 所以在得到計算結果后的變量都是指經(jīng)過標準化處理后的變量, 但SPSS 并不直接給出標準化后的數(shù)據(jù), 如需要得到標準化數(shù)據(jù), 則需調(diào)用Descriptives 過程進行計算。
從表3 可知GDP 與工業(yè)增加值, 第三產(chǎn)業(yè)增加值、固定資產(chǎn)投資、基本建設投資、社會消費品零售總額、地方財政收入這幾個指標存在著極其顯著的關系, 與海關出口總額存在著顯著關系??梢娫S多變量之間直接的相關性比較強, 證明他們存在信息上的重疊。
主成分個數(shù)提取原則為主成分對應的特征值大于1的前m個主成分。特征值在某種程度上可以被看成是表示主成分影響力度大小的指標, 如果特征值小于1, 說明該主成分的解釋力度還不如直接引入一個原變量的平均解釋力度大, 因此一般可以用特征值大于1作為納入標準。通過表4( 方差分解主成分提取分析) 可知, 提取2個主成分, 即m=2, 從表5( 初始因子載荷矩陣) 可知GDP、工業(yè)增加
值、第三產(chǎn)業(yè)增加值、固定資產(chǎn)投資、基本建設投資、社會消費品零售總額、海關出口總額、地方財政收入在第一主成分上有較高載荷, 說明第一主成分基本反映了這些指標的信息; 人均GDP 和農(nóng)業(yè)增加值指標在第二主成分上有較高載荷, 說明第二主成分基本反映了人均GDP 和農(nóng)業(yè)增加值兩個指標的信息。所以提取兩個主成分是可以基本反映全部指標的信息, 所以決定用兩個新變量來代替原來的十個變量。但這兩個新變量的表達還不能從輸出窗口中直接得到, 因為
“Component Matrix”是指初始因子載荷矩陣, 每一個載荷量表示主成分與對應變量的相關系數(shù)。
用表5( 主成分載荷矩陣) 中的數(shù)據(jù)除以主成分相對應的特征值開平方根便得到兩個主成分中每個指標所對應的系數(shù)。將初始因子載荷矩陣中的兩列數(shù)據(jù)輸入( 可用復制粘貼的方法) 到數(shù)據(jù)編輯窗口( 為變量B1、B2) , 然后利用“Transform→Compute Variable”, 在Compute Variable對話框中輸入
“A1=B1/SQR(7.22)”[注: 第二主成分SQR后的括號中填1.235, 即可得到特征向量A1(見表6)。同理, 可得到特征向量A2。將得到的特征向量與標準化后的數(shù)據(jù)相乘, 然后就可以得出主成分表達式[注: 因本例只是為了說明如何在SPSS 進行主成分分析, 故在此不對提取的主成分進行命名, 有興趣的讀者可自行命名。
標準化:通過Analyze→Descriptive Statistics→Descriptives 對話框來實現(xiàn): 彈出Descriptives 對話框后, 把X1~X10 選入Variables 框, 在Save standardized values as variables 前的方框打上鉤, 點擊“OK”, 經(jīng)標準化的數(shù)據(jù)會自動填入數(shù)據(jù)窗口中, 并以Z開頭命名。
以每個主成分所對應的特征值占所提取主成分總的特征值之和的比例作為權重計算主成分綜合模型, 即用第一主成分F1 中每個指標所對應的系數(shù)乘上第一主成分F1 所對應的貢獻率再除以所提取兩個主成分的兩個貢獻率之和, 然后加上第二主成分F2 中每個指標所對應的系數(shù)乘上第二主成分F2 所對應的貢獻率再除以所提取兩個主成分的兩個貢獻率之和, 即可得到綜合得分模型
:
根據(jù)主成分綜合模型即可計算綜合主成分值, 并對其按綜合主成分值進行
排序, 即可對各地區(qū)進行綜合評價比較, 結果見表8。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結構數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結構數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 表結構數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結構化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結構數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結構數(shù)據(jù)(以 “行 - 列” 存儲的結構化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結構數(shù)據(jù)價值的核心操盤手 表格結構數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10