
SPSS主成分分析與因子分析之比較及實證分析
一、問題的提出
在科學(xué)研究或日常生活中,常常需要判斷某一事物在同類事物中的好壞、優(yōu)劣程度及其發(fā)展規(guī)律等問題。而影響事物的特征及其發(fā)展規(guī)律的因素(指標(biāo))是多方面的,因此,在對該事物進行研究時,為了能更全面、準(zhǔn)確地反映出它的特征及其發(fā)展規(guī)律,就不應(yīng)僅從單個指標(biāo)或單方面去評價它,而應(yīng)考慮到與其有關(guān)的多方面的因素,即研究中需要引入更多的與該事物有關(guān)系的變量,來對其進行綜合分析和評價。多變量大樣本資料無疑能給研究人員或決策者提供很多有價值的信息,但在分析處理多變量問題時,由于眾變量之間往往存在一定的相關(guān)性,使得觀測數(shù)據(jù)所反映的信息存在重疊現(xiàn)象。因此為了盡量避 免信息重疊和減輕工作量,人們就往往希望能找出少數(shù)幾個互不相關(guān)的綜合變量來盡可能地反映原來數(shù)據(jù)所含有的絕大部分信息。而主成分分析和因子分析正是為解決此類問題而產(chǎn)生的多元統(tǒng)計分析方法。
近年來,這兩種方法在社會經(jīng)濟問題研究中的應(yīng)用越來越多,其應(yīng)用范圍也愈加廣泛。因子分析是主成分分析的推廣和發(fā)展,二者之間就勢必有著許多共同之處,而 SPSS軟件不能直接進行主成分分析,致使一些應(yīng)用者在使用SPSS進行這兩種方法的分析時,常常會出現(xiàn)一些混淆性的錯誤,這難免會使人們對分析結(jié)果產(chǎn)生質(zhì)疑。因此,有必要在運用SPSS分析時,將這兩種方法加以嚴(yán)格區(qū)分,并針對實際問題選擇正確的方法。
二、主成分分析與因子分析的聯(lián)系與區(qū)別
兩種方法的出發(fā)點都是變量的相關(guān)系數(shù)矩陣,在損失較少信息的前提下,把多個變量(這些變量之間要求存在較強的相關(guān)性,以保證能從原始變量中提取主成分)綜合成少數(shù)幾個綜合變量來研究總體各方面信息的多元統(tǒng)計方法,且這少數(shù)幾個綜合變量所代表的信息不能重疊,即變量間不相關(guān)。
主要區(qū)別:
1. 主成分分析是通過變量變換把注意力集中在具有較大變差的那些主成分上,而舍棄那些變差小的主成分;因子分析是因子模型把注意力集中在少數(shù)不可觀測的潛在變量(即公共因子)上,而舍棄特殊因子。
2. 主成分分析是將主成分表示為原觀測變量的線性組合,
(1)
主成分的個數(shù)i=原變量的個數(shù)p,其中j=1,2,…,p, 是相關(guān)矩陣的特征值所對應(yīng)的特征向量矩陣中的元素, 是原始變量的標(biāo)準(zhǔn)化數(shù)據(jù),均值為0,方差為1。其實質(zhì)是p維空間的坐標(biāo)變換,不改變原始數(shù)據(jù)的結(jié)構(gòu)。
而因子分析則是對原觀測變量分解成公共因子和特殊因子兩部分。因子模型如式(2),
(2)
其中i=1,2,…,p, m
是因子分析過程中的初始因子載荷矩陣中的元素, 是第j個公共因子,
是第i個原觀測變量的特殊因子。且此處的
與
的均值都為0,方差都為1。
3. 主成分的各系數(shù),是唯一確定的、正交的。不可以對系數(shù)矩陣進行任何的旋轉(zhuǎn),且系數(shù)大小并不代表原變量與主成分的相關(guān)程度;而因子模型的系數(shù)矩陣是不唯一的、可以進行旋轉(zhuǎn)的,且該矩陣表明了原變量和公共因子的相關(guān)程度。
4. 主成分分析,可以通過可觀測的原變量X直接求得主成分Y,并具有可逆性;因子分析中的載荷矩陣是不可逆的,只能通過可觀測的原變量去估計不可觀測的公共因 子,即公共因子得分的估計值等于因子得分系數(shù)矩陣與原觀測變量標(biāo)準(zhǔn)化后的矩陣相乘的結(jié)果。還有,主成分分析不可以像因子分析那樣進行因子旋轉(zhuǎn)處理。
5.綜合排名。主成分分析一般依據(jù)第一主成分的得分排名,若第一主成分不能完全代替原始變量,則需要繼續(xù)選擇第二個主成分、第三個等等,此時綜合得分=∑ (各主成分得分×各主成分所對應(yīng)的方差貢獻率),主成分得分是將原始變量的標(biāo)準(zhǔn)化值,代入主成分表達式中計算得到;而因子分析的綜合得分=∑(各因子得分 ×各因子所對應(yīng)的方差貢獻率)÷∑各因子的方差貢獻率,因子得分是將原始變量的標(biāo)準(zhǔn)化值,代入因子得分函數(shù)中計算得到。
區(qū)別中存聯(lián)系,聯(lián)系中顯區(qū)別
由于上文提到主成分可表示為原觀測變量的線性組合,其系數(shù)為原始變量相關(guān)矩陣的特征值所對應(yīng)的特征向量,且這些特征向量正交,因此,從X到Y(jié)的轉(zhuǎn)換關(guān)系是可逆的,便得到如下的關(guān)系:
(3)
下面對其只保留前m個主成分(貢獻大),舍棄剩下貢獻很小的主成分,得:
i=1,2,…p ?。?)
由此可見,式(4)在形式上已經(jīng)與因子模型(2)忽略特殊因子后的模型即:
(2)*
相一致,且 (j=1,2,…,m)之間相互獨立。由于模型(2)*是因子分析中未進行因子載荷旋轉(zhuǎn)時建立的模型,故如果不進行因子載荷旋轉(zhuǎn),許多應(yīng)用者將容易把此時的因子分析理解成主成分分析,這顯然是不正確的。
然而此時的主成分的系數(shù)陣即特征向量與因子載荷矩陣確實存在如下關(guān)系:
主成分分析中,主成分的方差等于原始數(shù)據(jù)相關(guān)矩陣的特征根,其標(biāo)準(zhǔn)差也即特征根的平方根,于是可以將除以其標(biāo)準(zhǔn)差(單位化)后轉(zhuǎn)化成合適的公因子,即令
,
,則式(4)變?yōu)椋?
(4)*
可得, (5)
式(5)便是主成分系數(shù)矩陣與初始因子載荷陣之間的聯(lián)系。不能簡單地將初始因子載荷矩陣認(rèn)為是主成分系數(shù)矩陣(特征向量矩陣),否則會造成偏差。
三、實證分析
通過實例來研究SPSS軟件中的因子分析和主成分分析及二者分析結(jié)果的比較。運用兩種分析方法對2005年江蘇省13個主要城市的經(jīng)濟發(fā)展綜合水平進行分析。
本文在選取指標(biāo)時遵循了指標(biāo)選取的基本原則,即針對性、可操作性、層次性、全面性等原則,選取了以下反映城市經(jīng)濟發(fā)展綜合水平的9項指標(biāo): GDP(X1)億元 、人均GDP (X2) 元 、城鎮(zhèn)居民人均可支配收入(X3)元、農(nóng)村居民純收入(X4) 元、第三產(chǎn)業(yè)占GDP比重(X5)%、金融機構(gòu)存款余額(X6)億元、萬人中各專業(yè)技術(shù)人員數(shù)(X7)人、科技三項和文教科衛(wèi)支出(X8)億元、實際利用 外資(X9) 億美元。
(一) 數(shù)據(jù)來源及處理
按照上述指標(biāo)體系,選取了江蘇13個城市的數(shù)據(jù),(所有數(shù)據(jù)均來源于《江蘇統(tǒng)計年鑒(2006)》)。指標(biāo)都是正指標(biāo),無需歸一化,SPSS13.0將自動對原始數(shù)據(jù)進行標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化處理,消除指標(biāo)量綱及數(shù)量級的影響。
(二) 運用SPSS進行分析
首先,通過SPSS中的Data Reduction-Factor命令進行因子分析,本文采取主成分分析法來抽取公共因子,并依據(jù)特征值大于1來確定因子數(shù)目。
相關(guān)的分析結(jié)果及分析,如下:
![]() |
|
1.相關(guān)系數(shù)矩陣
由于因子分析是基于相關(guān)矩陣進行的,即要求各指標(biāo)之間具有一定的相關(guān)性,求出相關(guān)矩陣是必要的。KMO統(tǒng)計量是0.659,且Bartlett球體檢驗 值為190.584,卡方統(tǒng)計值的顯著性水平為0.000小于0.01,都說明各指標(biāo)之間具有較高相關(guān)性,因此本文數(shù)據(jù)適用于作因子分析。
2.總方差分解
![]() |
|
表2中,依據(jù)特征值大于1的原則,提取了2個公因子(主成分),它們的累積方差貢獻率達91.4555%,這2個公因子(主成分)包含了原指標(biāo)的絕大部分信息,可以代替原來9個變量對城市經(jīng)濟發(fā)展水平現(xiàn)狀進行衡量。
3.主成分表達式與因子模型
初始因子載荷矩陣(見表3)反映了公因子與原始變量之間的相關(guān)程度,而主成分的系數(shù)矩陣并不反映公因子與原始變量之間的相關(guān)程度,故不能直接用表3中的 數(shù)據(jù)表示。根據(jù)該系數(shù)矩陣與初始因子載荷陣之間的關(guān)系(如式(5)),可以計算出前2個特征值所對應(yīng)的特征向量陣(系數(shù)矩陣),見表4。
![]() |
|
![]() |
|
很明顯表4和表3中的數(shù)據(jù)相差很大,因此,如果將初始因子載荷陣誤認(rèn)為是主成分系數(shù)矩陣,分析結(jié)果將會產(chǎn)生較大偏差。
主成分的表達式應(yīng)為:(6)
Y1=0.3622 *Z1+0.3607 *Z2+…+0.3260*Z9
Y2=-0.1298 *Z1-0.0799 *Z2+…-0.3849*Z9
=(79.4012* Y1+12.0543* Y2)/100
因子模型:
X1=0.9684*F1-0.1352*F2
X2=0.9642*F1-0.0832*F2
…
X9=0.8714*F1-0.4009*F2
其中Z1~Z9是X1~X9的標(biāo)準(zhǔn)化數(shù)據(jù).
4.因子得分函數(shù)
從表3得知,各因子在各變量上的載荷已經(jīng)向0和1兩極分化,故無需進行因子旋轉(zhuǎn)。公因子是不可觀測的,估計因子得分應(yīng)借助于未旋轉(zhuǎn)因子得分系數(shù)矩陣,見表5。
![]() |
|
得到以下因子得分函數(shù):(7)
F1=0.1355*Z1+0.1349*Z2 +…+0.1219*Z9
F2=-0.1247 *Z1-0.0767*Z2 +…-0.3696*Z9
同樣Z1~Z9是標(biāo)準(zhǔn)化的數(shù)據(jù),其綜合得分計算公式:
=(73.4228*F1+18.0327*F2)/91.4555(8)
(三) 兩種方法綜合排名比較
按照主成分綜合得分和因子綜合得分,對江蘇13個城市的經(jīng)濟發(fā)展綜合水平進行排名,見表6。
表6中,綜合得分出現(xiàn)負(fù)值,這只表明該城市的綜合水平處于平均水平之下(由于主成分(因子)已經(jīng)標(biāo)準(zhǔn)化了)。
![]() |
|
從該表看出,主成分分析與因子分析的實證結(jié)果,不僅大部分城市的排名存在差異,且綜合得分值上存在較大差異,其定量值差異較大,這對于后來的綜合定量定性分析,最終所提出的政策建議等都會產(chǎn)生較大影響。因此不能混用。
四、結(jié)束語
使用主成分分析和因子分析進行綜合評價時,可以通過不同的統(tǒng)計軟件來完成數(shù)據(jù)分析,除SPSS軟件外,其他軟件都分別設(shè)有兩種方法的過程命令,使用者可以根據(jù)需要采用其中一種來分析問題,一般不會混淆。而正是因為SPSS沒有直接進行主成分分析的命令,才使得那些本身尚未清楚區(qū)分這兩種方法的使用者更加迷惑,不慎便會出現(xiàn)混淆性錯誤。因此,本文很詳細(xì)地從理論和實證角度,分析了這兩種方法的異同及如何運用SPSS軟件進行分析。從實證結(jié)果看,運用主成分分析和因子分析進行綜合定量分析時,不但綜合排名結(jié)果存在差異,而且定量值也存在較大差異,這必然會影響后面的綜合定性分析結(jié)果。因此,我們應(yīng)正確理解和運用這兩種方法,使其發(fā)揮出各自最大的優(yōu)勢,以便更好地服務(wù)于實際問題的分析。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10