
每每談起主成分和因子有啥區(qū)別,樓主總是有種心里大概明白,但就是說(shuō)不清的感覺(jué),終于看到一篇帖子,從十個(gè)方面闡述了兩者的區(qū)別,留作紀(jì)念,同時(shí)也發(fā)給大家做個(gè)參考:
主成分分析(Principal components analysis,PCA)基本原理:利用降維(線(xiàn)性變換)的思想,在損失很少信息的前提下把多個(gè)指標(biāo)轉(zhuǎn)化為幾個(gè)不相關(guān)的綜合指標(biāo)(主成分),即每個(gè)主成分都是原始變量的線(xiàn)性組合,且各個(gè)主成分之間互不相關(guān),使得主成分比原始變量具有某些更優(yōu)越的性能(主成分必須保留原始變量90%以上的信息),從而達(dá)到簡(jiǎn)化系統(tǒng)結(jié)構(gòu),抓住問(wèn)題實(shí)質(zhì)的目的。
因子分析(Factor Analysis,F(xiàn)A)基本原理:利用降維的思想,由研究原始變量相關(guān)矩陣內(nèi)部的依賴(lài)關(guān)系出發(fā),把一些具有錯(cuò)綜復(fù)雜關(guān)系的變量表示成少數(shù)的公共因子和僅對(duì)某一個(gè)變量有作用的特殊因子線(xiàn)性組合而成。就是要從數(shù)據(jù)中提取對(duì)變量起解釋作用的少數(shù)公共因子(因子分析是主成分的推廣,相對(duì)于主成分分析,更傾向于描述原始變量之間的相關(guān)關(guān)系)。
因子分析是把變量表示成各公因子的線(xiàn)性組合;主成分分析中則是把主成分表示成各變量的線(xiàn)性組合。
主成分分析:不需要有假設(shè)(assumptions);
因子分析:需要一些假設(shè)。因子分析的假設(shè)包括:各個(gè)共同因子之間不相關(guān),特殊因子(specificfactor)之間也不相關(guān),共同因子和特殊因子之間也不相關(guān)。
(1)求解主成分的方法:
從協(xié)方差陣出發(fā)(協(xié)方差陣已知),從相關(guān)陣出發(fā)(相關(guān)陣R已知),采用的方法只有主成分法。(實(shí)際研究中,總體協(xié)方差陣與相關(guān)陣是未知的,必須通過(guò)樣本數(shù)據(jù)來(lái)估計(jì));
注意事項(xiàng):由協(xié)方差陣出發(fā)與由相關(guān)陣出發(fā)求解主成分所得結(jié)果不一致時(shí),要恰當(dāng)?shù)倪x取某一種方法;
一般當(dāng)變量單位相同或者變量在同一數(shù)量等級(jí)的情況下,可以直接采用協(xié)方差陣進(jìn)行計(jì)算;對(duì)于度量單位不同的指標(biāo)或是取值范圍彼此差異非常大的指標(biāo),應(yīng)考慮將數(shù)據(jù)標(biāo)準(zhǔn)化,再由協(xié)方差陣求主成分。
實(shí)際應(yīng)用中應(yīng)該盡可能的避免標(biāo)準(zhǔn)化,因?yàn)樵跇?biāo)準(zhǔn)化的過(guò)程中會(huì)抹殺一部分原本刻畫(huà)變量之間離散程度差異的信息。此外,最理想的情況是主成分分析前的變量之間相關(guān)性高,且變量之間不存在多重共線(xiàn)性問(wèn)題(會(huì)出現(xiàn)最小特征根接近0的情況);
(2)求解因子載荷的方法:
主成分法,主軸因子法,極大似然法,最小二乘法,a因子提取法。
主成分分析:當(dāng)給定的協(xié)方差矩陣或者相關(guān)矩陣的特征值唯一時(shí),主成分一般是固定的獨(dú)特的;
因子分析:因子不是固定的,可以旋轉(zhuǎn)得到不同的因子。
主成分分析:主成分的數(shù)量是一定的,一般有幾個(gè)變量就有幾個(gè)主成分(只是主成分所解釋的信息量不等),實(shí)際應(yīng)用時(shí)會(huì)根據(jù)碎石圖提取前幾個(gè)主要的主成分。
因子分析:因子個(gè)數(shù)需要分析者指定(SPSS和SAS根據(jù)一定的條件自動(dòng)設(shè)定,只要是特征值大于1的因子主可進(jìn)入分析),指定的因子數(shù)量不同而結(jié)果也不同;
主成分分析:重點(diǎn)在于解釋個(gè)變量的總方差;因子分析:則把重點(diǎn)放在解釋各變量之間的協(xié)方差。
主成分分析:協(xié)方差矩陣的對(duì)角元素是變量的方差;
因子分析:所采用的協(xié)方差矩陣的對(duì)角元素不在是變量的方差,而是和變量對(duì)應(yīng)的共同度(變量方差中被各因子所解釋的部分)。
(1)因子分析:
對(duì)于因子分析,可以使用旋轉(zhuǎn)技術(shù),使得因子更好的得到解釋?zhuān)虼嗽诮忉屩鞒煞址矫嬉蜃臃治龈純?yōu)勢(shì);其次因子分析不是對(duì)原有變量的取舍,而是根據(jù)原始變量的信息進(jìn)行重新組合,找出影響變量的共同因子,化簡(jiǎn)數(shù)據(jù);
(2)主成分分析:
第一:如果僅僅想把現(xiàn)有的變量變成少數(shù)幾個(gè)新的變量(新的變量幾乎帶有原來(lái)所有變量的信息)來(lái)進(jìn)入后續(xù)的分析,則可以使用主成分分析,不過(guò)一般情況下也可以使用因子分析;
第二:通過(guò)計(jì)算綜合主成分函數(shù)得分,對(duì)客觀(guān)經(jīng)濟(jì)現(xiàn)象進(jìn)行科學(xué)評(píng)價(jià);
第三:它在應(yīng)用上側(cè)重于信息貢獻(xiàn)影響力綜合評(píng)價(jià);
第四:應(yīng)用范圍廣,主成分分析不要求數(shù)據(jù)來(lái)自正態(tài)分布總體,其技術(shù)來(lái)源是矩陣運(yùn)算的技術(shù)以及矩陣對(duì)角化和矩陣的譜分解技術(shù),因而凡是涉及多維度問(wèn)題,都可以應(yīng)用主成分降維。
(1)主成分分析:
可以用于系統(tǒng)運(yùn)營(yíng)狀態(tài)做出評(píng)估,一般是將多個(gè)指標(biāo)綜合成一個(gè)變量,即將多維問(wèn)題降維至一維,這樣才能方便排序評(píng)估;此外還可以應(yīng)用于經(jīng)濟(jì)效益、經(jīng)濟(jì)發(fā)展水平、經(jīng)濟(jì)發(fā)展競(jìng)爭(zhēng)力、生活水平、生活質(zhì)量的評(píng)價(jià)研究上;主成分還可以用于和回歸分析相結(jié)合,進(jìn)行主成分回歸分析,甚至可以利用主成分分析進(jìn)行挑選變量,選擇少數(shù)變量再進(jìn)行進(jìn)一步的研究。一般情況下主成分用于探索性分析,很少單獨(dú)使用,用主成分來(lái)分析數(shù)據(jù),可以讓我們對(duì)數(shù)據(jù)有一個(gè)大致的了解。
幾個(gè)常用組合:
主成分分析+判別分析,適用于變量多而記錄數(shù)不多的情況;
主成分分析+多元回歸分析,主成分分析可以幫助判斷是否存在共線(xiàn)性,并用于處理共線(xiàn)性問(wèn)題;
主成分分析+聚類(lèi)分析,不過(guò)這種組合因子分析可以更好的發(fā)揮優(yōu)勢(shì);
(2)因子分析:
首先,因子分析+多元回歸分析,可以利用因子分析解決共線(xiàn)性問(wèn)題;其次,可以利用因子分析,尋找變量之間的潛在結(jié)構(gòu);再次,因子分析+聚類(lèi)分析,可以通過(guò)因子分析尋找聚類(lèi)變量,從而簡(jiǎn)化聚類(lèi)變量;此外,因子分析還可以用于內(nèi)在結(jié)構(gòu)證實(shí)。
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢(xún)效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話(huà)題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類(lèi)型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專(zhuān)業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專(zhuān)業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶(hù)體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷(xiāo)案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷(xiāo)成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類(lèi)分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類(lèi)分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10