
主成分分析、因子分析、聚類的概覽與比較
主成分分析:利用降維(線性變換)的思想,在損失很少信息的前提下把多個指標(biāo)轉(zhuǎn)化為幾個綜合指標(biāo)(主成分),用綜合指標(biāo)來解釋多變量的方差——協(xié)方差結(jié)構(gòu),即每個主成分都是原始變量的線性組合,且各主成分之間互不相關(guān),使得主成分比原始變量具有某些更優(yōu)越的性能(主成分必須保留原始變量90%以上的信息),從而達(dá)到簡化系統(tǒng)結(jié)構(gòu),抓住問題實質(zhì)的目的綜合指標(biāo)即為主成分。
求解主成分的方法:從協(xié)方差陣出發(fā)(協(xié)方差陣已知),從相關(guān)陣出發(fā)(相關(guān)陣R已知)。
(實際研究中,總體協(xié)方差陣與相關(guān)陣是未知的,必須通過樣本數(shù)據(jù)來估計)
注意事項:
1.由協(xié)方差陣出發(fā)與由相關(guān)陣出發(fā)求解主成分所得結(jié)果不一致時,要恰當(dāng)?shù)倪x取某一種方法;
2.對于度量單位或是取值范圍在同量級的數(shù)據(jù),可直接求協(xié)方差陣;對于度量單位不同的指標(biāo)或是取值范圍彼此差異非常大的指標(biāo),應(yīng)考慮將數(shù)據(jù)標(biāo)準(zhǔn)化,再由協(xié)方差陣求主成分;
3.主成分分析不要求數(shù)據(jù)來源于正態(tài)分布;
4.在選取初始變量進(jìn)入分析時應(yīng)該特別注意原始變量是否存在多重共線性的問題(最小特征根接近于零,說明存在多重共線性問題)。
優(yōu)點:首先它利用降維方法用少數(shù)幾個綜合變量來代替原始多個變量,這些綜合變量集中了原始變量的大部分信息。其次它通過計算綜合主成分函數(shù)得分,對客觀經(jīng)濟(jì)現(xiàn)象進(jìn)行科學(xué)評價。再次它在應(yīng)用上側(cè)重于信息貢獻(xiàn)影響力綜合評價。
缺點:當(dāng)主成分的因子負(fù)荷的符號有正有負(fù)時,綜合評價函數(shù)意義就不明確,命名清晰性低。
聚類分析:將個體(樣品)或者對象(變量)按相似程度(距離遠(yuǎn)近)劃分類別,使得同一類中的元素之間的相似性比其他類的元素的相似性更強。目的在于使類間元素的同質(zhì)性最大化和類與類間元素的異質(zhì)性最大化。
其主要依據(jù)是聚到同一個數(shù)據(jù)集中的樣本應(yīng)該彼此相似,而屬于不同組的樣本應(yīng)該足夠不相似。
常用聚類方法:系統(tǒng)聚類法,K-均值法,模糊聚類法,有序樣品的聚類,分解法,加入法。
注意事項:
1.系統(tǒng)聚類法可對變量或者記錄進(jìn)行分類,K-均值法只能對記錄進(jìn)行分類;
2. K-均值法要求分析人員事先知道樣品分為多少類;
3.對變量的多元正態(tài)性,方差齊性等要求較高。
應(yīng)用領(lǐng)域:細(xì)分市場,消費行為劃分,設(shè)計抽樣方案等
優(yōu)點:聚類分析模型的優(yōu)點就是直觀,結(jié)論形式簡明。
缺點:在樣本量較大時,要獲得聚類結(jié)論有一定困難。由于相似系數(shù)是根據(jù)被試的反映來建立反映被試間內(nèi)在聯(lián)系的指標(biāo),而實踐中有時盡管從被試反映所得出的數(shù)據(jù)中發(fā)現(xiàn)他們之間有緊密的關(guān)系,但事物之間卻無任何內(nèi)在聯(lián)系,此時,如果根據(jù)距離或相似系數(shù)得出聚類分析的結(jié)果,顯然是不適當(dāng)?shù)模?,聚類分析模型本身卻無法識別這類錯誤。
因子分析:利用 降維思想,由研究原始變量相關(guān)矩陣內(nèi)部的依賴關(guān)系出發(fā),把一些具有錯綜復(fù)雜關(guān)系的變量歸結(jié)為少數(shù)幾個綜合因子。因子分析是主成分的推廣,相對于主成分分析,更傾向于描述原始變量之間的相關(guān)關(guān)系,就是研究如何以最少的信息丟失,將眾多原始變量濃縮成少數(shù)幾個因子變量,以及如何使因子變量具有較強的可解釋性的一種多元統(tǒng)計分析方法。
求解因子載荷的方法:主成分法,主軸因子法,極大似然法,最小二乘法,a因子提取法。
注意事項:
因子分析中各個公共因子之間不相關(guān),特殊因子之間不相關(guān),公共因子和特殊因子之間不相關(guān)。(均不相關(guān))
應(yīng)用領(lǐng)域:解決共線性問題,評價問卷的結(jié)構(gòu)效度,尋找變量間潛在的結(jié)構(gòu),內(nèi)在結(jié)構(gòu)證實。
優(yōu)點:1)它不是對原有變量的取舍,而是根據(jù)原始變量的信息進(jìn)行重新組合,找出影響變量的共同因子,化簡數(shù)據(jù);2)它通過旋轉(zhuǎn)使得因子變量更具有可解釋性,命名清晰性高。
缺點:在計算因子得分時,采用的是最小二乘法,此法有時可能會失效。
判別分析:從已知的各種分類情況中總結(jié)規(guī)律(訓(xùn)練出判別函數(shù)),當(dāng)新樣品進(jìn)入時,判斷其與判別函數(shù)之間的相似程度。
判別準(zhǔn)則:概率最大,距離最近,離差最小等。
常用判別方法:最大似然法,距離判別法,F(xiàn)isher判別法,Bayes判別法,逐步判別法等。
注意事項:
1.判別分析的基本條件:分組類型在兩組以上,解釋變量必須是可測的;
2.每個解釋變量不能是其它解釋變量的線性組合(比如出現(xiàn)多重共線性情況時,判別權(quán)重會出現(xiàn)問題);
3.各 解釋變量之間服從多元正態(tài)分布(不符合時,可使用Logistic回歸替代),且各組解釋變量的協(xié)方差矩陣相等(各組 協(xié)方方差矩陣有顯著差異時,判別函數(shù)不相同)。
4.相對而言,即使判別函數(shù)違反上述適用條件,也很穩(wěn)健,對結(jié)果影響不大。
應(yīng)用領(lǐng)域:對客戶進(jìn)行信用預(yù)測,尋找潛在客戶(是否為消費者,公司是否成功,學(xué)生是否被錄用等等),臨床上用于鑒別診斷。
對應(yīng)分析/最優(yōu)尺度分析:利用降維思想以達(dá)到簡化數(shù)據(jù)結(jié)構(gòu)的目的,同時對數(shù)據(jù)表中的行與列 進(jìn)行處理,尋求以低維圖形表示數(shù)據(jù)表中行與列之間的關(guān)系。
對應(yīng)分析:用于展示變量(兩個/多個分類)間的關(guān)系(變量的分類數(shù)較多時較佳);
最優(yōu)尺度分析:可同時分析多個變量間的關(guān)系,變量的類型可以是無序多分類,有序多分類或連續(xù)性變量,并對多選題的分析提供了支持。
典型相關(guān)分析:借用主成分分析 降維思想,分別對兩組變量提取主成分,且使從兩組變量提取的主成分之間的相關(guān)程度達(dá)到最大,而從同一組內(nèi)部提取的各主成分之間互不相關(guān)。
相同點:
1.主成分分析法和因子分析法都是用少數(shù)的幾個變量(因子) 來綜合反映原始變量(因子)的主要信息,變量雖然較原始變量少,但所包含的信息量卻占原始信息的85 %以上,所以即使用少數(shù)的幾個新變量,可信度也很高,也可以有效地解釋問題。并且新的變量彼此間互不相關(guān),消除了多重共線性。
2.這兩種分析法得出的新變量,并不是原始變量篩選后剩余的變量。在主成分分析中,最終確定的新變量是原始變量的線性組合,如原始變量為x1 ,x2 ,. . . ,x3 ,經(jīng)過坐標(biāo)變換,將原有的p個相關(guān)變量xi 作線性變換,每個主成分都是由原有p個變量線性組合得到。在諸多主成分Zi 中,Z1 在方差中占的比重最大,說明它綜合原有變量的能力最強,越往后主成分在方差中的比重也小,綜合原信息的能力越弱。
因子分析是要利用少數(shù)幾個公共因子去解釋較多要觀測變量中存在的復(fù)雜關(guān)系,它不是對原始變量的重新組合,而是對原始變量進(jìn)行分解,分解為公共因子與特殊因子兩部分。公共因子是由所有變量共同具有的少數(shù)幾個因子;特殊因子是每個原始變量獨自具有的因子。
3.對新產(chǎn)生的主成分變量及因子變量計算其得分,就可以將主成分得分或因子得分代替原始變量進(jìn)行進(jìn)一步的分析,因為主成分變量及因子變量比原始變量少了許多,所以起到了降維作用。
4.聚類分析是把研究對象視作多維空間中的許多點,并合理地分成若干類,因此它是一種根據(jù)變量域之間的相似性而逐步歸群成類的方法,它能客觀地反映這些變量或區(qū)域之間的內(nèi)在組合關(guān)系。它是通過一個大的對稱矩陣來探索相關(guān)關(guān)系的一種數(shù)學(xué)分析方法,是多元統(tǒng)計分析方法,分析的結(jié)果為群集。對向量聚類后,我們對數(shù)據(jù)的處理難度也自然降低,所以從某種意義上說,聚類分析也起到了降維作用。
不同之處:
1.主成分分析是求出少數(shù)幾個主成分(變量) 通過少數(shù)幾個主成分來解釋多變量的方差——協(xié)方差結(jié)構(gòu)的分析方法,使它們盡可能多地保留原始變量的信息,且彼此不相關(guān)。它是一種把給定的一組變量通過線性變換,轉(zhuǎn)換為一組不相關(guān)的變量(兩兩相關(guān)系數(shù)為0 ,或樣本向量彼此相互垂直的隨機變量)的數(shù)學(xué)變換方法。在這種變換中,保持變量的總方差(方差之和) 不變,同時具有最大方差,稱為第一主成分;具有次大方差,稱為第二主成分。依次類推。若共有p
個變量,實際應(yīng)用中一般不是找p 個主成分,而是找出m (m < p) 個主成分就夠了,只要這m 個主成分能反映原來所有變量的絕大部分的方差。主成分分析可以作為因子分析的一種方法出現(xiàn)。
2.因子分析是尋找潛在的起支配作用的因子模型的方法。因子分析是根據(jù)相關(guān)性大小把變量分組,使得同組內(nèi)的變量之間相關(guān)性較高,但不同的組的變量相關(guān)性較低,每組變量代表一個基本結(jié)構(gòu),這個基本結(jié)構(gòu)稱為公共因子。對于所研究的問題就可試圖用最少個數(shù)的不可測的所謂公共因子的線性函數(shù)與特殊因子之和來描述原來觀測的每一分量。通過因子分析得來的新變量是對每個原始變量進(jìn)行內(nèi)部剖析。因子分析不是對原始變量的重新組合,而是對原始變量進(jìn)行分解,分解為公共因子和特殊因子兩部分。具體地說,就是要找出某個問題中可直接測量的具有一定相關(guān)性的諸指標(biāo),如何受少數(shù)幾個在專業(yè)中有意義、又不可直接測量到、且相對獨立的因子支配的規(guī)律,從而可用各指標(biāo)的測定來間接確定各因子的狀態(tài)。因子分析只能解釋部分變異,主成分分析能解釋所有變異。
3.聚類分析算法是給定m 維空間R 中的n
個向量,把每個向量歸屬到k個聚類中的某一個,使得每一個向量與其聚類中心的距離最小。聚類可以理解為:
類內(nèi)的相關(guān)性盡量大,類間相關(guān)性盡量小。聚類問題作為一種無指導(dǎo)的學(xué)習(xí)問題,目的在于通過把原來的對象集合分成相似的組或簇,來獲得某種內(nèi)在的數(shù)據(jù)規(guī)律。
從三類分析的基本思想可以看出,聚類分析中并沒于產(chǎn)生新變量,但是主成分分析和因子分析都產(chǎn)生了新變量。
數(shù)據(jù)標(biāo)準(zhǔn)化方面的區(qū)別:
總結(jié):
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03