99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線(xiàn)電話(huà):13121318867

登錄
首頁(yè)精彩閱讀【從零開(kāi)始學(xué)統(tǒng)計(jì)】12.主成分與因子的相伴相隨
【從零開(kāi)始學(xué)統(tǒng)計(jì)】12.主成分與因子的相伴相隨
2014-07-07
收藏
       六月這個(gè)特殊的月,我們都會(huì)關(guān)注一些“時(shí)令”信息,比如高考,比如世界杯,比如就業(yè)……一說(shuō)到這些,媒體上充斥的就是非常時(shí)髦的排名,什么大學(xué)排行榜,MBA商學(xué)院排名,專(zhuān)業(yè)排行榜,專(zhuān)業(yè)就業(yè)排行榜,最佳球員榜,還有那些胡潤(rùn)富人排行榜,財(cái)富500強(qiáng),慈善排名,城市競(jìng)爭(zhēng)力排行等等!最近剛剛完成廣播電視節(jié)目綜合評(píng)估體系客體評(píng)估項(xiàng)目,其中也涉及到電視節(jié)目的綜合評(píng)估問(wèn)題,特別是綜合排名問(wèn)題。大部分情況下綜合評(píng)價(jià)問(wèn)題都會(huì)涉及到排名,多指標(biāo)排名問(wèn)題。
    一說(shuō)到多指標(biāo)排名,樓主不禁想到前不久剛做的一個(gè)項(xiàng)目,也使用了綜合評(píng)分排名。這當(dāng)中的關(guān)鍵無(wú)疑是怎樣統(tǒng)一量綱,給予權(quán)數(shù)。權(quán)數(shù)的確定方法很多,但發(fā)現(xiàn)近來(lái)用主成分和因子分析法賦權(quán)的文章越來(lái)越多。這兩個(gè)方法多元統(tǒng)計(jì)必講,但……我相信很多人除了知道因子旋轉(zhuǎn)一下,其余基本是因子主成分傻傻分不清的……(包括樓主自己)
所以今天特地去整理了一些內(nèi)容分享給大家:
先從概念講起吧——



一、主成分分析概述:
  • 是否可以用較少的幾個(gè)相互獨(dú)立的指標(biāo)代替原來(lái)的多個(gè)指標(biāo),使其既能減少指標(biāo)個(gè)數(shù),又能綜合反映其原指標(biāo)的信息?主成分分析結(jié)解決這個(gè)問(wèn)題。
  • 有些變量不能或不易直接觀(guān)察,他們只能通過(guò)其他多個(gè)可觀(guān)察指標(biāo)來(lái)間接反映。
  • 主成分分析:基本思想降維,將多個(gè)相互關(guān)聯(lián)的數(shù)值指標(biāo)轉(zhuǎn)化為少數(shù)幾個(gè)互不相關(guān)的綜合指標(biāo),綜合后的指標(biāo)就是原來(lái)多指標(biāo)的主要成分。
  • 舉例:兩個(gè)指標(biāo)x1(年齡)和x2(身高),x1和x2呈線(xiàn)性正相關(guān),將該直線(xiàn)作為新坐標(biāo)系的橫軸z1,取一條與z1垂直的縱軸z2。在新坐標(biāo)系中,n個(gè)點(diǎn)不再呈線(xiàn)性相關(guān),即z1和z2兩個(gè)新變量互相獨(dú)立,且變異主要集中在z1方向,說(shuō)明z1的方差較大,z2的方差較小。如果此時(shí)要研究n個(gè)兒童年齡與身高,只需要考慮z1這個(gè)變量即可。1-110RQ40015W1.gif
  • 我們稱(chēng)z1為第一主成分,z2為第二主成分。
  • 主成分個(gè)數(shù)的選?。?/span>
  • 前k個(gè)主成分的累積貢獻(xiàn)率達(dá)到某一特定值(一般采用70%或80%)
  • 特征根>=1

結(jié)果分析:

  • 各指標(biāo)間的相關(guān)矩陣
  • 公因子方差:初始值為1,提取里有0說(shuō)明是特殊因素
  • 解釋的總方差:選取主成分個(gè)數(shù)
  • 成分矩陣:根據(jù)0.5原則,大于0.5的作為主成分包含的內(nèi)容
  • 成分得分系數(shù)矩陣:將所有的主成分標(biāo)示為各個(gè)變量的線(xiàn)性組合。

二、因子分析概述:
  • 有些變量不能或不易直接觀(guān)察,他們只能通過(guò)其他多個(gè)可觀(guān)察指標(biāo)來(lái)間接反映。例如:醫(yī)院醫(yī)療工作質(zhì)量不易直接觀(guān)察,但可以通過(guò)門(mén)診人次、出院人數(shù)、診斷符合率、治愈率、病死率等一些可觀(guān)測(cè)指標(biāo)來(lái)反映醫(yī)院醫(yī)療工作質(zhì)量這個(gè)潛在變量。
  • 通常,多變量之間具有相關(guān)性,其產(chǎn)生的原因可能是潛在的因素對(duì)觀(guān)察的變量起支配作用,如何找出這些潛在的因素?這些潛在因素是如何對(duì)原始指標(biāo)起支配作用?因子分析解決這個(gè)問(wèn)題。
  • 因子分析:一種尋找潛在支配因子的模型分析方法,作用是分析可觀(guān)察到的原始多個(gè)變量,找出數(shù)目相對(duì)較少的,對(duì)原始變量有潛在支配作用的因子。找出共性因子變量,估計(jì)因子模型,計(jì)算共性因子變量的取值和對(duì)共性因子變量做出合理的解釋。
  • 因子分析分為兩類(lèi):探索性因子分析,確定性因子分析。
  • 探索性因子分析(簡(jiǎn)稱(chēng)因子分析):應(yīng)用在數(shù)據(jù)分析初期階段,目的是探究原可測(cè)變量的特征、性質(zhì)及其內(nèi)部的關(guān)聯(lián)性,揭示哪些主要的潛在因子可能影響這些可測(cè)變量。分析的結(jié)果一般不需要進(jìn)行統(tǒng)計(jì)檢驗(yàn),可建立理論變量。
  • 確定性因子分析:在探索性因子分析的基礎(chǔ)上進(jìn)行的,進(jìn)一步明確每個(gè)潛在因子對(duì)可測(cè)變量的影響程度和關(guān)聯(lián)程度,該分析不要求找出潛在因子之間相互獨(dú)立,目的是明確潛在因子之間關(guān)聯(lián)性。分析結(jié)果需要統(tǒng)計(jì)校驗(yàn)。

結(jié)果分析:

  • 主成分信息,取特征值大于1的,如果大于1的累計(jì)貢獻(xiàn)率過(guò)低,也可以選取特征值小于1的。這里可看出,約82.488%的總方差可以由2個(gè)潛在因子解釋。
  • 累計(jì)貢獻(xiàn)率達(dá)到85%

解釋的總方差

成份

初始特征

提取平方和載入

旋轉(zhuǎn)平方和載入

合計(jì)

方差的 %

累積 %

合計(jì)

方差的 %

累積 %

合計(jì)

方差的 %

累積 %

1

2.731

45.520

45.520

2.731

45.520

45.520

2.688

44.802

44.802

2

2.218

36.969

82.488

2.218

36.969

82.488

2.261

37.687

82.488

3

.442

7.360

89.848

4

.341

5.688

95.536

5

.183

3.044

98.580

6

.085

1.420

100.000

提取方法:主成份分析。

  • 公因子方差比
  • 旋轉(zhuǎn)后的因子矩陣:比旋轉(zhuǎn)前的因子起到了明顯的分離作用,使各因子具有較明確的專(zhuān)業(yè)意義。

三、主成分分析和因子分析異同


1.原理不同


  • 主成分分析基本原理:利用降維(線(xiàn)性變換)的思想,在損失很少信息的前提下把多個(gè)指標(biāo)轉(zhuǎn)化為幾個(gè)不相關(guān)的綜合指標(biāo)(主成分),即每個(gè)主成分都是原始變量的線(xiàn)性組合,且各個(gè)主成分之間互不相關(guān),使得主成分比原始變量具有某些更優(yōu)越的性能(主成分必須保留原始變量90%以上的信息),從而達(dá)到簡(jiǎn)化系統(tǒng)結(jié)構(gòu),抓住問(wèn)題實(shí)質(zhì)的目的。
  • 因子分析基本原理:利用降維的思想,由研究原始變量相關(guān)矩陣內(nèi)部的依賴(lài)關(guān)系出發(fā),把一些具有錯(cuò)綜復(fù)雜關(guān)系的變量表示成少數(shù)的公共因子和僅對(duì)某一個(gè)變量有作用的特殊因子線(xiàn)性組合而成。就是要從數(shù)據(jù)中提取對(duì)變量起解釋作用的少數(shù)公共因子(因子分析是主成分的推廣,相對(duì)于主成分分析,更傾向于描述原始變量之間的相關(guān)關(guān)系)

2.線(xiàn)性表示方向不同


  • 因子分析是把變量表示成各公因子的線(xiàn)性組合
  • 主成分分析中則是把主成分表示成各變量的線(xiàn)性組合。


3.假設(shè)條件
不同


  • 主成分分析:不需要有假設(shè)(assumptions)
  • 因子分析:需要一些假設(shè)。因子分析的假設(shè)包括:各個(gè)共同因子之間不相關(guān),特殊因子(specificfactor)之間也不相關(guān),共同因子和特殊因子之間也不相關(guān)。 

4.求解方法不同


  • 求解主成分的方法:從協(xié)方差陣出發(fā)(協(xié)方差陣已知),從相關(guān)陣出發(fā)(相關(guān)陣R已知),采用的方法只有主成分法。(實(shí)際研究中,總體協(xié)方差陣與相關(guān)陣是未知的,必須通過(guò)樣本數(shù)據(jù)來(lái)估計(jì))

注意事項(xiàng):由協(xié)方差陣出發(fā)與由相關(guān)陣出發(fā)求解主成分所得結(jié)果不一致時(shí),要恰當(dāng)?shù)倪x取某一種方法;一般當(dāng)變量單位相同或者變量在同一數(shù)量等級(jí)的情況下,可以直接采用協(xié)方差陣進(jìn)行計(jì)算;對(duì)于度量單位不同的指標(biāo)或是取值范圍彼此差異非常大的指標(biāo),應(yīng)考慮將數(shù)據(jù)標(biāo)準(zhǔn)化,再由協(xié)方差陣求主成分;實(shí)際應(yīng)用中應(yīng)該盡可能的避免標(biāo)準(zhǔn)化,因?yàn)樵跇?biāo)準(zhǔn)化的過(guò)程中會(huì)抹殺一部分原本刻畫(huà)變量之間離散程度差異的信息。此外,最理想的情況是主成分分析前的變量之間相關(guān)性高,且變量之間不存在多重共線(xiàn)性問(wèn)題(會(huì)出現(xiàn)最小特征根接近0的情況);


  • 求解因子載荷的方法:主成分法,主軸因子法,極大似然法,最小二乘法,a因子提取法。

5.主成分和因子的變化不同


  • 主成分分析:當(dāng)給定的協(xié)方差矩陣或者相關(guān)矩陣的特征值唯一時(shí),主成分一般是固定的獨(dú)特的
  • 因子分析:因子不是固定的,可以旋轉(zhuǎn)得到不同的因子。

6.因子數(shù)量與主成分的數(shù)量


  • 主成分分析:主成分的數(shù)量是一定的,一般有幾個(gè)變量就有幾個(gè)主成分(只是主成分所解釋的信息量不等),實(shí)際應(yīng)用時(shí)會(huì)根據(jù)碎石圖提取前幾個(gè)主要的主成分。
  • 因子分析:因子個(gè)數(shù)需要分析者指定(SPSS和sas根據(jù)一定的條件自動(dòng)設(shè)定,只要是特征值大于1的因子主可進(jìn)入分析),指定的因子數(shù)量不同而結(jié)果也不同;

7.解釋重點(diǎn)不同


  • 主成分分析:重點(diǎn)在于解釋個(gè)變量的總方差
  • 因子分析:則把重點(diǎn)放在解釋各變量之間的協(xié)方差。 

8.算法上的不同


  • 主成分分析:協(xié)方差矩陣的對(duì)角元素是變量的方差
  • 因子分析:所采用的協(xié)方差矩陣的對(duì)角元素不在是變量的方差,而是和變量對(duì)應(yīng)的共同度(變量方差中被各因子所解釋的部分)

9.優(yōu)點(diǎn)不同:

因子分析:對(duì)于因子分析,可以使用旋轉(zhuǎn)技術(shù),使得因子更好的得到解釋?zhuān)虼嗽诮忉屩鞒煞址矫嬉蜃臃治龈純?yōu)勢(shì);其次因子分析不是對(duì)原有變量的取舍,而是根據(jù)原始變量的信息進(jìn)行重新組合,找出影響變量的共同因子,化簡(jiǎn)數(shù)據(jù)
主成分分析:
  • 如果僅僅想把現(xiàn)有的變量變成少數(shù)幾個(gè)新的變量(新的變量幾乎帶有原來(lái)所有變量的信息)來(lái)進(jìn)入后續(xù)的分析,則可以使用主成分分析,不過(guò)一般情況下也可以使用因子分析;
  • 通過(guò)計(jì)算綜合主成分函數(shù)得分,對(duì)客觀(guān)經(jīng)濟(jì)現(xiàn)象進(jìn)行科學(xué)評(píng)價(jià);
  • 它在應(yīng)用上側(cè)重于信息貢獻(xiàn)影響力綜合評(píng)價(jià)。
  • 應(yīng)用范圍廣,主成分分析不要求數(shù)據(jù)來(lái)自正態(tài)分布總體,其技術(shù)來(lái)源是矩陣運(yùn)算的技術(shù)以及矩陣對(duì)角化和矩陣的譜分解技術(shù),因而凡是涉及多維度問(wèn)題,都可以應(yīng)用主成分降維;

10.應(yīng)用場(chǎng)景不同
  • 主成分分析:可以用于系統(tǒng)運(yùn)營(yíng)狀態(tài)做出評(píng)估,一般是將多個(gè)指標(biāo)綜合成一個(gè)變量,即將多維問(wèn)題降維至一維,這樣才能方便排序評(píng)估;此外還可以應(yīng)用于經(jīng)濟(jì)效益、經(jīng)濟(jì)發(fā)展水平、經(jīng)濟(jì)發(fā)展競(jìng)爭(zhēng)力、生活水平、生活質(zhì)量的評(píng)價(jià)研究上;主成分還可以用于和回歸分析相結(jié)合,進(jìn)行主成分回歸分析,甚至可以利用主成分分析進(jìn)行挑選變量,選擇少數(shù)變量再進(jìn)行進(jìn)一步的研究。一般情況下主成分用于探索性分析,很少單獨(dú)使用,用主成分來(lái)分析數(shù)據(jù),可以讓我們對(duì)數(shù)據(jù)有一個(gè)大致的了解。
幾個(gè)常用組合:主成分分析+判別分析,適用于變量多而記錄數(shù)不多的情況;
           主成分分析+多元回歸分析,主成分分析可以幫助判斷是否存在共線(xiàn)性,并用于處理共線(xiàn)性問(wèn)題
           主成分分析+聚類(lèi)分析,不過(guò)這種組合因子分析可以更好的發(fā)揮優(yōu)勢(shì)。
  • 因子分析:首先,因子分析+多元回歸分析,可以利用因子分析解決共線(xiàn)性問(wèn)題;其次,可以利用因子分析,尋找變量之間的潛在結(jié)構(gòu);再次,因子分析+聚類(lèi)分析,可以通過(guò)因子分析尋找聚類(lèi)變量,從而簡(jiǎn)化聚類(lèi)變量;此外,因子分析還可以用于內(nèi)在結(jié)構(gòu)證實(shí)


★提問(wèn)時(shí)間:

Q1:為什么要降維?
A:在實(shí)際分析問(wèn)題時(shí),研究者往往選擇很多的指標(biāo)。這些指標(biāo)之間經(jīng)常會(huì)存在一定程度的線(xiàn)性相關(guān),這樣就會(huì)導(dǎo)致信息的重疊。直白說(shuō)就是用多個(gè)指標(biāo)分析一個(gè)問(wèn)題,由于某些指標(biāo)反映的是問(wèn)題的同一方面,這樣如果把全部指標(biāo)都同等地納入模型,就會(huì)導(dǎo)致結(jié)果失真。例如衡量學(xué)生成績(jī)時(shí),成績(jī)表里有語(yǔ)文、數(shù)學(xué)、物理、化學(xué)。可是化學(xué)老師勤快,一學(xué)期測(cè)驗(yàn)過(guò)好多次,所以這里就有多個(gè)化學(xué)成績(jī)。那么計(jì)算總分的時(shí)候,如果不把幾個(gè)化學(xué)成績(jī)降維成一個(gè)化學(xué)成績(jī),就會(huì)由于信息的重疊導(dǎo)致結(jié)果失真。(當(dāng)然還有另外一種情況,學(xué)校的科目開(kāi)設(shè)的非常多,比如財(cái)務(wù)管理,會(huì)計(jì)學(xué),審計(jì)學(xué),概率論,統(tǒng)計(jì)學(xué),高數(shù)……也可通過(guò)降維簡(jiǎn)單劃分為財(cái)會(huì)類(lèi),數(shù)理類(lèi))


Q2:線(xiàn)性相關(guān)就一定是信息重疊嗎?
A:這個(gè)不一定吧。我們舉個(gè)例子。比如:要衡量經(jīng)濟(jì)發(fā)展的影響因素,理論上講,刺激經(jīng)濟(jì)發(fā)展的三駕馬車(chē)是投資、消費(fèi)和出口,那么我們用于衡量經(jīng)濟(jì)發(fā)展程度是不是就把這三個(gè)指標(biāo)主成分一下?肯定不是。正確的做法應(yīng)該是這三個(gè)相加,縱然他們之間可能存在相關(guān),甚至是高度相關(guān),也不能使用主成分。因?yàn)檫@種相關(guān)不是信息的重疊。所以這里記住一點(diǎn),線(xiàn)性相關(guān)并不意味著信息重疊。


Q3:降維一定要用主成分嗎?
A:這個(gè)答案更容易回答,相信很多人都會(huì)說(shuō)否。但實(shí)際中卻一直這么操作。因?yàn)橛X(jué)得其他降維方法不會(huì)呀,而且主成分貌似很高深,用它倍有面子。其實(shí),實(shí)際中使用主成分是因?yàn)閺闹饔^(guān)上沒(méi)有辦法刪減變量,如果主觀(guān)上就能區(qū)別出哪些是核心原因,哪些不是,直接將不是的刪了就行了,沒(méi)必要搞個(gè)神秘的主成分來(lái)把問(wèn)題復(fù)雜化。要知道主成分使用時(shí),第一步是標(biāo)準(zhǔn)化,這樣一來(lái)很多指標(biāo)的意義就模糊了。這種刪減指標(biāo)的降維方法估計(jì)人人都會(huì),可實(shí)際中統(tǒng)計(jì)專(zhuān)業(yè)的達(dá)人們卻不屑使用??傆X(jué)得用這個(gè)方法太沒(méi)面子了。所以這里再?gòu)?qiáng)調(diào)點(diǎn),使用方法是為了有效解決問(wèn)題。有效才是解決問(wèn)題的關(guān)鍵。


Q4:使用主成分時(shí),相關(guān)變量一起上嗎?
A:答案依然為否。在使用主成分前,應(yīng)該先對(duì)指標(biāo)大致分類(lèi),將指標(biāo)中同一類(lèi)型或者衡量同一個(gè)方面的指標(biāo)歸為一類(lèi),這樣在分類(lèi)的基礎(chǔ)上進(jìn)行研究。這里有點(diǎn)驗(yàn)證性因子分析的意思。別跟我說(shuō)這樣太主觀(guān),其實(shí)主觀(guān)比客觀(guān)有效的多。如果只有客觀(guān),軟件就可以解決問(wèn)題,要人干嗎?再說(shuō),在人類(lèi)社會(huì)中基本沒(méi)有絕對(duì)客觀(guān)的東西,所有的客觀(guān)分析都建立在主觀(guān)的基礎(chǔ)上。高考客觀(guān)嗎?卷子是主觀(guān)出的。GDP客觀(guān)嗎?指標(biāo)是主觀(guān)定的……


Q5:主成分加權(quán)很科學(xué)嗎?
A:主成分加權(quán)是一種廣泛采用的客觀(guān)賦權(quán)方法。賦權(quán)的依據(jù)是各個(gè)主成分的方差貢獻(xiàn)率。但是方差大權(quán)重就應(yīng)該大嗎?重要性的判定應(yīng)該依據(jù)指標(biāo)的實(shí)際意義或者作用,而不應(yīng)該簡(jiǎn)單地依靠方差大小來(lái)判定吧。所以在沒(méi)有弄清楚主成分意義的情況下而盲目加權(quán)是不是有點(diǎn)太武斷了!

數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線(xiàn)
立即咨詢(xún)
客服在線(xiàn)
立即咨詢(xún)
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶(hù)后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說(shuō)明請(qǐng)參見(jiàn):http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }