
SPSS分析技術(shù):簡單對應(yīng)分析
分類型數(shù)據(jù)(包括定類數(shù)據(jù)和定序數(shù)據(jù))在數(shù)據(jù)分析中扮演著重要的角色,例如,分類型數(shù)據(jù)能夠幫助我們對每個數(shù)據(jù)記錄進行分門別類,但是由于分類型數(shù)據(jù)的特點,很多基于均值、方差和標準差的分析方法就不太適用了,通常使用的分析方法是基于頻數(shù)的卡方檢驗和邏輯回歸等。面對變量個數(shù)少、分類類別少的簡單局面,卡方檢驗和二分類邏輯回歸還能夠從容應(yīng)對,一旦變量數(shù)量和變量類別多時,分析結(jié)果的解讀就讓人頭痛了。
例如,研究全國34個省級行政區(qū)居民的收入水平情況,通過抽樣收集數(shù)據(jù),使用卡方檢驗?zāi)軌蚝苋菀椎贸霾煌〖壭姓^(qū)居民的收入水平分布有顯著性差異,但是無法得到北京市高收入居民比例高、云南低收入居民比例低這樣具體的結(jié)果,也就是無法對分類變量各類別間的相關(guān)關(guān)系進行清楚展現(xiàn)。對應(yīng)分析是解決類別相關(guān)關(guān)系展示很好的方法,它能夠?qū)⒎诸?a href='/map/jiaochabiao/' style='color:#000;font-size:inherit;'>交叉表轉(zhuǎn)換為相應(yīng)的對應(yīng)分析圖,從而使分類結(jié)果圖形化、直觀化。
對應(yīng)分析原理
數(shù)據(jù)統(tǒng)計分析方法有個很有趣的特點,就是名字很多,經(jīng)常出現(xiàn)同一個分析方法在不同書籍中的名稱不同,真有點百家爭鳴的味道,這是因為由人組成的社會,人們總是希望自己能夠青史留名,這不足為奇。對應(yīng)分析在很多地方也被稱為同質(zhì)性分析或數(shù)量化方法。
對應(yīng)分析的實質(zhì)就是將交叉表里面的頻數(shù)數(shù)據(jù)作變換以后,展現(xiàn)在散點圖上,從而將抽象的交叉表信息形象化。這個變換過程涉及到線性代數(shù)的內(nèi)容,因此在這里就不做數(shù)學公式的推導(dǎo)了,草堂君在這里做個形象的解釋。
我們以兩個分類變量的情況來介紹對應(yīng)分析的原理。學習過卡方檢驗的朋友應(yīng)該知道,卡方檢驗的實質(zhì)是將實際的頻數(shù)分析與期望頻數(shù)作對比,如果差距很大,超過界限值,那么就可以認為組成交叉表的兩個分類變量之間具有相關(guān)性。舉個生活例子,某汽車生產(chǎn)企業(yè)的市場部收集了某款汽車的銷售數(shù)據(jù),制成頻數(shù)交叉表:如果年齡變量與選購的汽車顏色之間沒有相關(guān)關(guān)系,那么這些頻數(shù)應(yīng)該是相似的,沒有巨大差異,反之,如果這兩個分類變量間有相關(guān)關(guān)系,那么某個或某些單元格里的頻數(shù)將顯著大于其它單元格。
根據(jù)上表的數(shù)據(jù),可以制作出由期望頻數(shù)組成的交叉表,期望頻數(shù)的計算公式為行頻數(shù)和*列頻數(shù)和/總頻數(shù)(參考第一列的計算過程)??ǚ綑z驗就是將上表的實際頻數(shù)與下表的期望頻數(shù)做逐個對比,算出卡方值和檢驗概率,從而判斷兩個變量是否有顯著性差異。
對應(yīng)分析承接上面兩個表格的工作,它首先算出每個單元格的標準化殘差,計算公式為:
從上面的公式來看,標準化殘差包含了某個年齡段和某種汽車顏色的相關(guān)關(guān)系信息,相當于相關(guān)系數(shù)。說到這里,是否想到因子分析。是的,對應(yīng)分析進行到這里,下一步也是提取標準化殘差矩陣(交叉表)的公因子,然后將3個年齡群體和4個汽車顏色放入由公因子(新維度)組成的坐標空間內(nèi),通過它們之間的空間距離判斷相關(guān)性強弱。
案例分析
歐洲人的眼睛和頭發(fā)顏色可以用“絢爛多彩”來形容,特別是北歐和東歐人。歐洲人頭發(fā)的顏色不僅有黑色,還有棕色、亞麻色、金黃色和紅色;眼睛的顏色有棕色、藍色、灰色、褐色和綠色。在基因理論和技術(shù)沒有發(fā)展起來以前,歐洲人的眼睛顏色和頭發(fā)顏色的關(guān)系一直是研究的熱點,眼睛顏色和頭發(fā)顏色到低是隨機搭配的呢?還是眼睛的某種顏色更多和某種頭發(fā)顏色搭配?對應(yīng)分析方法在這個問題上的研究一直被奉為經(jīng)典案例。基因技術(shù)發(fā)展起來以后,從基因的層面驗證了上述對應(yīng)分析的結(jié)果。
下面我們就以經(jīng)典的,F(xiàn)isher在1940采集的5387名蘇格蘭人的眼睛和頭發(fā)顏色數(shù)據(jù)為例,介紹如何使用SPSS進行簡單對應(yīng)分析,并對結(jié)果進行解釋。
分析思路
做簡單對應(yīng)分析(只有兩個分類變量)之前,需要對交叉表進行卡方檢驗,只有卡方檢驗結(jié)果顯示兩個分類變量之間具有相關(guān)性,才有必要作對應(yīng)分析,如果兩個分類變量之間沒有相關(guān)關(guān)系,也就失去作對應(yīng)分析的必要了。
分析步驟
1、個案加權(quán)處理;大家記住,涉及到分類數(shù)據(jù)頻數(shù)分析的情況,大多數(shù)情況下都需要進行個案加權(quán)處理。選擇菜單【數(shù)據(jù)】-【個案加權(quán)】,依照下圖進行操作,進行個案加權(quán)。
2、選擇菜單【分析】-【降維】-【對應(yīng)分析】,在跳出的對話框中進行如下操作。將頭發(fā)顏色選為行變量;眼睛顏色選為列變量;點擊定義范圍,依據(jù)變量的分類數(shù)值填寫最小值和最大值,然后點擊更新。
3、其它設(shè)置保持軟件默認狀態(tài)就可以。點擊確定,輸出結(jié)果。
結(jié)果解釋
1、交叉表格,也就是由兩個分類變量組成的交叉列聯(lián)表,交叉單元格內(nèi)的數(shù)值代表頻數(shù)。
2、對應(yīng)分析摘要表;
最后一行顯示的是上方交叉列聯(lián)表的卡方檢驗結(jié)果,顯著性小于0.05,說明眼睛顏色和頭發(fā)顏色之間存在相關(guān)關(guān)系,這決定了對應(yīng)分析是否有意義。
結(jié)果顯示通過標準化殘差矩陣總共提取了三個公因子,也就是三個維度,其中前面兩個維度能夠解釋原來變量99.6%的信息,因此第三個維度不做考慮。
奇異值和慣量都是線性代數(shù)的概念,慣量等于奇異值的平方。慣量值就相當于因子分析中的特征值,代表對應(yīng)維度在解釋原始數(shù)據(jù)信息中的重要性。
3、行變量和列變量坐標;這兩個表格顯示行變量和列變量中每個類別在新產(chǎn)生兩個維度中的坐標值。通過這兩個表格的數(shù)據(jù)結(jié)果就能夠做出對應(yīng)分析散點圖。數(shù)量代表每個類別的人數(shù)比例;
點對維的慣量表示分類變量中每個類別對維度的貢獻,例如,第一個維度主要由眼睛顏色中的深色(0.605)和淺色(0.286)構(gòu)成;
維對點的慣量正好相反,表示每個類別信息分別在兩個維度的比例,例如深色眼睛的信息在第一個維度中占96.5%,第二個維度只有3.5%。
4、對應(yīng)分析散點圖;從散點圖上看,金色頭發(fā)、紅色頭發(fā)與淺色眼睛和藍色眼睛的相關(guān)性強;棕色眼睛和棕色頭發(fā)相關(guān)性強;深色頭發(fā)、黑色頭發(fā)與深色眼睛的相關(guān)性強。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03