
SPSS詳細(xì)操作:碰見有序分類資料,怎么辦
經(jīng)常聽到有小伙伴剛學(xué)了武林秘籍之卡方檢驗(yàn),只要碰到分類資料就一通亂打,雖說有時(shí)候能贏幾場(chǎng),但是也有被打的鼻青臉腫的,還自言自語的說,招數(shù)沒毛病呀???事實(shí)上毛病大了去了,與人過招,知己知彼,見招拆招,方能克敵制勝!所以我們先來捋捋分類資料的分析。
常見的分類資料可以分成四類:
老大,雙向無序分類,特點(diǎn)是分組變量和結(jié)局變量均為無序多分類(或二分類),例如比較漢族、回族和蒙古族ABO血型分布有無差別;
老二,單向有序分類,分組變量或結(jié)局變量為有序變量,例如比較35-、45-、55-、65-歲組血脂異常的患病率有無差別,或者比較A和B兩種藥物對(duì)于疾病預(yù)后 (痊愈、顯著改善、進(jìn)步、無效)有無差異;
老三,雙向有序?qū)傩圆煌姆诸?,這里既強(qiáng)調(diào)行變量和列變量均為有序分類資料,并且屬性不相同(行列變量不一致),例如觀察年齡對(duì)疾病預(yù)后有無影響(35-、45-、55-、65-歲組 vs 痊愈、顯著改善、進(jìn)步、無效);
老四,雙向有序?qū)傩韵嗤姆诸?,行變量和列變量均為有序分類資料,并且屬性相同(行列變量一致),例如A和B兩種方法對(duì)某種免疫物質(zhì)的檢出情況(--/-/+/++)。
(注:上文提到的“屬性”,我們后期會(huì)專門推送一篇文章來講解~)
針對(duì)雙向無序分類和雙向有序?qū)傩韵嗤姆诸愘Y料的分析方法,前面幾期有詳細(xì)介紹,還沒看過的小伙伴戳SPSS詳細(xì)操作:多個(gè)獨(dú)立樣本列聯(lián)表的卡方檢驗(yàn)/SPSS詳細(xì)操作:一致性檢驗(yàn)和配對(duì)卡方檢驗(yàn)。這次我們一塊兒搞定單向有序分類和雙向有序?qū)傩圆煌姆诸愘Y料的SPSS操作。
一、單向有序分類
血脂異常的患病率隨著年齡增加而增加嗎?
某研究小白在利用某項(xiàng)調(diào)查數(shù)據(jù)分析時(shí),想研究一下年齡與血脂異常之間的關(guān)系,想起了之前學(xué)過的多個(gè)獨(dú)立樣本的卡方檢驗(yàn)SPSS操作,于是照貓畫虎,分析了一下手里的數(shù)據(jù)。
Analyze→ Descriptive Statistics→ Crosstabs: Row(Age); Column(Dyslipidemia)→Statistics: Chi-square; Continue→ Cells: Percentages(勾選Row); Continue→ OK
看到分析結(jié)果,尤其是P=0.003,小白立刻眼睛冒光,馬上超級(jí)自信地下了結(jié)論:經(jīng)獨(dú)立樣本卡方檢驗(yàn),血脂異常的患病率隨著年齡增加而增加(P=0.003),但是剛說完心里又犯嘀咕,想起之前學(xué)的獨(dú)立樣本卡方檢驗(yàn),好像這里只能說明不同年齡組之間血脂異?;疾÷视薪y(tǒng)計(jì)學(xué)差異。嗯,沒錯(cuò)!這里如果只看Pearson Chi-Square的結(jié)果,會(huì)忽略年齡分組為有序變量這個(gè)信息點(diǎn),損失了信息,所以這里更好的是看Linear-by-Linear Association的結(jié)果。
提到趨勢(shì)性卡方檢驗(yàn),想必大家并不陌生,主要用來明確分類變量之間的線性趨勢(shì),比如這里的“血脂異常的患病率隨著年齡增加而增加”。趨勢(shì)性卡方檢驗(yàn)最常用的方法是Cochran-Armitage trend test,很遺憾SPSS并沒有提供這種方法,而是另一種方法Linear-by-Linear Association,兩個(gè)結(jié)果相近,所以大家也可以放心使用。
聽到這里,研究小白馬上修改了結(jié)論:經(jīng)趨勢(shì)性卡方檢驗(yàn),血脂異常的患病率隨著年齡增加而增加(P<0.001)。
拓展一下,相信不少小伙伴會(huì)想起Spearman秩相關(guān),感覺這里好像也可以用Spearman秩相關(guān)來分析年齡組和血脂異常的關(guān)系。事實(shí)上,也是可以滴!但是趨勢(shì)性卡方檢驗(yàn)和Spearman秩相關(guān)有些不同。
Analyze →Correlate →Bivariate →Variables: Age, Dyslipidemia; Correlation Coefficients: Spearman(勾選)→OK
首先,嚴(yán)格地講,做趨勢(shì)性卡方檢驗(yàn)時(shí),需要對(duì)分組變量和結(jié)局變量進(jìn)行評(píng)分賦值,連續(xù)變量取組中值為等級(jí)評(píng)分;如果是等級(jí)資料,給以順序性的評(píng)分,如1、2、3……;分類資料,陽性或患病等為1,陰性或不患病等為0。這里就涉及到一個(gè)問題,對(duì)于Spearman秩相關(guān)是基于變量秩次進(jìn)行相關(guān)分析的,比如說上面的例子,如果去掉55-歲組,趨勢(shì)性卡方檢驗(yàn)中變量評(píng)分為1、2、4,而Spearman秩相關(guān)是1、2、3,這就反映兩種分析方法的利用信息能力不一樣。
其次,兩種方法的檢驗(yàn)效能不同,趨勢(shì)性卡方檢驗(yàn)屬于參數(shù)檢驗(yàn),當(dāng)我們假定存在線性趨勢(shì)時(shí),檢驗(yàn)效能更高;而Spearman秩相關(guān)計(jì)算變量秩次,損失了信息,相同條件下,檢驗(yàn)效能較低,比如這里Spearman秩相關(guān)P=0.001,趨勢(shì)性卡方檢驗(yàn)P<0.001。
最后,兩者得到的結(jié)論也有所不同,趨勢(shì)性卡方檢驗(yàn)可以直接得出“血脂異常的患病率隨著年齡增加而增加”,而Spearman秩相關(guān)因?yàn)槭褂米兞恐却畏治?,所以?yán)格地講,它反映的是兩個(gè)分類變量秩次有相關(guān),因?yàn)闆]有考慮變量的具體取值,更多是一種相對(duì)穩(wěn)定的相關(guān)關(guān)系。
二、雙向有序?qū)傩圆煌姆诸?
干活兒越重骨質(zhì)退行越重?
有一項(xiàng)旨在探討骨質(zhì)退行性變是否與勞動(dòng)強(qiáng)度有關(guān),觀察150名研究對(duì)象。勞動(dòng)強(qiáng)度分為輕、中、重度,骨質(zhì)退行性變?yōu)?、3、4度,兩個(gè)變量都屬于等級(jí)變量,但是屬性不同。
對(duì)于雙向有序?qū)傩圆煌馁Y料,有的小伙伴就說啦,可以用Spearman秩相關(guān)嘛,有些小伙伴就要很疑惑,為什么不可以用卡方檢驗(yàn)?zāi)兀?
這里和大家一塊兒掰扯掰扯。對(duì)于等級(jí)資料相關(guān)分析,Spearman秩相關(guān)也是可以計(jì)算滴,但問題關(guān)鍵是,在做秩相關(guān)時(shí),需要對(duì)原始數(shù)據(jù)進(jìn)行編秩次,因?yàn)槭堑燃?jí)資料,所以會(huì)產(chǎn)生大量秩次相等的平均秩次,進(jìn)而低估了變量之間的關(guān)聯(lián)系數(shù)。
如果是獨(dú)立樣本的卡方檢驗(yàn)?zāi)??那就錯(cuò)的比較離譜一些!卡方檢驗(yàn)的核心是列聯(lián)表中每一個(gè)格子中的理論頻數(shù)和實(shí)際觀測(cè)頻數(shù)偏離程度,行和列的位置是不重要的(比如你可以把行列互換,或者把第一行和第二行互換),結(jié)果都是一樣的。問題就來了,這樣就損失了變量“有序”——這個(gè)非常關(guān)鍵的信息點(diǎn),比如這里例子,我們想知道是不是勞動(dòng)強(qiáng)度越重,骨質(zhì)退行越重。
有小伙伴要著急了,這也不行,那也不行,到底要咋整?給大家?guī)碇亓考?jí)武器——Goodman-Kruskal Gamma方法(簡(jiǎn)稱Gamma法)。Gamma法主要用于有序分類資料的關(guān)聯(lián)性分析,并且計(jì)算Gamma系數(shù)(類似于Spearman秩相關(guān)rs)。
Gamma系數(shù)取值在-1到1之間,G=0表示兩個(gè)變量不相關(guān),G>0表示兩個(gè)變量正相關(guān),G<0表示兩個(gè)變量負(fù)相關(guān);G的絕對(duì)值越接近1,表示兩個(gè)變量的關(guān)聯(lián)強(qiáng)度越大,越接近0,關(guān)聯(lián)程度越小。
下面一起看看SPSS怎么進(jìn)行Gamma。
Analyze →Descriptive Statistics →Crosstabs: Row(勞動(dòng)強(qiáng)度); Column(骨退變)→Statistics: Gamma; Continue →OK
上面的結(jié)果顯示:G=0.244,P=0.025<0.05,勞動(dòng)強(qiáng)度與骨退變之間互相關(guān)聯(lián),即隨著勞動(dòng)強(qiáng)度增加,骨質(zhì)退行越重,關(guān)聯(lián)系數(shù)為0.244。
再看看Spearman秩相關(guān)的結(jié)果。
Analyze →Correlate →Bivariate →Variables: 勞動(dòng)強(qiáng)度,骨退變; Correlation Coefficients: Spearman(勾選)→OK
可以看到Spearman秩相關(guān)系數(shù)rs=0.183,小于G(0.244),低估了變量之間的關(guān)聯(lián)強(qiáng)度。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03