
什么是列聯(lián)表
列聯(lián)表又稱交互分類(lèi)表,所謂交互分類(lèi),是指同時(shí)依據(jù)兩個(gè)變量的值,將所研究的個(gè)案分類(lèi)。交互分類(lèi)的目的是將兩變量分組,然后比較各組的分布狀況,以尋找變量間的關(guān)系。
這里是按兩個(gè)變量交叉分類(lèi)的,該列聯(lián)表稱為兩維列聯(lián)表,若按3個(gè)變量交叉分類(lèi),所得的列聯(lián)表稱為3維列聯(lián)表,依次類(lèi)推。3維及以上的列聯(lián)表通常稱為“多維列聯(lián)表”或“高維列聯(lián)表”,而一維列聯(lián)表就是頻數(shù)分布表。
列聯(lián)表的結(jié)構(gòu)
二維列聯(lián)表
r * c 列聯(lián)表
觀察值的分布
百分比分布
期望頻數(shù)的分布
獨(dú)立性檢驗(yàn)
假設(shè)觀察頻數(shù)與期望頻數(shù)沒(méi)有差別,而統(tǒng)計(jì)量χ2值表示二者間的偏離程度。
相關(guān)系數(shù)
ψ相關(guān)系數(shù)
皮爾遜定義的列聯(lián)系數(shù)
V相關(guān)系數(shù)
Fisher精確檢驗(yàn)
卡方統(tǒng)計(jì)量是近似的,而Fisher精確檢驗(yàn)使用的是超幾何分布。
相對(duì)危險(xiǎn)度(Relative Risk, RR)
參考下面的SPSS實(shí)例
優(yōu)勢(shì)比(Odds Ratio, OR)
參考下面的SPSS實(shí)例
Kappa一致性檢驗(yàn)
在數(shù)據(jù)分析中,比較兩種預(yù)測(cè)方法預(yù)測(cè)結(jié)果的一致性用到Kappa檢驗(yàn)。
配對(duì)χ2檢驗(yàn)
通過(guò)Kappa檢驗(yàn),解決了兩種測(cè)量間究竟有無(wú)關(guān)聯(lián)的問(wèn)題,但是通過(guò)列聯(lián)表的觀察,發(fā)現(xiàn)兩位顧問(wèn)的評(píng)價(jià)是否不太一致,這種假設(shè)又如何來(lái)加以分析呢?
McNemar配對(duì)χ2檢驗(yàn) 就是經(jīng)典的配對(duì)檢驗(yàn),專門(mén)用于解決這類(lèi)問(wèn)題。
分層χ2檢驗(yàn)
分層χ2檢驗(yàn)是把研究對(duì)象分解成不同層次,按各層對(duì)象來(lái)進(jìn)行行變量與列變量的獨(dú)立性研究。Statistics中Cochran’s and Mantel-Haenszel statistics會(huì)自動(dòng)給出結(jié)果。
分層χ2檢驗(yàn)是一種很好的控制其他因素的方法,使分析者能得到更準(zhǔn)確的結(jié)果。如果數(shù)據(jù)量足夠大 ,還可以引入更多的分層因素加以控制。 但是,和SAS中的CMH χ2不同,SPSS提供的CMH χ2檢驗(yàn)只能進(jìn)行二分類(lèi)變量的檢驗(yàn),而不能進(jìn)行多分類(lèi)變量的檢驗(yàn)。
檢驗(yàn)比較
χ2檢驗(yàn)
假設(shè)觀察頻數(shù)與期望頻數(shù)沒(méi)有差別,而統(tǒng)計(jì)量χ2值表示二者間的偏離程度。
卡方檢驗(yàn)方法的適用條件
關(guān)聯(lián)程度的度量
χ2檢驗(yàn)從定性的角度分析是否存在相關(guān)行,而各種關(guān)聯(lián)指標(biāo)(相對(duì)危險(xiǎn)度RR與優(yōu)勢(shì)比OR)從定量的角度分析相關(guān)的程度如何。
Kappa一致性檢驗(yàn)與配對(duì)χ2檢驗(yàn)
Kappa一致性檢驗(yàn)對(duì)兩種方法結(jié)果的一致程度進(jìn)行評(píng)價(jià),而配對(duì)χ2檢驗(yàn)則用于分析兩種分類(lèi)方法的分類(lèi)結(jié)果是否有差異。
分層χ2檢驗(yàn)
分層χ2檢驗(yàn)是把研究對(duì)象分解成不同層次,按各層對(duì)象來(lái)進(jìn)行行變量與列變量的獨(dú)立性研究。Statistics中Cochran’s and Mantel-Haenszel statistics會(huì)自動(dòng)給出結(jié)果。
SPSS分析
菜單
Analyze -> Descriptive Statistics -> Crosstabs
實(shí)例一:卡方檢驗(yàn)和風(fēng)險(xiǎn)評(píng)估
數(shù)據(jù)集(site.sav)
某公司實(shí)行數(shù)據(jù)庫(kù)營(yíng)銷(xiāo),其雜志銷(xiāo)售部每個(gè)月向數(shù)據(jù)庫(kù)中的人們發(fā)送征訂郵件,但是回應(yīng)率極低。他們希望找到一種好的方法來(lái)定位潛在的客戶,只向這些客戶發(fā)放郵件,從而節(jié)省人力物力。數(shù)據(jù)庫(kù)中的資料包括:個(gè)人一般信息(年齡、性別、婚姻狀況、收入、受教育水平及是否退休等),個(gè)人行為特征(主要交通工具、有無(wú)手機(jī)、呼機(jī)、電視、CD及是否訂閱報(bào)紙)。另外,在發(fā)送郵件后,還有一個(gè)變量也加入到了數(shù)據(jù)庫(kù)中:是否對(duì)郵件進(jìn)行回應(yīng),即是否在郵件的提示性進(jìn)行雜志購(gòu)買(mǎi)。經(jīng)研究發(fā)現(xiàn),報(bào)紙訂閱與郵件發(fā)送有相關(guān)性。該部門(mén)經(jīng)理想了解報(bào)紙訂閱者回應(yīng)郵件的概率是非訂閱者的幾倍。
參數(shù)設(shè)置
統(tǒng)計(jì)量
結(jié)果分析
交叉制表
列聯(lián)表分析表明,并沒(méi)有太多人對(duì)雜志的郵件做出回應(yīng),但是其中訂閱人占了較大比例。
卡方檢驗(yàn)
p值為0.000,故認(rèn)為訂閱報(bào)紙與郵件回應(yīng)是相關(guān)的。那么報(bào)紙訂閱者的回應(yīng)概率是未訂閱者的多少倍呢?通過(guò)計(jì)算RR來(lái)解決。
風(fēng)險(xiǎn)估計(jì)
對(duì)于報(bào)紙訂閱者而言,郵件響應(yīng)的相對(duì)危險(xiǎn)度是其回應(yīng)概率與非報(bào)紙訂閱者的回應(yīng)概率的比值,其估計(jì)值是(380/2768) / (299/3632) = 13.7% / 8.2%=1.668,表明報(bào)紙訂閱者對(duì)郵件的響應(yīng)概率是非報(bào)紙訂閱者的1.668倍。 或者說(shuō)報(bào)紙訂閱者對(duì)郵件的無(wú)響應(yīng)的概率是非報(bào)紙訂閱者的0.94倍。
而優(yōu)勢(shì)比即一個(gè)事件的Odds Ratio是它發(fā)生的概率除以不發(fā)生的概率
實(shí)例二:Kappa一致性檢驗(yàn)和配對(duì)卡方檢驗(yàn)
數(shù)據(jù)集(site.sav)
某公司期望擴(kuò)展業(yè)務(wù),增開(kāi)幾家分店,但對(duì)開(kāi)店地址不太確定。于是選了20個(gè)地址,請(qǐng)兩位資深顧問(wèn)分別對(duì)20個(gè)地址作了一個(gè)評(píng)價(jià),把它們?cè)u(píng)為好、中、差三個(gè)等級(jí),以便確定應(yīng)對(duì)哪些地址進(jìn)行更進(jìn)一步調(diào)查,那么這兩位資深顧問(wèn)的評(píng)價(jià)結(jié)果是否一致。
參數(shù)設(shè)置
統(tǒng)計(jì)量
結(jié)果分析
交叉制表
Kappa一致性檢驗(yàn)
Kappa檢驗(yàn)的原假設(shè):Kappa=0,即兩者完全無(wú)關(guān)。結(jié)果顯示Kappa=0.478,P<0.05,拒絕原假設(shè),認(rèn)為兩位顧問(wèn)的評(píng)價(jià)結(jié)果存在一致性。
配對(duì)卡方檢驗(yàn)
Kappa一致性檢驗(yàn)對(duì)兩種方法結(jié)果的一致程度進(jìn)行評(píng)價(jià),而配對(duì)χ2檢驗(yàn)則用于分析兩種分類(lèi)方法的分類(lèi)結(jié)果是否有差異。
此處原假設(shè):兩顧問(wèn)的評(píng)價(jià)結(jié)果無(wú)差別,而p=0.072>0.05,故接受原假設(shè),認(rèn)為基本上相同
實(shí)例三:分層卡方檢驗(yàn)
數(shù)據(jù)集(cmh.sav)
某零售連鎖店對(duì)3家分店的客戶滿意度進(jìn)行了調(diào)查,數(shù)據(jù)見(jiàn)cmh.sav,其中一項(xiàng)指標(biāo)是在購(gòu)物時(shí)是否經(jīng)常向店員尋求幫助,現(xiàn)希望分析尋求幫助與性別有無(wú)聯(lián)系。
統(tǒng)計(jì)結(jié)果
未分層的卡方檢驗(yàn)
將gender和contact分別作為行變量和列變量,并做χ2檢驗(yàn),p<0.05,認(rèn)為兩者間有聯(lián)系。
因?yàn)槊考曳值甑慕Y(jié)果可能不一樣,上面的卡方檢驗(yàn)收到分店因素的影響可能不準(zhǔn)確,需要根據(jù)分店進(jìn)行分層統(tǒng)計(jì)。
但是分層因素在幾個(gè)組之間的分布不均,既可能削弱了原本存在的行變量與列變量間的關(guān)系,也可能使得原本不存在關(guān)系的兩個(gè)變量關(guān)系呈現(xiàn)統(tǒng)計(jì)學(xué)顯著性。
按分店分層卡方檢驗(yàn)
可以看到分店的卡方檢驗(yàn)并無(wú)顯著性(p > 0.05),說(shuō)明每個(gè)分店的尋求幫助與性別之間沒(méi)有強(qiáng)關(guān)聯(lián)。
但是,由于分層后樣本量大大減小,這究竟是因?yàn)闄z驗(yàn)效能不足導(dǎo)致的無(wú)差異,還是真的無(wú)差異?
為此可以使用Cochran’s and Mantel-Haenszel χ2檢驗(yàn)來(lái)分析。這種方法可以在考慮了分層因素的影響后給出檢驗(yàn)結(jié)果。
Cochran’s and Mantel-Haenszel χ2檢驗(yàn)
首先給出的是層間差異的檢驗(yàn),即考察不同層間gender與contact的聯(lián)系是否相同。
原假設(shè)H0: 分店之間的聯(lián)系是相同的。
p = 0.638說(shuō)明,在不同分店層間, gender與contact的聯(lián)系是相同的。
調(diào)整了分層因素作用后的綜合OR值=0.636,即去除了不同分店的混雜效應(yīng)后,和女性相比,男性顧客尋求幫助的優(yōu)勢(shì)比為0.636,或者說(shuō)更不容易尋求幫助。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類(lèi)型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類(lèi)型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門(mén)控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03