
【連載2】如何用spss做均值比較分析
上一篇文章我們分享了如何用spss做相關(guān)性分析,主要包括雙變量相關(guān)分析,偏相關(guān)分析,以及比較偏門的距離相關(guān)分析。其中雙變量相關(guān)分析又包括三種不同的分析方法。如果忘了的可以回去看一下哈。這次我們來一起學(xué)習(xí)另一個(gè)比較基礎(chǔ)的分析方法,均值比較分析。
均值比較分析也是一種基礎(chǔ)的分析手段,我們通過基礎(chǔ)方法來看出數(shù)據(jù)中隱含的規(guī)律。只有明確了這些規(guī)律,在后邊的高級(jí)分析中才能起到事半功倍的效果。因此,我們首先學(xué)習(xí)均值比較分析,非參數(shù)檢驗(yàn)等基礎(chǔ)性的分析手段,然后在學(xué)習(xí)回歸,因子等較復(fù)雜的分析手法。
首先我們用統(tǒng)計(jì)術(shù)語來描述一下比較均值。
書上一般是這么定義的:在統(tǒng)計(jì)分析采用抽樣方法時(shí),會(huì)使樣本統(tǒng)計(jì)量與總體參數(shù)間存在差異,比較均值可推斷樣本均值間或樣本均值與總體均值間的差異是否具有統(tǒng)計(jì)學(xué)意義。
也就是說,通過比較兩個(gè)樣本的均值,或者比較樣本和總體之間的均值來判斷兩個(gè)樣本,或者樣本和總體之間是否有差異。所以,比較均值的目的就是判斷兩個(gè)數(shù)據(jù)組是否有差異。
舉個(gè)例子,假如我們知道一些小學(xué)生的數(shù)據(jù),想判斷性別不同的人身高和體重是否有顯著不同,就可以用均值檢驗(yàn)。再假如我們知道一些病人和正常人的血小板數(shù),我們想看看兩者的血小板數(shù)是否有不同,也用到均值檢驗(yàn)。
這兩個(gè)例子都比較簡單,我們下邊一起看看均值檢驗(yàn)具體都有哪些方法,并從具體方法中接觸更多的例子。
1、首先想給大家介紹的是單樣本t檢驗(yàn)。假設(shè)我們知道一個(gè)已知的總體均值,如果我們想要看看我們的樣本數(shù)據(jù)測均值和這個(gè)已經(jīng)知道的總體是否一致的時(shí)候,我們就用這種方法來比較均值。
打開分析——比較均值——單樣本t檢驗(yàn),在主面板里的檢驗(yàn)變量列表那個(gè)框框里選入你想作分析的變量,比如舉個(gè)例子,假設(shè)我們把一組男孩子每周逛超市的次數(shù)的數(shù)據(jù)選到了這個(gè)框框里,下邊那個(gè)檢驗(yàn)值就要輸入我們提前知道的世界上所有男孩子每周逛超市的次數(shù)的數(shù)據(jù)。(注意:這個(gè)數(shù)據(jù)應(yīng)該是我們已經(jīng)知道的哈,如果不知道的話,你還做什么單樣本t檢驗(yàn)?)
輸入完以后單擊選項(xiàng),會(huì)有一個(gè)置信區(qū)間的設(shè)定表。默認(rèn)的是95%,一般統(tǒng)計(jì)學(xué)這個(gè)精度就可以了,但是在醫(yī)學(xué)界,可能就要求更高的精度,so,自己看著設(shè)定哈。
繼續(xù),確定。
運(yùn)行結(jié)果里邊主要要看p值(就是sig,就是顯著度),p值大于0.05的時(shí)候,就說明樣本的均值和已知的均值沒有差異。反之亦然。
2、介紹完單樣本t檢驗(yàn)以后,就接著說說獨(dú)立樣本t檢驗(yàn)吧。如果想要知道兩個(gè)樣本分別代表的總體均值是否一樣,并且這兩個(gè)樣本彼此獨(dú)立的時(shí)候,我們就使用單樣本t
檢驗(yàn)來進(jìn)行判斷。
打開分析——比較均值——獨(dú)立樣本t檢驗(yàn),在主面板中的檢驗(yàn)變量中選入你想要檢驗(yàn)的變量,舉個(gè)例子,如果你想看一看男生和女生的每周購物次數(shù)的不同,那你就把每周購物次數(shù)的變量選到那個(gè)框框里,然后在分組變量列表選入性別變量。
這里一定要特寫一下。
大家一定要記得,我們輸入數(shù)據(jù)的時(shí)候,男生和女生的每周購物次數(shù)是在一列變量里的,另外還有一列二分類變量為這列因變量做標(biāo)注。我見過很多人這么做均值比較,他們把男生的每周購物次數(shù)作為一個(gè)變量,把女生的購物次數(shù)作為另一個(gè)變量,然后想分析這兩個(gè)變量的均值是否一樣。結(jié)果系統(tǒng)往往會(huì)給他一個(gè)警告,他還搞不懂是怎么回事。這種做法當(dāng)然是大錯(cuò)特錯(cuò)的,這樣做的話肯定是沒有辦法做均值分析的,大家千萬不要犯這種錯(cuò)誤。實(shí)際上我一直很奇怪為什么會(huì)有這么做的人,希望大家看書的時(shí)候一定要仔細(xì)哈。總之一定要記得不同組別的數(shù)據(jù)是在一個(gè)變量里邊的,你需要另外設(shè)定一個(gè)專門用來分組的變量,標(biāo)注清楚哪個(gè)數(shù)據(jù)是哪一組的。
特寫完畢。
上邊我們說到在因變量的框框里邊選入你想分析的變量,在自變量的框框里邊選入你作為分組標(biāo)記的二分類變量?,F(xiàn)在選好以后,點(diǎn)一下定義組那個(gè)框框,然后他就會(huì)彈出一個(gè)框框。在組一中輸入1,組二中輸入2,(如果你把男生,女生分別設(shè)定成1,2的話)。
然后點(diǎn)繼續(xù),確定。
然后就可以看輸出結(jié)果了。主要要看獨(dú)立樣本檢驗(yàn)的那個(gè)表。它最下邊有兩行,一行寫的是假設(shè)方差相等,另一行是假設(shè)方差不相等。你要先看假設(shè)方差相等這一行的levene檢驗(yàn)這一列的p值,如果p值大于0.05的話,就說明你的兩個(gè)樣本方差相等,可以看均值t檢驗(yàn)的p值,大于0.05就是兩樣本均值無差別,反之亦然。如果,注意,如果你的levene檢驗(yàn)的p值小于0.05,也就是說你的方差不齊的話,呵呵,你完蛋了。這時(shí)候你必須要通過對數(shù)轉(zhuǎn)換或者其他轉(zhuǎn)換方法轉(zhuǎn)換你的數(shù)據(jù),使得它方差齊才可以。
這里說明一下,我們?yōu)槭裁匆欢ㄒ讲铨R呢?原因是這樣的,方差不齊的話就代表樣本不符合正態(tài)分布,它都不符合正態(tài)分布了,你做t檢驗(yàn)豈不是不太合適?So,一定要方差齊哦~(這是大部分教科書上的說法,不過我記得以前看過一篇技術(shù)文章,探討的是方差齊和方差不齊對于樣本分布的影響到底有多大,探討過程忘掉了,只記得結(jié)果是方差不齊的話結(jié)果也有一定的意義,這里就是提一下哈,方差不齊的話也不必太緊張,而且后邊也還會(huì)介紹方差不齊的話怎么辦。)
此外對數(shù)變換也簡單提一下吧。對數(shù)變換這種方法主要用于醫(yī)學(xué)上含有比例數(shù)據(jù)的問題,比如把某種藥物以幾比幾百的比例稀釋,然后做實(shí)驗(yàn)的問題。這種數(shù)據(jù)太小了,所以要用對數(shù)變換適當(dāng)?shù)男薷臄?shù)據(jù)。具體方法是打開轉(zhuǎn)換——計(jì)算變量,輸入公式新變量=LG10(原來的變量),然后用生成的新變量做分析哈。這就是對數(shù)變換,有時(shí)候?qū)τ谄渌兞恳部梢赃@么變換哈。
3、配對樣本t檢驗(yàn)用于檢驗(yàn)兩相關(guān)樣本或成對樣本的均值是否一樣,通常用來檢驗(yàn)同一個(gè)對象實(shí)驗(yàn)前后測量值之間的差異,比方一組病人服藥前和服藥后的差異啊,這類的。
需要特別注意的兩種特殊情況是有時(shí)候一個(gè)家庭的夫妻的測量數(shù)據(jù)也視為相關(guān)樣本(以家庭為紐帶相關(guān)),孿生子也視為相關(guān)樣本(視為一個(gè)人)。這兩種情況還蠻特殊的,大家了解一下哈??傊唧w問題具體分析。
打開分析——比較均值——配對樣本t檢驗(yàn),在主面板的成對變量里選入治療前,治療后兩個(gè)變量(選成一對)。
繼續(xù),確定。
也是看p值,就不在重復(fù)了。
4、介紹完兩組樣本的情況以后,大家就來學(xué)習(xí)一下多組樣本怎么比較均值吧。這個(gè)檢驗(yàn)方法叫做單因素方差分析。名字聽上去還蠻高大上的,其實(shí)就是兩樣本t檢驗(yàn)的擴(kuò)展,用來檢驗(yàn)兩組以上樣本的均值的。
舉個(gè)例子,比如我想看看早上,中午,晚上三個(gè)時(shí)間段的體重,我就需要用到單因素方差分析這種方法。(因?yàn)槲矣腥M數(shù)據(jù)嘛)
打開分析——比較均值——單因素anova,打開主面板,因變量選擇我想要分析的變量(比如我的體重),因子選擇我的分組變量(就是標(biāo)清楚是早上,晚上,或者中午的那個(gè)變量)單擊對比,在子對話框里勾選多項(xiàng)式, 度 默認(rèn)為線性下邊的系數(shù)總計(jì)一般要是0.00,如果不是的話,可能系統(tǒng)要警告你了(老實(shí)說到現(xiàn)在我也不太清楚為什么系數(shù)總計(jì)要是0.00,不過相信總沒錯(cuò))。然后點(diǎn)繼續(xù),兩兩比較,在兩兩比較的對話框里會(huì)出現(xiàn)好多的框框可以讓你勾選,一般選假設(shè)方差齊性的LSD,Bonferroni,這兩項(xiàng),當(dāng)然感興趣的話可以都選選看哈。繼續(xù),選項(xiàng),這個(gè)對話框里邊要勾選描述性,方差同質(zhì)性檢驗(yàn),B_F,Welch,這四個(gè)選項(xiàng)。然后點(diǎn)繼續(xù),確定。
主要結(jié)果會(huì)有一大堆。我們慢慢看哈。首先要看的是方差齊性檢驗(yàn)表,levene統(tǒng)計(jì)量的p值最好大于0.05,這樣才認(rèn)為三個(gè)樣本的總體方差相等,(方差不等的話上邊已經(jīng)講過會(huì)怎樣了。)方差相等的話,我們就來看方差分析表,就是表頭寫著ANOVA的那個(gè)表。這個(gè)表不大,但結(jié)構(gòu)有點(diǎn)復(fù)雜,你要看組間的組合那一行的p值,小于0.05就認(rèn)為組與組之間的均值不全相等。注意,是不全相等哈。如果出現(xiàn)這種情況的話,你就要看下邊的多重比較表來尋找到底是哪兩個(gè)組的均值不等。還記得上邊我們選的LSD,Bonferroni嗎?那就是用來做多重比較表的哈,通過這個(gè)表的p值就可以判斷到底是哪兩個(gè)組的均值不等了。
最后要說的是做單因素方差分析的時(shí)候組與組之間的個(gè)案數(shù)可以相等,也可以不等。(之前有人問過,所以說一下)??傊?,單因素方差分析是一種比較復(fù)雜的不太好掌握的方法,因?yàn)樯婕暗饺绾畏纸M比較合理,組與組之間是否存在相互關(guān)系的問題,而且還涉及到它的延伸,雙因素方差分析(本文沒有涉及),大家應(yīng)該多找一些相關(guān)文獻(xiàn)讀一讀,這樣才能夠更好的掌握這種方法。
5、講完單因素方差分析后,我們反過來講一下平均值分析。我們知道,使用t檢驗(yàn)的一個(gè)要求就是樣本量比較小,一般要小于30,通常情況下樣本不會(huì)大于這個(gè)數(shù),但是如果大于了呢?這時(shí)候我們就要用到平均值分析這個(gè)選項(xiàng)。
打開分析——比較均值——均值,在主面板因變量列表選入你想要分析的變量,自變量列表選入你的分組變量。單擊選項(xiàng),選擇你想觀察的統(tǒng)計(jì)量,下邊勾選anova表,和線性相關(guān)檢驗(yàn),繼續(xù),確定。
在結(jié)果表的方差表里邊觀察他的p值,方法和上邊一樣。要說明一下的是,平均值分析和單因素方差分析一樣,也支持多組變量做均值比較。而且統(tǒng)計(jì)量里的峰度和偏度可以幫助你觀察樣本是否符合正態(tài)分布。
本文的主要內(nèi)容已經(jīng)講完了。總結(jié)一下的話,主要就是講了一下怎么比較樣本之間的均值。還是要再次提醒大家,我們使用上邊這些方法的一個(gè)重要前提就是,我們的樣本是符合正態(tài)分布的,只有滿足了這個(gè)重要條件,我們的分析才會(huì)有意義。這點(diǎn)很重要,大家一定一定要記住哈。
那么自然會(huì)有這么一個(gè)問題了,如果樣本不符合正態(tài)分布怎么辦呢?難道就不做均值檢驗(yàn)了嗎?下一篇文章我們就會(huì)來解決這個(gè)問題了,我們會(huì)討論非參數(shù)檢驗(yàn),同時(shí)也會(huì)順帶著講到正態(tài)性檢驗(yàn),CDA數(shù)據(jù)分析師培訓(xùn)
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10