
方差分析--T檢驗(yàn)和F檢驗(yàn)的異同
最近在圖書(shū)館借了本《R和ASReml-R統(tǒng)計(jì)分析教程》,林元震和陳曉陽(yáng)主編的關(guān)于R的書(shū)籍,當(dāng)時(shí)看上這本書(shū)的原因在于里面以統(tǒng)計(jì)學(xué)知識(shí)為主,作為R語(yǔ)言實(shí)戰(zhàn)的良好補(bǔ)充,雖然R語(yǔ)言實(shí)戰(zhàn)是一本相當(dāng)詳實(shí)的介紹R語(yǔ)言的書(shū),但是其中的統(tǒng)計(jì)學(xué)原理往往一筆帶過(guò)(雖然本書(shū)也不是很詳盡),但是作為一個(gè)數(shù)據(jù)分析從業(yè)人員,我感覺(jué)對(duì)于很多統(tǒng)計(jì)理論,達(dá)到可以講明白原理和邏輯就可以,具體的計(jì)算過(guò)程和推導(dǎo)反而在其次,而最重要的是在什么情況下應(yīng)用什么算法和模型,這才是最關(guān)鍵的。
這篇博客分享下對(duì)方差分析的理解。
其實(shí)在之前的文章中,對(duì)t檢驗(yàn)相關(guān)說(shuō)明比較多,而方差分析和t檢驗(yàn)方法的功效和作用非常相近,網(wǎng)上對(duì)此也不是很詳盡,下面首先說(shuō)說(shuō)我的理解。
這里說(shuō)的t檢驗(yàn)是雙樣本t,也就是兩組數(shù),看這兩組數(shù)據(jù)對(duì)應(yīng)的總體差異;方差檢驗(yàn)也是看兩組(及以上)的數(shù)據(jù)見(jiàn)有沒(méi)有差異,那么其實(shí)二者是不是一樣呢?
其實(shí)在某種程度是一樣的。下面的情況分為兩個(gè)維度:檢驗(yàn)的組數(shù)和組內(nèi)方差
情況1:僅有兩組,且組內(nèi)方差相等
在這種情況下,t檢驗(yàn)和F檢驗(yàn)相等
我們看下F檢驗(yàn)的原理,F(xiàn)檢驗(yàn)是看F分布,而F value是SSB/SSW,關(guān)于SSB和SSW可以參考可汗學(xué)院有一節(jié)專(zhuān)門(mén)講組間平方和(SSB)和組內(nèi)平方和(SSW),如果我們把組間平方和理解為兩組之間的差異,組內(nèi)平方和理解為兩組內(nèi)部不同數(shù)據(jù)的差異的話(huà),那么簡(jiǎn)單點(diǎn)說(shuō),兩個(gè)數(shù)據(jù)在有差異的前提下,究竟是組間的差異大,還是組內(nèi)的差異大呢?如果是組間的差異大,那么這兩組數(shù)據(jù)本身不一致的概率就非常大了,對(duì)應(yīng)F值比較大;
那么看看兩組的t檢驗(yàn),t檢驗(yàn)的前提是兩組數(shù)據(jù)都是從不同樣本抽出的數(shù)據(jù),而樣本都符合正態(tài)分布,然后用這兩個(gè)樣本推斷這兩個(gè)總體存不存在差異;舉個(gè)例子,我有一缸黑米,和一缸白米,為了看這兩缸米的密度有沒(méi)有差異,用小勺各盛了十次,觀察密度,然后用小勺的十次,去判定總體的差異;如果想用t檢驗(yàn),前提假設(shè)是由于隨機(jī)誤差,兩缸米在抽取的時(shí)候密度會(huì)有隨機(jī)誤差,那么每次抽取的密度都呈現(xiàn)正態(tài)分布,還有一個(gè)假設(shè),就是兩個(gè)勺子盛的米離散程度是相等的,也就是方差相等。所以,在方差相等,或者說(shuō)方差齊的前提是t檢驗(yàn)的必要前提。而F檢驗(yàn)不要求方差齊,或者說(shuō)本身就是檢查方差的差異的。
按照之前的定義,如果兩組方差齊,由于F檢驗(yàn)的F值是SSB/SSW,組內(nèi)方差相等,如果兩組有變異,那么全部都是由于組間差異造成的,F(xiàn)檢驗(yàn)自然成了t檢驗(yàn),下面附上F檢驗(yàn)和t檢驗(yàn)的代碼和結(jié)果(數(shù)據(jù)參考了《R和ASReml-R統(tǒng)計(jì)分析教程》中的數(shù)據(jù)):
weight<-scan()
16.68 20.67 18.42 18 17.44 15.95 18.68 23.22 21.42 19 18.92 NA
V<-rep(c('LY1','DXY'),rep(6,2))
df<-data.frame(V,weight)
a<-subset(df$weight,V=='LY1')
b<-subset(df$weight,V=='DXY')
var.test(a,b)
t.test(a,b,var.equal=T,paired = F)
t檢驗(yàn)的結(jié)果是:
Two Sample t-test
data: a and b
t = -2.1808, df = 9, p-value = 0.0571
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-4.86513222 0.08913222
sample estimates:
mean of x mean of y
17.860 20.248
F檢驗(yàn):
fit<-aov(weight~V,data=df)
summary(fit)
結(jié)果:
Df Sum Sq Mean Sq F value Pr(>F)
V 1 15.55 15.55 4.756 0.0571 .
Residuals 9 29.43 3.27
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
1 observation deleted due to missingness
可以看到p值都是0.0571,相等,因?yàn)榍疤崾窃趖檢驗(yàn)中加入了var.test,然后設(shè)置參數(shù)var.equal=T。下面看看方差不等的情況:
情況2,兩組數(shù)據(jù),方差不齊
在這種情況下,如果忽略了方差齊的前提,比如我重新做一組數(shù)據(jù),先檢測(cè)防擦:
weight<-scan()
16.68 20.67 18.42 18 17.44 30 18.68 23.22 21.42 19 18.92 82
V<-rep(c('LY1','DXY'),rep(6,2))
df<-data.frame(V,weight)
a<-subset(df$weight,V=='LY1')
b<-subset(df$weight,V=='DXY')
var.test(a,b)
看到檢測(cè)結(jié)果:
F test to compare two variances
data: a and b
F = 0.038913, num df = 5, denom df = 5, p-value = 0.002832
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.005445095 0.278085194
sample estimates:
ratio of variances
0.03891273
p為0.002832,所以方差不齊;
但是然后我們進(jìn)行方差齊的t檢驗(yàn):
t.test(a,b,var.equal=T,paired = F)
Two Sample t-test
data: a and b
t = -0.98304, df = 10, p-value = 0.3488
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-33.77097 13.09431
sample estimates:
mean of x mean of y
20.20167 30.54000
看到兩組均值相等的概率好大;
方差不齊調(diào)整后的t檢驗(yàn):
t.test(a,b,var.equal=F,paired = F)
Welch Two Sample t-test
data: a and b
t = -0.98304, df = 5.3885, p-value = 0.3676
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-36.79643 16.11976
sample estimates:
mean of x mean of y
20.20167 30.54000
P值是0.3676 稍微比之前大一些;
F檢驗(yàn):
fit<-aov(weight~V,data=df)
summary(fit)
Df Sum Sq Mean Sq F value Pr(>F)
V 1 321 320.6 0.966 0.349
Residuals 10 3318 331.8
p是0.349;這和t檢驗(yàn)在方差齊的前提下是相等的。
我理解是這樣的:
t檢驗(yàn)的前提是方差齊,只有方差齊了,t檢驗(yàn)的結(jié)果才反應(yīng)兩組數(shù)據(jù)的是否有差異,否則如果方差不齊的話(huà),會(huì)把組內(nèi)的差異也考慮進(jìn)去,所以判定的概率就更寬松;而F檢驗(yàn)其實(shí)就是看組間差異和組內(nèi)差異的比較,所以本質(zhì)上和t檢驗(yàn)方差齊的概念相似。但是實(shí)際上在方差不齊的時(shí)候是無(wú)法進(jìn)行t檢驗(yàn)的,結(jié)果不具有統(tǒng)計(jì)學(xué)意義。
情況3&4:多組情況下,方差齊&多組方差不齊
t檢驗(yàn)一般適用于兩組,所以在多維的情況下,不適用t檢驗(yàn),而F檢驗(yàn)可以判定多組、一組多變量和多組間有交互(單因素、協(xié)方差、雙因素?zé)o重復(fù)、雙因素有重復(fù)等),然后在通過(guò)兩兩比較進(jìn)行分析,用duncan和tukey等方法去判定。
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢(xún)效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話(huà)題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類(lèi)型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專(zhuān)業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專(zhuān)業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶(hù)體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷(xiāo)案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷(xiāo)成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類(lèi)分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類(lèi)分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10