
方差分析--T檢驗和F檢驗的異同
最近在圖書館借了本《R和ASReml-R統(tǒng)計分析教程》,林元震和陳曉陽主編的關于R的書籍,當時看上這本書的原因在于里面以統(tǒng)計學知識為主,作為R語言實戰(zhàn)的良好補充,雖然R語言實戰(zhàn)是一本相當詳實的介紹R語言的書,但是其中的統(tǒng)計學原理往往一筆帶過(雖然本書也不是很詳盡),但是作為一個數(shù)據(jù)分析從業(yè)人員,我感覺對于很多統(tǒng)計理論,達到可以講明白原理和邏輯就可以,具體的計算過程和推導反而在其次,而最重要的是在什么情況下應用什么算法和模型,這才是最關鍵的。
這篇博客分享下對方差分析的理解。
其實在之前的文章中,對t檢驗相關說明比較多,而方差分析和t檢驗方法的功效和作用非常相近,網(wǎng)上對此也不是很詳盡,下面首先說說我的理解。
這里說的t檢驗是雙樣本t,也就是兩組數(shù),看這兩組數(shù)據(jù)對應的總體差異;方差檢驗也是看兩組(及以上)的數(shù)據(jù)見有沒有差異,那么其實二者是不是一樣呢?
其實在某種程度是一樣的。下面的情況分為兩個維度:檢驗的組數(shù)和組內(nèi)方差
情況1:僅有兩組,且組內(nèi)方差相等
在這種情況下,t檢驗和F檢驗相等
我們看下F檢驗的原理,F(xiàn)檢驗是看F分布,而F value是SSB/SSW,關于SSB和SSW可以參考可汗學院有一節(jié)專門講組間平方和(SSB)和組內(nèi)平方和(SSW),如果我們把組間平方和理解為兩組之間的差異,組內(nèi)平方和理解為兩組內(nèi)部不同數(shù)據(jù)的差異的話,那么簡單點說,兩個數(shù)據(jù)在有差異的前提下,究竟是組間的差異大,還是組內(nèi)的差異大呢?如果是組間的差異大,那么這兩組數(shù)據(jù)本身不一致的概率就非常大了,對應F值比較大;
那么看看兩組的t檢驗,t檢驗的前提是兩組數(shù)據(jù)都是從不同樣本抽出的數(shù)據(jù),而樣本都符合正態(tài)分布,然后用這兩個樣本推斷這兩個總體存不存在差異;舉個例子,我有一缸黑米,和一缸白米,為了看這兩缸米的密度有沒有差異,用小勺各盛了十次,觀察密度,然后用小勺的十次,去判定總體的差異;如果想用t檢驗,前提假設是由于隨機誤差,兩缸米在抽取的時候密度會有隨機誤差,那么每次抽取的密度都呈現(xiàn)正態(tài)分布,還有一個假設,就是兩個勺子盛的米離散程度是相等的,也就是方差相等。所以,在方差相等,或者說方差齊的前提是t檢驗的必要前提。而F檢驗不要求方差齊,或者說本身就是檢查方差的差異的。
按照之前的定義,如果兩組方差齊,由于F檢驗的F值是SSB/SSW,組內(nèi)方差相等,如果兩組有變異,那么全部都是由于組間差異造成的,F(xiàn)檢驗自然成了t檢驗,下面附上F檢驗和t檢驗的代碼和結(jié)果(數(shù)據(jù)參考了《R和ASReml-R統(tǒng)計分析教程》中的數(shù)據(jù)):
weight<-scan()
16.68 20.67 18.42 18 17.44 15.95 18.68 23.22 21.42 19 18.92 NA
V<-rep(c('LY1','DXY'),rep(6,2))
df<-data.frame(V,weight)
a<-subset(df$weight,V=='LY1')
b<-subset(df$weight,V=='DXY')
var.test(a,b)
t.test(a,b,var.equal=T,paired = F)
t檢驗的結(jié)果是:
Two Sample t-test
data: a and b
t = -2.1808, df = 9, p-value = 0.0571
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-4.86513222 0.08913222
sample estimates:
mean of x mean of y
17.860 20.248
F檢驗:
fit<-aov(weight~V,data=df)
summary(fit)
結(jié)果:
Df Sum Sq Mean Sq F value Pr(>F)
V 1 15.55 15.55 4.756 0.0571 .
Residuals 9 29.43 3.27
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
1 observation deleted due to missingness
可以看到p值都是0.0571,相等,因為前提是在t檢驗中加入了var.test,然后設置參數(shù)var.equal=T。下面看看方差不等的情況:
情況2,兩組數(shù)據(jù),方差不齊
在這種情況下,如果忽略了方差齊的前提,比如我重新做一組數(shù)據(jù),先檢測防擦:
weight<-scan()
16.68 20.67 18.42 18 17.44 30 18.68 23.22 21.42 19 18.92 82
V<-rep(c('LY1','DXY'),rep(6,2))
df<-data.frame(V,weight)
a<-subset(df$weight,V=='LY1')
b<-subset(df$weight,V=='DXY')
var.test(a,b)
看到檢測結(jié)果:
F test to compare two variances
data: a and b
F = 0.038913, num df = 5, denom df = 5, p-value = 0.002832
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.005445095 0.278085194
sample estimates:
ratio of variances
0.03891273
p為0.002832,所以方差不齊;
但是然后我們進行方差齊的t檢驗:
t.test(a,b,var.equal=T,paired = F)
Two Sample t-test
data: a and b
t = -0.98304, df = 10, p-value = 0.3488
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-33.77097 13.09431
sample estimates:
mean of x mean of y
20.20167 30.54000
看到兩組均值相等的概率好大;
方差不齊調(diào)整后的t檢驗:
t.test(a,b,var.equal=F,paired = F)
Welch Two Sample t-test
data: a and b
t = -0.98304, df = 5.3885, p-value = 0.3676
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-36.79643 16.11976
sample estimates:
mean of x mean of y
20.20167 30.54000
P值是0.3676 稍微比之前大一些;
F檢驗:
fit<-aov(weight~V,data=df)
summary(fit)
Df Sum Sq Mean Sq F value Pr(>F)
V 1 321 320.6 0.966 0.349
Residuals 10 3318 331.8
p是0.349;這和t檢驗在方差齊的前提下是相等的。
我理解是這樣的:
t檢驗的前提是方差齊,只有方差齊了,t檢驗的結(jié)果才反應兩組數(shù)據(jù)的是否有差異,否則如果方差不齊的話,會把組內(nèi)的差異也考慮進去,所以判定的概率就更寬松;而F檢驗其實就是看組間差異和組內(nèi)差異的比較,所以本質(zhì)上和t檢驗方差齊的概念相似。但是實際上在方差不齊的時候是無法進行t檢驗的,結(jié)果不具有統(tǒng)計學意義。
情況3&4:多組情況下,方差齊&多組方差不齊
t檢驗一般適用于兩組,所以在多維的情況下,不適用t檢驗,而F檢驗可以判定多組、一組多變量和多組間有交互(單因素、協(xié)方差、雙因素無重復、雙因素有重復等),然后在通過兩兩比較進行分析,用duncan和tukey等方法去判定。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03