抽樣于二項分布的數(shù)據(jù)的期望方差是σ2=nπ(1–π), n為觀測數(shù), π為屬于Y=1組的概率。所謂
過度離勢,即觀測到的響應(yīng)變量的方差大于期望的二項分布的方差。過度離勢會導(dǎo)致奇異的標準
誤檢驗和不精確的顯著性檢驗。
當出現(xiàn)過度離勢時,仍可使用glm()函數(shù)擬合Logistic回歸,但此時需要將二項分布改為類二
項分布(quasibinomial distribution)。
檢測過度離勢的一種方法是比較二項分布模型的殘差偏差與殘差自由度,如果比值:
比1大很多,你便可認為存在過度離勢?;氐交橥馇榈睦?,可得:
> deviance(fit.reduced)/df.residual(fit.reduced)
[1] 1.032
它非常接近于1,表明沒有過度離勢。
你還可以對過度離勢進行檢驗。為此,你需要擬合模型兩次,第一次使用family=
binomial",第二次使用family="quasibinomial"。假設(shè)第一次glm()返回對象記為fit,
第二次返回對象記為fit.od,那么:
pchisq(summary(fit.od)$dispersion * fit$df.residual,
fit$df.residual, lower = F)
提供的p值即可對零假設(shè)H0: ? =1與備擇假設(shè)H1: ? ≠1進行檢驗。若p很?。ㄐ∮?span style="font-size:10ptpx">0.05),你便可拒
絕零假設(shè)。
將其應(yīng)用到婚外情數(shù)據(jù)集,可得:
> fit <- glm(ynaffair ~ age + yearsmarried + religiousness +
rating, family = binomial(), data = Affairs)
> fit.od <- glm(ynaffair ~ age + yearsmarried + religiousness +
rating, family = quasibinomial(), data = Affairs)
> pchisq(summary(fit.od)$dispersion * fit$df.residual,
fit$df.residual, lower = F)
[1] 0.34
此處p值(0.34)顯然不顯著(p>0.05),這更增強了我們認為不存在過度離勢的信心。下節(jié)
介紹泊松回歸時,我們?nèi)詫^度離勢問題進行討論。








暫無數(shù)據(jù)