需要使用 BWGHT.RAW 中的數(shù)據(jù)。
(1)樣本中有多少婦女,又有多少人報(bào)告在懷孕期間抽煙?
(2)平均每天抽煙數(shù)量是多少?平均數(shù)作為這個(gè)案例中“典型”婦女的度量指標(biāo)好嗎?請(qǐng)解
釋。
(3)懷孕期間抽煙的婦女中,平均每天抽煙數(shù)量是多少?與第(2)部分中的答案有何區(qū)別,
為什么?
(4)求出樣本中 fatheduc 的平均值。為何只用 1192 個(gè)觀測(cè)計(jì)算這個(gè)平均值?
(5)報(bào)告平均家庭收入及其標(biāo)準(zhǔn)誤,以美元為單位。
準(zhǔn)備:
該題所使用的數(shù)據(jù)各變量的具體解釋可參見原書第 4 版的第 141 頁的例 4.9“嬰兒出生體重方差
中父母的受教育程度”。
在 RStudio 中導(dǎo)入 BWGHT
attach(BWGHT) #綁定數(shù)據(jù)集 BWGHT
(1) 樣本中有多少婦女,又有多少人報(bào)告在懷孕期間抽煙?
BWGHT[!complete.cases(BWGHT),] #在加載數(shù)據(jù)后我們可以先掃一眼數(shù)據(jù),發(fā)現(xiàn)有 NA 值,進(jìn)而
引起我們的警惕,所以首先檢查數(shù)據(jù)是否有缺失值。該命令可以列出矩陣或數(shù)據(jù)框中有一個(gè)或
者多個(gè)缺失值的行。 。(參見《R 語言實(shí)戰(zhàn)》第一版 319 頁) 返回的結(jié)果是一個(gè) 197 x 14 的
表,表示有 197 個(gè)觀測(cè)存在一個(gè)或幾個(gè)變量上的缺失。
library(mice)
md.pattern(BWGHT) #我們發(fā)現(xiàn)缺失值過多,而且缺失值分在的不同變量中,我們進(jìn)而采用一
種更方便的方法審視缺失值。 mice 包中的 md.pattern()函數(shù)能夠輕松實(shí)現(xiàn)這一功能。(參見
《R 語言實(shí)戰(zhàn)》第一版 320 頁)。返回的結(jié)果告訴我們?cè)?fatheduc 變量上有缺失值的觀測(cè)有
196 個(gè),而在 motheduc 上有缺失值的觀測(cè)有 1 個(gè)。
length(fatheduc) # 由于該數(shù)據(jù)集中的觀測(cè)是婦女的寶寶的情況,所以一個(gè)觀測(cè)對(duì)應(yīng)著一名婦
女。我們只需隨意取一個(gè)變量,測(cè)量其觀測(cè)值數(shù)量即可。值得一提的是,缺失值仍然會(huì)計(jì)算為
一個(gè)觀測(cè)。例如 fatheduc 中有 196 個(gè)缺失值,而 faminc 中沒有缺失值,但 length(fatheduc)
table(cigs) #為了求得有多少人報(bào)告在懷孕期間抽煙,我們可以把 cigs 變量做個(gè)頻數(shù)統(tǒng)計(jì)。我們
看到 cigs 為 0 的共有 1176 人,那么抽煙的人就是 1388-1176=212 人。
a<-BWGHT[cigs>0,]
a #我們也可以把 cigs 大于 0 的觀測(cè)提取出來保存在 a 中,然后展現(xiàn) a,發(fā)現(xiàn)其是 212 x 14 的
表,說明有 212 個(gè)觀測(cè)的 cigs 大于 0。
(2) 平均每天抽煙數(shù)量是多少?平均數(shù)作為這個(gè)案例中“典型”婦女的度量指標(biāo)好嗎?請(qǐng)解
釋。
mean(cigs) #求平均數(shù)得到 2.087176
通過之前的 table(cigs)由我們可以發(fā)現(xiàn)絕大部分婦女是不抽煙的,而且存在幾個(gè)幾個(gè)嗜煙如命
的人,例如有人一天抽 50 只煙!因此,說一個(gè)典型的婦女每日抽煙 2 只并不具備代表性。
(3)懷孕期間抽煙的婦女中,平均每天抽煙數(shù)量是多少?與第(2)部分中的答案有何區(qū)別,
為什么?
mean(a$cigs) #我們之前把抽煙的觀測(cè)都保存在了數(shù)據(jù)集 a 中,我們?cè)儆?jì)算 a$cigs 的平均值就
是懷孕期間抽煙的婦女的平均吸煙數(shù)。這個(gè)值計(jì)算出來是 13.66509。
我們發(fā)現(xiàn)這一平均值遠(yuǎn)遠(yuǎn)大于第(2)部分中的答案。更加證實(shí)了(2)中的答案不能代表“典
型”的婦女。
(4)求出樣本中 fatheduc 的平均值。為何只用 1192 個(gè)觀測(cè)計(jì)算這個(gè)平均值?
mean(fatheduc,na.rm = TRUE) #由于 fatheduc 存在缺失值,我們直接在 mean()中定義 na.rm =
TRUE 來計(jì)算排除缺失值的平均值。
只用 1192 個(gè)觀測(cè)計(jì)算這個(gè)平均值是因?yàn)?fatheduc 有 196 個(gè)缺失值。
(5)報(bào)告平均家庭收入及其標(biāo)準(zhǔn)誤,以美元為單位。
income<-1000*faminc #將家庭收入換算成美元(faminc 是以千美元為單位的),保存在
income 中。
mean(income) #平均家庭收入為 29026.66。
std <- function(x) sd(x)/sqrt(length(x)) #我們編寫一個(gè)標(biāo)準(zhǔn)誤的公式。
std(income) #得到標(biāo)準(zhǔn)誤為 502.9888。
detach(BWGHT) #解除綁定數(shù)據(jù)集 BWGHT
和 length(faminc)都得到 1388。所以一共有 1388 名婦女。








暫無數(shù)據(jù)