需要使用 BWGHT.RAW 中的數(shù)據(jù)。
(1)樣本中有多少婦女,又有多少人報告在懷孕期間抽煙?
(2)平均每天抽煙數(shù)量是多少?平均數(shù)作為這個案例中“典型”婦女的度量指標好嗎?請解
釋。
(3)懷孕期間抽煙的婦女中,平均每天抽煙數(shù)量是多少?與第(2)部分中的答案有何區(qū)別,
為什么?
(4)求出樣本中 fatheduc 的平均值。為何只用 1192 個觀測計算這個平均值?
(5)報告平均家庭收入及其標準誤,以美元為單位。
準備:
該題所使用的數(shù)據(jù)各變量的具體解釋可參見原書第 4 版的第 141 頁的例 4.9“嬰兒出生體重方差
中父母的受教育程度”。
在 RStudio 中導入 BWGHT
attach(BWGHT) #綁定數(shù)據(jù)集 BWGHT
(1) 樣本中有多少婦女,又有多少人報告在懷孕期間抽煙?
BWGHT[!complete.cases(BWGHT),] #在加載數(shù)據(jù)后我們可以先掃一眼數(shù)據(jù),發(fā)現(xiàn)有 NA 值,進而
引起我們的警惕,所以首先檢查數(shù)據(jù)是否有缺失值。該命令可以列出矩陣或數(shù)據(jù)框中有一個或
者多個缺失值的行。 。(參見《R 語言實戰(zhàn)》第一版 319 頁) 返回的結(jié)果是一個 197 x 14 的
表,表示有 197 個觀測存在一個或幾個變量上的缺失。
library(mice)
md.pattern(BWGHT) #我們發(fā)現(xiàn)缺失值過多,而且缺失值分在的不同變量中,我們進而采用一
種更方便的方法審視缺失值。 mice 包中的 md.pattern()函數(shù)能夠輕松實現(xiàn)這一功能。(參見
《R 語言實戰(zhàn)》第一版 320 頁)。返回的結(jié)果告訴我們在 fatheduc 變量上有缺失值的觀測有
196 個,而在 motheduc 上有缺失值的觀測有 1 個。
length(fatheduc) # 由于該數(shù)據(jù)集中的觀測是婦女的寶寶的情況,所以一個觀測對應(yīng)著一名婦
女。我們只需隨意取一個變量,測量其觀測值數(shù)量即可。值得一提的是,缺失值仍然會計算為
一個觀測。例如 fatheduc 中有 196 個缺失值,而 faminc 中沒有缺失值,但 length(fatheduc)
table(cigs) #為了求得有多少人報告在懷孕期間抽煙,我們可以把 cigs 變量做個頻數(shù)統(tǒng)計。我們
看到 cigs 為 0 的共有 1176 人,那么抽煙的人就是 1388-1176=212 人。
a<-BWGHT[cigs>0,]
a #我們也可以把 cigs 大于 0 的觀測提取出來保存在 a 中,然后展現(xiàn) a,發(fā)現(xiàn)其是 212 x 14 的
表,說明有 212 個觀測的 cigs 大于 0。
(2) 平均每天抽煙數(shù)量是多少?平均數(shù)作為這個案例中“典型”婦女的度量指標好嗎?請解
釋。
mean(cigs) #求平均數(shù)得到 2.087176
通過之前的 table(cigs)由我們可以發(fā)現(xiàn)絕大部分婦女是不抽煙的,而且存在幾個幾個嗜煙如命
的人,例如有人一天抽 50 只煙!因此,說一個典型的婦女每日抽煙 2 只并不具備代表性。
(3)懷孕期間抽煙的婦女中,平均每天抽煙數(shù)量是多少?與第(2)部分中的答案有何區(qū)別,
為什么?
mean(a$cigs) #我們之前把抽煙的觀測都保存在了數(shù)據(jù)集 a 中,我們再計算 a$cigs 的平均值就
是懷孕期間抽煙的婦女的平均吸煙數(shù)。這個值計算出來是 13.66509。
我們發(fā)現(xiàn)這一平均值遠遠大于第(2)部分中的答案。更加證實了(2)中的答案不能代表“典
型”的婦女。
(4)求出樣本中 fatheduc 的平均值。為何只用 1192 個觀測計算這個平均值?
mean(fatheduc,na.rm = TRUE) #由于 fatheduc 存在缺失值,我們直接在 mean()中定義 na.rm =
TRUE 來計算排除缺失值的平均值。
只用 1192 個觀測計算這個平均值是因為 fatheduc 有 196 個缺失值。
(5)報告平均家庭收入及其標準誤,以美元為單位。
income<-1000*faminc #將家庭收入換算成美元(faminc 是以千美元為單位的),保存在
income 中。
mean(income) #平均家庭收入為 29026.66。
std <- function(x) sd(x)/sqrt(length(x)) #我們編寫一個標準誤的公式。
std(income) #得到標準誤為 502.9888。
detach(BWGHT) #解除綁定數(shù)據(jù)集 BWGHT
和 length(faminc)都得到 1388。所以一共有 1388 名婦女。








暫無數(shù)據(jù)