99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
2018-11-20 閱讀量: 1538
缺失值、按條件選入觀測(cè)、 條件計(jì)數(shù)

需要使用 BWGHT.RAW 中的數(shù)據(jù)。

(1)樣本中有多少婦女,又有多少人報(bào)告在懷孕期間抽煙?

(2)平均每天抽煙數(shù)量是多少?平均數(shù)作為這個(gè)案例中“典型”婦女的度量指標(biāo)好嗎?請(qǐng)解

釋。

(3)懷孕期間抽煙的婦女中,平均每天抽煙數(shù)量是多少?與第(2)部分中的答案有何區(qū)別,

為什么?

(4)求出樣本中 fatheduc 的平均值。為何只用 1192 個(gè)觀測(cè)計(jì)算這個(gè)平均值?

(5)報(bào)告平均家庭收入及其標(biāo)準(zhǔn)誤,以美元為單位。

準(zhǔn)備:

該題所使用的數(shù)據(jù)各變量的具體解釋可參見原書第 4 版的第 141 頁的例 4.9“嬰兒出生體重方差

中父母的受教育程度”。

在 RStudio 中導(dǎo)入 BWGHT

attach(BWGHT) #綁定數(shù)據(jù)集 BWGHT

(1) 樣本中有多少婦女,又有多少人報(bào)告在懷孕期間抽煙?

BWGHT[!complete.cases(BWGHT),] #在加載數(shù)據(jù)后我們可以先掃一眼數(shù)據(jù),發(fā)現(xiàn)有 NA 值,進(jìn)而

引起我們的警惕,所以首先檢查數(shù)據(jù)是否有缺失值。該命令可以列出矩陣或數(shù)據(jù)框中有一個(gè)或

者多個(gè)缺失值的行。 。(參見《R 語言實(shí)戰(zhàn)》第一版 319 頁) 返回的結(jié)果是一個(gè) 197 x 14 的

表,表示有 197 個(gè)觀測(cè)存在一個(gè)或幾個(gè)變量上的缺失。

library(mice)

md.pattern(BWGHT) #我們發(fā)現(xiàn)缺失值過多,而且缺失值分在的不同變量中,我們進(jìn)而采用一

種更方便的方法審視缺失值。 mice 包中的 md.pattern()函數(shù)能夠輕松實(shí)現(xiàn)這一功能。(參見

《R 語言實(shí)戰(zhàn)》第一版 320 頁)。返回的結(jié)果告訴我們?cè)?fatheduc 變量上有缺失值的觀測(cè)有

196 個(gè),而在 motheduc 上有缺失值的觀測(cè)有 1 個(gè)。

length(fatheduc) # 由于該數(shù)據(jù)集中的觀測(cè)是婦女的寶寶的情況,所以一個(gè)觀測(cè)對(duì)應(yīng)著一名婦

女。我們只需隨意取一個(gè)變量,測(cè)量其觀測(cè)值數(shù)量即可。值得一提的是,缺失值仍然會(huì)計(jì)算為

一個(gè)觀測(cè)。例如 fatheduc 中有 196 個(gè)缺失值,而 faminc 中沒有缺失值,但 length(fatheduc)

table(cigs) #為了求得有多少人報(bào)告在懷孕期間抽煙,我們可以把 cigs 變量做個(gè)頻數(shù)統(tǒng)計(jì)。我們

看到 cigs 為 0 的共有 1176 人,那么抽煙的人就是 1388-1176=212 人。

a<-BWGHT[cigs>0,]

a #我們也可以把 cigs 大于 0 的觀測(cè)提取出來保存在 a 中,然后展現(xiàn) a,發(fā)現(xiàn)其是 212 x 14 的

表,說明有 212 個(gè)觀測(cè)的 cigs 大于 0。

(2) 平均每天抽煙數(shù)量是多少?平均數(shù)作為這個(gè)案例中“典型”婦女的度量指標(biāo)好嗎?請(qǐng)解

釋。

mean(cigs) #求平均數(shù)得到 2.087176

通過之前的 table(cigs)由我們可以發(fā)現(xiàn)絕大部分婦女是不抽煙的,而且存在幾個(gè)幾個(gè)嗜煙如命

的人,例如有人一天抽 50 只煙!因此,說一個(gè)典型的婦女每日抽煙 2 只并不具備代表性。

(3)懷孕期間抽煙的婦女中,平均每天抽煙數(shù)量是多少?與第(2)部分中的答案有何區(qū)別,

為什么?

mean(a$cigs) #我們之前把抽煙的觀測(cè)都保存在了數(shù)據(jù)集 a 中,我們?cè)儆?jì)算 a$cigs 的平均值就

是懷孕期間抽煙的婦女的平均吸煙數(shù)。這個(gè)值計(jì)算出來是 13.66509。

我們發(fā)現(xiàn)這一平均值遠(yuǎn)遠(yuǎn)大于第(2)部分中的答案。更加證實(shí)了(2)中的答案不能代表“典

型”的婦女。

(4)求出樣本中 fatheduc 的平均值。為何只用 1192 個(gè)觀測(cè)計(jì)算這個(gè)平均值?

mean(fatheduc,na.rm = TRUE) #由于 fatheduc 存在缺失值,我們直接在 mean()中定義 na.rm =

TRUE 來計(jì)算排除缺失值的平均值。

只用 1192 個(gè)觀測(cè)計(jì)算這個(gè)平均值是因?yàn)?fatheduc 有 196 個(gè)缺失值。

(5)報(bào)告平均家庭收入及其標(biāo)準(zhǔn)誤,以美元為單位。

income<-1000*faminc #將家庭收入換算成美元(faminc 是以千美元為單位的),保存在

income 中。

mean(income) #平均家庭收入為 29026.66。

std <- function(x) sd(x)/sqrt(length(x)) #我們編寫一個(gè)標(biāo)準(zhǔn)誤的公式。

std(income) #得到標(biāo)準(zhǔn)誤為 502.9888。

detach(BWGHT) #解除綁定數(shù)據(jù)集 BWGHT

和 length(faminc)都得到 1388。所以一共有 1388 名婦女。

0.0000
4
關(guān)注作者
收藏
評(píng)論(0)

發(fā)表評(píng)論

暫無數(shù)據(jù)
推薦帖子