99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
2018-11-20 閱讀量: 1584
缺失值、按條件選入觀測、 條件計數(shù)

需要使用 BWGHT.RAW 中的數(shù)據(jù)。

(1)樣本中有多少婦女,又有多少人報告在懷孕期間抽煙?

(2)平均每天抽煙數(shù)量是多少?平均數(shù)作為這個案例中“典型”婦女的度量指標好嗎?請解

釋。

(3)懷孕期間抽煙的婦女中,平均每天抽煙數(shù)量是多少?與第(2)部分中的答案有何區(qū)別,

為什么?

(4)求出樣本中 fatheduc 的平均值。為何只用 1192 個觀測計算這個平均值?

(5)報告平均家庭收入及其標準誤,以美元為單位。

準備:

該題所使用的數(shù)據(jù)各變量的具體解釋可參見原書第 4 版的第 141 頁的例 4.9“嬰兒出生體重方差

中父母的受教育程度”。

在 RStudio 中導入 BWGHT

attach(BWGHT) #綁定數(shù)據(jù)集 BWGHT

(1) 樣本中有多少婦女,又有多少人報告在懷孕期間抽煙?

BWGHT[!complete.cases(BWGHT),] #在加載數(shù)據(jù)后我們可以先掃一眼數(shù)據(jù),發(fā)現(xiàn)有 NA 值,進而

引起我們的警惕,所以首先檢查數(shù)據(jù)是否有缺失值。該命令可以列出矩陣或數(shù)據(jù)框中有一個或

者多個缺失值的行。 。(參見《R 語言實戰(zhàn)》第一版 319 頁) 返回的結(jié)果是一個 197 x 14 的

表,表示有 197 個觀測存在一個或幾個變量上的缺失。

library(mice)

md.pattern(BWGHT) #我們發(fā)現(xiàn)缺失值過多,而且缺失值分在的不同變量中,我們進而采用一

種更方便的方法審視缺失值。 mice 包中的 md.pattern()函數(shù)能夠輕松實現(xiàn)這一功能。(參見

《R 語言實戰(zhàn)》第一版 320 頁)。返回的結(jié)果告訴我們在 fatheduc 變量上有缺失值的觀測有

196 個,而在 motheduc 上有缺失值的觀測有 1 個。

length(fatheduc) # 由于該數(shù)據(jù)集中的觀測是婦女的寶寶的情況,所以一個觀測對應(yīng)著一名婦

女。我們只需隨意取一個變量,測量其觀測值數(shù)量即可。值得一提的是,缺失值仍然會計算為

一個觀測。例如 fatheduc 中有 196 個缺失值,而 faminc 中沒有缺失值,但 length(fatheduc)

table(cigs) #為了求得有多少人報告在懷孕期間抽煙,我們可以把 cigs 變量做個頻數(shù)統(tǒng)計。我們

看到 cigs 為 0 的共有 1176 人,那么抽煙的人就是 1388-1176=212 人。

a<-BWGHT[cigs>0,]

a #我們也可以把 cigs 大于 0 的觀測提取出來保存在 a 中,然后展現(xiàn) a,發(fā)現(xiàn)其是 212 x 14 的

表,說明有 212 個觀測的 cigs 大于 0。

(2) 平均每天抽煙數(shù)量是多少?平均數(shù)作為這個案例中“典型”婦女的度量指標好嗎?請解

釋。

mean(cigs) #求平均數(shù)得到 2.087176

通過之前的 table(cigs)由我們可以發(fā)現(xiàn)絕大部分婦女是不抽煙的,而且存在幾個幾個嗜煙如命

的人,例如有人一天抽 50 只煙!因此,說一個典型的婦女每日抽煙 2 只并不具備代表性。

(3)懷孕期間抽煙的婦女中,平均每天抽煙數(shù)量是多少?與第(2)部分中的答案有何區(qū)別,

為什么?

mean(a$cigs) #我們之前把抽煙的觀測都保存在了數(shù)據(jù)集 a 中,我們再計算 a$cigs 的平均值就

是懷孕期間抽煙的婦女的平均吸煙數(shù)。這個值計算出來是 13.66509。

我們發(fā)現(xiàn)這一平均值遠遠大于第(2)部分中的答案。更加證實了(2)中的答案不能代表“典

型”的婦女。

(4)求出樣本中 fatheduc 的平均值。為何只用 1192 個觀測計算這個平均值?

mean(fatheduc,na.rm = TRUE) #由于 fatheduc 存在缺失值,我們直接在 mean()中定義 na.rm =

TRUE 來計算排除缺失值的平均值。

只用 1192 個觀測計算這個平均值是因為 fatheduc 有 196 個缺失值。

(5)報告平均家庭收入及其標準誤,以美元為單位。

income<-1000*faminc #將家庭收入換算成美元(faminc 是以千美元為單位的),保存在

income 中。

mean(income) #平均家庭收入為 29026.66。

std <- function(x) sd(x)/sqrt(length(x)) #我們編寫一個標準誤的公式。

std(income) #得到標準誤為 502.9888。

detach(BWGHT) #解除綁定數(shù)據(jù)集 BWGHT

和 length(faminc)都得到 1388。所以一共有 1388 名婦女。

0.0000
4
關(guān)注作者
收藏
評論(0)

發(fā)表評論

暫無數(shù)據(jù)
推薦帖子