JTRAIN2.RAW 中的數據,來自 1976-1977 年對低收入男性進行的一項工作培訓實驗;參見
Lalonde(1986)。
(1) 利用指標變量 train 來確定得到工作培訓的男性比例。
(2)變量 re78 是 1978 年得到的工資,以 1982 年的美元度量。針對得到工作培訓的男性樣本
和未得到工作培訓的男性樣本,分別計算 re78 的平均值。二者在經濟上的差別大嗎?
(3)變量 unem78 是表示一個男人在 1978 年是否失業(yè)的指標變量。得到工作培訓者的失業(yè)比
例是多少?沒有得到工作培訓者呢?評論兩者之間的差異。
(4)根據第(1)部分和第(2)部分,工作培訓項目看來有效嗎?如何使我們的結論更有說
服力?
準備:
在 RStudio 中導入 JTRAIN2
attach(JTRAIN2) #綁定數據集 JRTAIN2
library(mice) #載入檢查缺失值的包 mice。
md.pattern(JTRAIN2) #檢查一下是否有缺失值。結果是沒有。
(1)利用指標變量 train 來確定得到工作培訓的男性比例。
sum(train)/length(train) #確定得到工作的男性的比例,結果為 0.4157303。
(2)變量 re78 是 1978 年得到的工資,以 1982 年的美元度量。針對得到工作培訓的男性樣本
和未得到工作培訓的男性樣本,分別計算 re78 的平均值。二者在經濟上的差別大嗎?
a<-aggregate(JTRAIN2["re78"],by=list(train),FUN=mean,na.rm=TRUE) #用 aggregate 命令(《R 語
言實戰(zhàn)》第 101 頁)針對得到工作培訓的男性樣本和未得到工作培訓的男性樣本,分別計算
re78 的平均值,結果保存在 a 中。
a #展示結果??梢园l(fā)現有培訓的男性的工資是 6.35,沒有培訓的男性的工資是 4.55。在經濟
上差別較大。
Group.1 re78
1 0 4.554802
2 1 6.349145
(3)變量 unem78 是表示一個男人在 1978 年是否失業(yè)的指標變量。得到工作培訓者的失業(yè)比
例是多少?沒有得到工作培訓者呢?評論兩者之間的差異。
b<-aggregate(JTRAIN2["unem78"],by=list(train),FUN=mean,na.rm=TRUE) #用 aggregate 命令(《R
語言實戰(zhàn)》第 101 頁)針對得到工作培訓的男性樣本和未得到工作培訓的男性樣本,分別計
算 unem78 的平均值(由于 unem78 在某個體失業(yè)時為 1,沒有失業(yè)為 0,其平均值就是失業(yè)
者的占比),結果保存在 b 中。
b #展示結果??梢园l(fā)現有培訓的男性的失業(yè)者比例是 0.24,沒有培訓的男性的失業(yè)者的比例
是 0.35。在經濟上差別較大。
Group.1 unem78
1 0 0.3538462
2 1 0.2432432
(4)根據第(1)部分和第(2)部分,工作培訓項目看來有效嗎?如何使我們的結論更有說
服力?
第(1)部分和第(2)部分的比較都是基于經濟學的比較,沒有基于統(tǒng)計學的比較。如果要有
信服力的話需要做統(tǒng)計學上的顯著性檢驗。
t.test(re78~train) #對 re78 做 T 檢驗,結果 p-value = 0.007893,我們可以拒絕認為得到工作培
訓者的工資均值和沒有得到工作培訓者的工資均值相同。 (《R 語言實戰(zhàn)》第 151 頁)
t.test(unem78~train) #對 unem78 做 T 檢驗,結果 p-value = 0.01117,我們可以拒絕認為得到工
作培訓者的失業(yè)比例均值和沒有得到工作培訓者的失業(yè)比例均值相同。(《R 語言實戰(zhàn)》第
151 頁)
detach(JTRAIN2) #解除綁定數據集 JTRAIN2








暫無數據