2018-10-22
閱讀量:
2036
機器學習中訓練集,驗證集,測試集比例配比
當數(shù)據(jù)量比較小時,可以使用 7 :3 訓練數(shù)據(jù)和測試數(shù)據(jù)
(西瓜書中描述 常見的做法是將大約 2/3 ~ 4/5 的樣本數(shù)據(jù)用于訓練,剩余樣本用于測試)
或者 6: 2 : 2 訓練數(shù)據(jù),驗證數(shù)據(jù)和測試數(shù)據(jù)
當數(shù)據(jù)量非常大時,可以使用 98 : 1 : 1 訓練數(shù)據(jù),驗證數(shù)據(jù)和測試數(shù)據(jù)
傳統(tǒng)機器學習階段(數(shù)據(jù)集在萬這個數(shù)量級),一般分配比例為6:2:2
而大數(shù)據(jù)時代,這個比例就不太適用了。因為百萬級的數(shù)據(jù)集,即使拿1%的數(shù)據(jù)做test也有一萬之多,已經(jīng)足夠了??梢阅歉嗟臄?shù)據(jù)做訓練。因此常見的比例可以達到98:1:1 ,甚至可以達到99.5:0.4:0.1等。






評論(0)


暫無數(shù)據(jù)
推薦帖子
0條評論
0條評論
0條評論