2021-04-26
閱讀量:
2158
為什么需要交叉驗(yàn)證這種方式
當(dāng)僅有有限數(shù)量的數(shù)據(jù)時(shí),為了對(duì)模型性能進(jìn)行無偏估計(jì),我們可以使用k折交叉驗(yàn)證(k-fold cross-validation)。 使用這種方法時(shí),數(shù)據(jù)被分成k份數(shù)目相等的子集。我們構(gòu)建k次模型,每次留一個(gè)子集做測(cè)試集,其他用作訓(xùn)練集。如果k等于樣本大小,這也被稱之為留一驗(yàn)證(leave-one-out)。
在kaggle上,一些數(shù)據(jù)集是已經(jīng)對(duì)訓(xùn)練集和測(cè)試集進(jìn)行了區(qū)分,這種情況我覺得是不用再進(jìn)行數(shù)據(jù)集的切分,直接進(jìn)行交叉驗(yàn)證的,只需要直接在測(cè)試集上進(jìn)行測(cè)試即可。
需要交叉驗(yàn)證的場(chǎng)景,是指那種數(shù)據(jù)量比較少的情況下,僅僅有訓(xùn)練數(shù)據(jù),訓(xùn)練誤差并不能體現(xiàn)出你相應(yīng)的性能,要充分利用有限的數(shù)據(jù)。
進(jìn)行多次驗(yàn)證或者將測(cè)試集的比例增大,可以在統(tǒng)計(jì)學(xué)上提高算法的置信度。






評(píng)論(0)


暫無數(shù)據(jù)
CDA考試動(dòng)態(tài)
CDA報(bào)考指南
推薦帖子
0條評(píng)論
0條評(píng)論
0條評(píng)論