2021-02-04
閱讀量:
847
為什么要先劃分?jǐn)?shù)據(jù)集再進(jìn)行歸一化處理呢?
問(wèn):
為什么要先劃分?jǐn)?shù)據(jù)集再進(jìn)行歸一化處理呢?
答:
根據(jù)歸一化的處理手段,我們是使用數(shù)據(jù)中的最小值和極差在對(duì)數(shù)據(jù)進(jìn)行壓縮處理,如果我們?cè)谌珨?shù)據(jù)集上進(jìn)行歸一化,那最小值和極差的選取是會(huì)參考測(cè)試集中的數(shù)據(jù)的狀況的。因此,當(dāng)我們歸一化后,無(wú)論我們?nèi)绾畏指顢?shù)據(jù),都會(huì)由一部分測(cè)試集的信息被 "泄露" 給訓(xùn)練集(當(dāng)然,也有部分訓(xùn)練集的信息被泄露給了測(cè)試集,但我們不關(guān)心這個(gè)),這會(huì)使得我們的模型效果被高估。
在現(xiàn)實(shí)業(yè)務(wù)中,我們只知道訓(xùn)練集的數(shù)據(jù),不了解測(cè)試集究竟會(huì)長(zhǎng)什么樣,所以我們要利用訓(xùn)練集上的最小值和極差來(lái)歸一化測(cè)試集。






評(píng)論(0)


暫無(wú)數(shù)據(jù)
CDA考試動(dòng)態(tài)
CDA報(bào)考指南
推薦帖子
0條評(píng)論
0條評(píng)論
0條評(píng)論
0條評(píng)論