99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
2018-10-22 閱讀量: 1817
劃分訓(xùn)練集、測(cè)試集的三種方法

一、為什么要分開(kāi)訓(xùn)練集與測(cè)試集

在機(jī)器學(xué)習(xí)中,我們是依靠對(duì)學(xué)習(xí)器的泛化誤差進(jìn)行評(píng)估的方法來(lái)選擇學(xué)習(xí)器。具體方法如下:我們需要從訓(xùn)練集數(shù)據(jù)中產(chǎn)出學(xué)習(xí)器,再用測(cè)試集來(lái)測(cè)試所得學(xué)習(xí)器對(duì)新樣本的判別能力,以測(cè)試集上的測(cè)試誤差作為泛化誤差的近似,來(lái)選取學(xué)習(xí)器。

通常我們假設(shè)訓(xùn)練集、測(cè)試集都是從樣本集中獨(dú)立同分布采樣得到,且測(cè)試集、訓(xùn)練集中的樣本應(yīng)該盡可能互斥(測(cè)試集中的樣本盡量不在訓(xùn)練集中有出現(xiàn)、盡量不在訓(xùn)練過(guò)程中被使用)

測(cè)試樣本為什么要盡可能不出現(xiàn)在訓(xùn)練集中呢?好比老師出了10道練習(xí)題給大家做,考試時(shí)候又用這10道練習(xí)題考試,這個(gè)考試成績(jī)顯然“過(guò)于樂(lè)觀”,不能真實(shí)的反映同學(xué)的學(xué)習(xí)情況。我們是希望得到泛化性能強(qiáng)的模型,好比同學(xué)做完10道練習(xí)題能“舉一反三”。

二、從樣本集分得訓(xùn)練集、測(cè)試集的具體方法

當(dāng)我們只有一個(gè)包含m個(gè)樣例的樣本集D={(x1,y1),(x2,y2),…,(xm,ym)},既要訓(xùn)練又要測(cè)試,我們就要對(duì)D進(jìn)行適當(dāng)處理,從中產(chǎn)出訓(xùn)練集S、測(cè)試集T

第一種:留出法

劃分兩個(gè)互斥集合:直接將樣本集D劃分為兩個(gè)互斥的集合——訓(xùn)練集S、測(cè)試集T(要求D = S or T、S and T = 0)。在訓(xùn)練集S上訓(xùn)練出模型后,用測(cè)試集T來(lái)評(píng)估其測(cè)試誤差,作為對(duì)泛化誤差的估計(jì)。

兩個(gè)集合要保持?jǐn)?shù)據(jù)分布的一致性:從“采樣”角度看待數(shù)據(jù)集的劃分過(guò)程,這種保留類別比例的采樣方式是“分層采樣”。例如D包含1000個(gè)樣本(500正例,500反例),訓(xùn)練集S占樣本集70%,那S中就包含350正例,350反例;測(cè)試集T占樣本集30%,T中就包含150正例,150反例。是為了避免因數(shù)據(jù)劃分過(guò)程引入額外的偏差影響,才要保持?jǐn)?shù)據(jù)分布的一致性。

要多次使用,取用平均值:在給定訓(xùn)練/測(cè)試集的樣本比例后,會(huì)有多種劃分方式可以對(duì)樣本集D進(jìn)行分割。單次使用留出法得到的評(píng)估結(jié)果往往是不穩(wěn)定可靠的。一般采用若干次隨機(jī)劃分、重復(fù)進(jìn)行實(shí)驗(yàn)評(píng)估后取平均值作為留出法的評(píng)估結(jié)果。

注:留出法中,若令訓(xùn)練集S包含絕大多數(shù)的樣本,則訓(xùn)練出來(lái)的模型更接近D訓(xùn)練的模型,但此時(shí)測(cè)試集T比較小,評(píng)估結(jié)果可能不夠準(zhǔn)確。若令測(cè)試集T中多包含樣本,被評(píng)估的模型與D訓(xùn)練的模型相比可能具有較大差距,降低保真性。這個(gè)問(wèn)題沒(méi)有完美的解決方案,常見(jiàn)做法是將大約2/3~4/5的樣本用于訓(xùn)練,剩余樣本留作測(cè)試。

第二種:k折交叉驗(yàn)證法

將樣本集D劃分為k個(gè)大小相似的互斥子集(即D = D1 or D2 or…or Dk,Di and Dj = 0),每個(gè)子集Di都盡可能的保持?jǐn)?shù)據(jù)分布的一致性。

然后每次用k-1個(gè)子集的并集作為訓(xùn)練集,余下一個(gè)子集作為測(cè)試集,這樣就可以獲得k組訓(xùn)練/測(cè)試集。

進(jìn)行k次訓(xùn)練和測(cè)試,返回k個(gè)測(cè)試結(jié)果的平均值。

注1:交叉驗(yàn)證法評(píng)估結(jié)果的穩(wěn)定性和保真性很大程度上取決于k的取值。為強(qiáng)調(diào)這一點(diǎn),通常交叉驗(yàn)證法也稱為“k折交叉驗(yàn)證”。k常用取10,稱為10折交叉驗(yàn)證;其他k值有5、20等。

注2:與留出法相似,將樣本集D劃分為k個(gè)子集同樣存在多種劃分方式,為減小因樣本劃分不同而引入的誤差,k折交叉驗(yàn)證通常要隨機(jī)使用不同的劃分重復(fù)p次,最終評(píng)估結(jié)果是這p次k折交叉驗(yàn)證結(jié)果的均值(例如10次10折交叉驗(yàn)證)

注3:樣本集D包含m個(gè)樣本,令k=m,就可以得到交叉驗(yàn)證法的特例——留一法:留一法不受隨機(jī)樣本劃分方式的影響,每個(gè)子集只包含一個(gè)樣本,而使用的訓(xùn)練集與樣本集只差一個(gè)樣本,所以訓(xùn)練出來(lái)的模型與D的模型很相似。缺點(diǎn)在于如果樣本集很大——100萬(wàn)條樣本,就要訓(xùn)練出100萬(wàn)個(gè)學(xué)習(xí)器。

–—-—-—-—-—-—-—-—-—-—-—-—–—-—-—-—-—-—-—-——-—-—-—-—-—-—-—-—-—-—-—-—-—-——-

–—-—-—-—-—-—-—-—-—-—-—-—–—-—-—-—-—-—-—-——-—-—-—-—-—-—-—-—-—-—-—-—-—-——-

總結(jié):我們理想中希望評(píng)估的是用樣本集D訓(xùn)練出來(lái)的模型,但在留出法、交叉驗(yàn)證法中,由于都需要保留一部分樣本用做測(cè)試,因此實(shí)際評(píng)估的模型所用的訓(xùn)練集比D小,這就必然引入誤差。留一法受訓(xùn)練樣本規(guī)模變化影響最小,但是計(jì)算復(fù)雜度高。下面介紹的方法既可減少訓(xùn)練樣本規(guī)模不同造成的影響,又可比較高效的進(jìn)行實(shí)驗(yàn)評(píng)估。

–—-—-—-—-—-—-—-—-—-—-—-—–—-—-—-—-—-—-—-——-—-—-—-—-—-—-—-—-—-—-—-—-—-——-

–—-—-—-—-—-—-—-—-—-—-—-—–—-—-—-—-—-—-—-——-—-—-—-—-—-—-—-—-—-—-—-—-—-——-

第三種:自助法

樣本集D包含m個(gè)樣本,我們通過(guò)采樣產(chǎn)生訓(xùn)練集d,具體方法如下:

每次隨機(jī)從樣本集D中選一個(gè)樣本,拷貝加入訓(xùn)練集d中,再將該樣本放回原樣本集D,使得這個(gè)樣本下次還有可能被采集到。

重復(fù)上述過(guò)程m次,我們就得到一個(gè)包含m個(gè)樣本的訓(xùn)練集d

剩下的樣本(D - d)作為測(cè)試集

注:顯然樣本集D中一部分樣本會(huì)在訓(xùn)練集d里多次出現(xiàn),而另一部分樣本不出現(xiàn),經(jīng)計(jì)算,一個(gè)樣本在m次采樣始終不被采到的概率約為36.8%。這樣的測(cè)試結(jié)果,亦稱為“包外估計(jì)”

–—-—-—-—-—-—-—-—-—-—-—-—–—-—-—-—-—-—-—-——-—-—-—-—-—-—-—-—-—-—-—-—-—-——-

–—-—-—-—-—-—-—-—-—-—-—-—–—-—-—-—-—-—-—-——-—-—-—-—-—-—-—-—-—-—-—-—-—-——-

總結(jié):

自助法在樣本集D較小、難以有效劃分訓(xùn)練/測(cè)試集時(shí)很有用。此外,自助法從初始樣本集D中產(chǎn)生多個(gè)不同的訓(xùn)練集,這對(duì)集成學(xué)習(xí)等方法很有用。

然而,自助法產(chǎn)生的訓(xùn)練集改變了初始樣本集的分布,這會(huì)引入估計(jì)誤差。因此,當(dāng)初始樣本集足夠時(shí),留出法和交叉驗(yàn)證法更常用一些。

0.0000
1
關(guān)注作者
收藏
評(píng)論(0)

發(fā)表評(píng)論

暫無(wú)數(shù)據(jù)
推薦帖子