分類和回歸樹(CART)
CART是最成熟的機(jī)器學(xué)習(xí)技術(shù)之一。在非技術(shù)術(shù)語(yǔ)中,CART算法通過(guò)重復(fù)找到最佳預(yù)測(cè)變量來(lái)將數(shù)據(jù)分成兩個(gè)子集。子集比分割前更好地劃分目標(biāo)結(jié)果。修剪是一種與分類和回歸樹相關(guān)的技術(shù)。
我不打算詳細(xì)介紹最佳預(yù)測(cè)變量或更好的分區(qū)的含義。相反,我將討論對(duì)該基本大綱的兩個(gè)改進(jìn):修剪和提前停止。有時(shí)這些被簡(jiǎn)單地稱為后修剪和預(yù)修剪。顧名思義,預(yù)修剪或早期停止包括在完成對(duì)訓(xùn)練集的分類之前停止樹,而后修剪指的是在樹完成后修剪樹。我更喜歡通過(guò)早期停止和修剪來(lái)更清楚地區(qū)分這些術(shù)語(yǔ)。
修剪或后修剪
顧名思義,修剪涉及砍伐樹木。在樹木建成之后(并且在沒(méi)有提到下面討論的早期停止)的情況下,它可能會(huì)過(guò)度裝配。CART算法將重復(fù)地將數(shù)據(jù)分成更小和更小的子集,直到那些最終子集在結(jié)果變量方面是同質(zhì)的。實(shí)際上,這通常意味著最終的子集(稱為樹的葉子)每個(gè)只包含一個(gè)或幾個(gè)數(shù)據(jù)點(diǎn)。樹已經(jīng)準(zhǔn)確地學(xué)習(xí)了數(shù)據(jù),但是可能無(wú)法很好地預(yù)測(cè)出略微不同的新數(shù)據(jù)點(diǎn)。








暫無(wú)數(shù)據(jù)