過擬合是指為了得到一致假設而使假設變得過度嚴格。避免過擬合是分類器設計中的一個核心任務。通常采用增大數(shù)據(jù)量和測試樣本集的方法對分類器性能進行評價。
給定一個假設空間H,一個假設h屬于H,如果存在其他的假設h’屬于H,使得在訓練樣例上h的錯誤率比h’小,但在整個實例分布上h’比h的錯誤率小,那么就說假設h過度擬合訓練數(shù)據(jù)。
常見原因:
(1)建模樣本選取有誤,如樣本數(shù)量太少,選樣方法錯誤,樣本標簽錯誤等,導致選取的樣本數(shù)據(jù)不足以代表預定的分類規(guī)則;
(2)樣本噪音干擾過大,使得機器將部分噪音認為是特征從而擾亂了預設的分類規(guī)則;
(3)假設的模型無法合理存在,或者說是假設成立的條件實際并不成立;
(4)參數(shù)太多,模型復雜度過高;
(5)對于決策樹模型,如果我們對于其生長沒有合理的限制,其自由生長有可能使節(jié)點只包含單純的事件數(shù)據(jù)(event)或非事件數(shù)據(jù)(no event),使其雖然可以完美匹配(擬合)訓練數(shù)據(jù),但是無法適應其他數(shù)據(jù)集。
(6)對于神經網絡模型:a)對樣本數(shù)據(jù)可能存在分類決策面不唯一,隨著學習的進行,,BP算法使權值可能收斂過于復雜的決策面;b)權值學習迭代次數(shù)足夠多(Overtraining),擬合了訓練數(shù)據(jù)中的噪聲和訓練樣例中沒有代表性的特征。
解決方法:
(1)在神經網絡模型中,可使用權值衰減的方法,即每次迭代過程中以某個小因子降低每個權值。
(2)選取合適的停止訓練標準,使對機器的訓練在合適的程度;
(3)保留驗證數(shù)據(jù)集,對訓練成果進行驗證;
(4)獲取額外數(shù)據(jù)進行交叉驗證;
(5)正則化,即在進行目標函數(shù)或代價函數(shù)優(yōu)化時,在目標函數(shù)或代價函數(shù)后面加上一個正則項,一般有L1正則與L2正則等。








暫無數(shù)據(jù)