2021-03-22
閱讀量:
2616
關(guān)于網(wǎng)格搜索模型性能降低的問題
老師,決策樹中,利用網(wǎng)格搜索進(jìn)行了整體調(diào)參,為什么調(diào)參后的模型在測試集上的得分會降低?而且降低了近10個百分點。模型已經(jīng)設(shè)置了隨機(jī)數(shù)種子。
答:這里需要明確兩個問題,1、網(wǎng)格搜索的方法獲得的最優(yōu)參數(shù)為交叉驗證中分?jǐn)?shù)最高的一組參數(shù),對于整體數(shù)據(jù)不一定適用。
2、要想模型能有更好的參數(shù),那就需要保證要搜索的參數(shù)網(wǎng)格范圍足夠的大,因為網(wǎng)格搜索只能找到給定范圍內(nèi)的最優(yōu)參數(shù)組合。
當(dāng)然具體問題具體分析,還需根據(jù)代碼具體確定問題。代碼見文件:
可以使用 clf.get_params( ) 方法查看模型的超參數(shù)情況,并與網(wǎng)格搜索中的params比對,params的參數(shù)范圍不能囊括clf.get_params( ) 的值,所以有可能導(dǎo)致無法獲得最優(yōu)參數(shù)。并且網(wǎng)格搜索使用了交叉驗證,因此最優(yōu)參數(shù)是在交叉數(shù)據(jù)集上的表現(xiàn),與整體訓(xùn)練數(shù)據(jù)的表現(xiàn)也會有些出入的。






評論(0)


暫無數(shù)據(jù)
推薦帖子
0條評論
0條評論
0條評論