国产香蕉熟妇在线影院,.一区二区三区在线

liting李

2021-04-06 閱讀量: 2450

sklearn-GridSearchCV,CV調(diào)節(jié)超參使用方法

GridSearchCV，它存在的意義就是自動調(diào)參，只要把參數(shù)輸進(jìn)去，就能給出最優(yōu)化的結(jié)果和參數(shù)。但是這個(gè)方法適合于小數(shù)據(jù)集，一旦數(shù)據(jù)的量級上去了，很難得出結(jié)果。這個(gè)時(shí)候就是需要動腦筋了。數(shù)據(jù)量比較大的時(shí)候可以使用一個(gè)快速調(diào)優(yōu)的方法——坐標(biāo)下降。它其實(shí)是一種貪心算法：拿當(dāng)前對模型影響最大的參數(shù)調(diào)優(yōu)，直到最優(yōu)化；再拿下一個(gè)影響最大的參數(shù)調(diào)優(yōu)，如此下去，直到所有的參數(shù)調(diào)整完畢。這個(gè)方法的缺點(diǎn)就是可能會調(diào)到局部最優(yōu)而不是全局最優(yōu)，但是省時(shí)間省力，巨大的優(yōu)勢面前，還是試一試吧，后續(xù)可以再拿bagging再優(yōu)化?；氐絪klearn里面的GridSearchCV，GridSearchCV用于系統(tǒng)地遍歷多種參數(shù)組合，通過交叉驗(yàn)證確定最佳效果參數(shù)。

GridSearchCV官方網(wǎng)址：http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html

常用參數(shù)解讀：

estimator：所使用的分類器，如estimator=RandomForestClassifier(min_samples_split=100,min_samples_leaf=20,max_depth=8,max_features='sqrt',random_state=10), 并且傳入除需要確定最佳的參數(shù)之外的其他參數(shù)。每一個(gè)分類器都需要一個(gè)scoring參數(shù)，或者score方法。param_grid：值為字典或者列表，即需要最優(yōu)化的參數(shù)的取值，param_grid =param_test1，param_test1 = {'n_estimators':range(10,71,10)}。scoring :準(zhǔn)確度評價(jià)標(biāo)準(zhǔn)，默認(rèn)None,這時(shí)需要使用score函數(shù)；或者如scoring='roc_auc'，根據(jù)所選模型不同，評價(jià)準(zhǔn)則不同。字符串（函數(shù)名），或是可調(diào)用對象，需要其函數(shù)簽名形如：scorer(estimator, X, y)；如果是None，則使用estimator的誤差估計(jì)函數(shù)。scoring參數(shù)選擇如下：

參考地址：http://scikit-learn.org/stable/modules/model_evaluation.html