新版天堂在线,51视频国产精品一区二区,色综合天天综合天天更新

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

交叉驗(yàn)證：評(píng)估模型的泛化能力表現(xiàn)

2020-06-16

注明：本文章所有代碼均來自scikit-learn官方網(wǎng)站

在實(shí)際情況中，如果一個(gè)模型要上線，數(shù)據(jù)分析員需要反復(fù)調(diào)試模型，以防止模型僅在已知數(shù)據(jù)集的表現(xiàn)較好，在未知數(shù)據(jù)集上的表現(xiàn)較差。即要確保模型的泛化能力，它指機(jī)器學(xué)習(xí)對(duì)新鮮樣本的適應(yīng)能力。只有保證模型的泛化能力，模型的構(gòu)建才有意義。因此，交叉驗(yàn)證在整個(gè)建模流程中顯得尤為重要。

如果不對(duì)數(shù)據(jù)集進(jìn)行處理，而僅是用含有標(biāo)簽的已知數(shù)據(jù)訓(xùn)練模型會(huì)得到很高分?jǐn)?shù)，但卻失效于對(duì)未知數(shù)據(jù)的預(yù)測，這種情況稱為“過擬合”。過擬合的出現(xiàn)表明模型未學(xué)習(xí)到數(shù)據(jù)中的本質(zhì)規(guī)律，造成模型的預(yù)測能力較差，因此，如何避免模型的過擬合，是一個(gè)值得關(guān)注且必須解決的問題。在scikit-learn中，可以使用訓(xùn)練集/測試集拆分和交叉驗(yàn)證的方法避免該種情況的出現(xiàn)，如下圖所示，將數(shù)據(jù)集進(jìn)行訓(xùn)練集/測試集拆分，在訓(xùn)練集上進(jìn)行交叉驗(yàn)證后得到最佳模型參數(shù)，從而在測試集上得到該模型的評(píng)分。

在開始分享之前，要搞清楚兩個(gè)概念，即過擬合和欠擬合。其中，過擬合為模型在訓(xùn)練集的分?jǐn)?shù)較高，在測試集表現(xiàn)的得分較低。欠擬合是指模型擬合程度不高，數(shù)據(jù)距離擬合曲線較遠(yuǎn)，或指模型沒有很好地捕捉到數(shù)據(jù)特征，不能夠很好地?cái)M合數(shù)據(jù)。相對(duì)過擬合，欠擬合現(xiàn)象并不經(jīng)常出現(xiàn)。很容易想到的思路是將模型的擬合能力限制在過擬合和欠擬合之間，就會(huì)得到較好的模型預(yù)測結(jié)果，但訓(xùn)練集/測試集劃分和交叉驗(yàn)證只能幫助避免模型的過擬合而不是欠擬合。

以sklearn中自帶的鶯尾花數(shù)據(jù)集（iris）為例進(jìn)行說明：

>>> import numpy as np
>>> from sklearn.model_selection import train_test_split
>>> from sklearn import datasets
>>> from sklearn import svm

>>> X, y = datasets.load_iris(return_X_y=True)
>>> X.shape, y.shape
((150, 4), (150,))

將數(shù)據(jù)集拆分為60%訓(xùn)練集，40%測試集，代碼如下：

>>> X_train, X_test, y_train, y_test = train_test_split(
...     X, y, test_size=0.4, random_state=0)

>>> X_train.shape, y_train.shape
((90, 4), (90,))
>>> X_test.shape, y_test.shape
((60, 4), (60,))

>>> clf = svm.SVC(kernel='linear', C=1).fit(X_train, y_train)
>>> clf.score(X_test, y_test)
0.96...

盡管此時(shí)模型在測試集上的得分較高，表現(xiàn)較好，但不能說明找到了最佳的適用模型，譬如支持向量機(jī)的超參數(shù)C，上例中設(shè)置參數(shù)C=1，它在訓(xùn)練集上的表現(xiàn)可能很好，但仍不能避免過擬合現(xiàn)象的出現(xiàn)，因?yàn)椴贿m宜的超參數(shù)設(shè)置可能導(dǎo)致模型對(duì)數(shù)據(jù)中主要規(guī)律的學(xué)習(xí)，因此，會(huì)在測試集上出現(xiàn)過擬合的現(xiàn)象。為了避免上述情況，scikit-learn提供交叉驗(yàn)證法（cross-validation, CV）。需要注意的是：k值越大，即褶皺越多，從而越能減少由于偏差而導(dǎo)致的誤差，但訓(xùn)練集越大，會(huì)增加方差從而增加模型的誤差。同時(shí)，越大的k值會(huì)導(dǎo)致時(shí)間成本的開銷較高。因此，k值的選取很重要，常見取值為k = 10。

下例中的cv值設(shè)置為5，進(jìn)行5次交叉驗(yàn)證迭代，得出5個(gè)模型評(píng)分：

>>> from sklearn.model_selection import cross_val_score
>>> clf = svm.SVC(kernel='linear', C=1)
>>> scores = cross_val_score(clf, X, y, cv=5)
>>> scores
array([0.96..., 1.  ..., 0.96..., 0.96..., 1.        ])

針對(duì)不同模型和實(shí)際場景，還可以調(diào)整交叉驗(yàn)證的評(píng)分策略，需要注意的是：在scikit-learn官方文檔中，指明了五種交叉驗(yàn)證方法（五種方法分別為：K-fold, Repeated K-fold, Leave One Out, Leave P Out, Random permutations cross-validation a.k.a. Shuffle & Split）的數(shù)據(jù)應(yīng)是服從獨(dú)立同分布假設(shè)的，在此基礎(chǔ)上，交叉驗(yàn)證的結(jié)果較好，但文檔中也說明，獨(dú)立同分布假設(shè)在現(xiàn)實(shí)中很難保證，因此，在應(yīng)用交叉驗(yàn)證方法時(shí)，可適當(dāng)放寬假設(shè)條件，但可能會(huì)讓度一部分結(jié)果準(zhǔn)確性。

其中，K折交叉驗(yàn)證（K-fold cross-validation）是交叉驗(yàn)證大家族中最簡單的數(shù)據(jù)拆分策略，即將數(shù)據(jù)集拆分為訓(xùn)練集和測試集，如下圖所示，其原理為：先將整個(gè)數(shù)據(jù)集分為k個(gè)折疊，用其中k-1個(gè)折疊作為訓(xùn)練集訓(xùn)練模型，用剩余的1個(gè)折疊作為驗(yàn)證集對(duì)模型進(jìn)行評(píng)分，并重復(fù)k次上述過程。該種方法的優(yōu)勢(shì)在于不需要額外拆分?jǐn)?shù)據(jù)，以避免數(shù)據(jù)的浪費(fèi)和運(yùn)算成本的提高；可以促使模型從多方面學(xué)習(xí)樣本，避免模型陷入局部極值。

如下是對(duì)有4個(gè)樣本的2-折交叉驗(yàn)證示例，隨機(jī)將數(shù)據(jù)分為兩個(gè)折疊，并且迭代上述步驟兩次。其代碼如下：

>>> import numpy as np
>>> from sklearn.model_selection import KFold

>>> X = ["a", "b", "c", "d"]
>>> kf = KFold(n_splits=2)
>>> for train, test in kf.split(X):
...     print("%s %s" % (train, test))
[2 3] [0 1]
[0 1] [2 3]

在scikit-learn中，還提供基于K折（KFold）法的進(jìn)一步交叉驗(yàn)證法，為重復(fù)的K折（Repeated K-Fold），即將K折重復(fù)n次，通過設(shè)置n_repeats參數(shù)進(jìn)行傳遞。其底層原理與KFold相一致，不同點(diǎn)在于重復(fù)的K折將K折重復(fù)n_repeats次。

選用的數(shù)據(jù)集與K折示例中的相同，設(shè)置n_repeats參數(shù)值為2，其代碼如下：

>>> import numpy as np
>>> from sklearn.model_selection import RepeatedKFold
>>> X = np.array([[1, 2], [3, 4], [1, 2], [3, 4]])
>>> random_state = 12883823
>>> rkf = RepeatedKFold(n_splits=2, n_repeats=2, random_state=random_state)
>>> for train, test in rkf.split(X):
...     print("%s %s" % (train, test))
...
[2 3] [0 1]
[0 1] [2 3]
[0 2] [1 3]
[1 3] [0 2]

比較出名的是留一法（Leave One Out），它是一個(gè)簡單又有趣的交叉驗(yàn)證方法。其原理是出去一個(gè)樣本外，保留數(shù)據(jù)集中的所有樣本，從而將用于交叉驗(yàn)證的數(shù)據(jù)集（假設(shè)共有n個(gè)樣本）分為訓(xùn)練集（n-1個(gè)樣本）和測試集（1個(gè)樣本）的組合，使得對(duì)于一個(gè)包含n個(gè)樣本的數(shù)據(jù)集而言，可以有n個(gè)測試集對(duì)模型進(jìn)行評(píng)估。該方法的優(yōu)勢(shì)在于最大可能的保證用于模型訓(xùn)練的數(shù)據(jù)量，僅犧牲一個(gè)樣本作為測試集，對(duì)于大樣本而言是可以忽略不計(jì)的。

如下的示例中，仍延用上一個(gè)例子中的包含四個(gè)樣本的數(shù)據(jù)，在每次迭代中，從四個(gè)樣本中分出一個(gè)樣本作為測試集。其代碼如下：

>>> from sklearn.model_selection import LeaveOneOut

>>> X = [1, 2, 3, 4]
>>> loo = LeaveOneOut()
>>> for train, test in loo.split(X):
...     print("%s %s" % (train, test))
[1 2 3] [0]
[0 2 3] [1]
[0 1 3] [2]
[0 1 2] [3]

提到留一法（Leave One Out）就不得不說留P法（Leave P Out），兩種方法的底層邏輯相同，只是留P法在留一方的基礎(chǔ)上為使用者提供更大的自由空間，使用者可以根據(jù)業(yè)務(wù)場景需要自定義要移除的樣本個(gè)數(shù)，即作為測試集樣本的個(gè)數(shù)。需要注意的是：與留一法和KFold法不同的是，當(dāng)參數(shù)p>1時(shí)，測試集可能會(huì)重疊。

在如下例子中，仍延用上文中包含四個(gè)樣本的例子，將參數(shù)p設(shè)置為2對(duì)數(shù)據(jù)集進(jìn)行拆分，在四個(gè)樣本的例子中，可以有6種數(shù)據(jù)拆分的方法。代碼如下：

>>> from sklearn.model_selection import LeavePOut

>>> X = np.ones(4)
>>> lpo = LeavePOut(p=2)
>>> for train, test in lpo.split(X):
...     print("%s %s" % (train, test))
[2 3] [0 1]
[1 3] [0 2]
[1 2] [0 3]
[0 3] [1 2]
[0 2] [1 3]
[0 1] [2 3]

最后，想要分享的交叉驗(yàn)證方法是隨機(jī)排列交叉驗(yàn)證 a.k.a. Shuffle & Split（Random permutations cross-validation a.k.a. Shuffle & Split）。如下圖所示，其底層邏輯為：在用戶指定數(shù)量的基礎(chǔ)上，利用ShuffleSplit迭代器生成獨(dú)立的訓(xùn)練集/測試集劃分。其步驟是先打亂樣本，再將樣本分為不同的訓(xùn)練集和測試集的組合。由于該中方法的隨機(jī)性較強(qiáng)，因此可以設(shè)置隨機(jī)數(shù)種子保證每次數(shù)據(jù)拆分的結(jié)果相同，以得到相同的交叉驗(yàn)證結(jié)果，該參數(shù)為random_state。

該例子是用np.arange(10)生成從0-9的10個(gè)數(shù)，n_splits參數(shù)限制數(shù)據(jù)集劃分的組數(shù)，test_size參數(shù)限制用于交叉驗(yàn)證的測試集大小，其代碼示例如下：

>>> from sklearn.model_selection import ShuffleSplit
>>> X = np.arange(10)
>>> ss = ShuffleSplit(n_splits=5, test_size=0.25, random_state=0)
>>> for train_index, test_index in ss.split(X):
...     print("%s %s" % (train_index, test_index))
[9 1 6 7 3 0 5] [2 8 4]
[2 9 8 0 6 7 4] [3 5 1]
[4 5 1 0 6 9 7] [2 3 8]
[2 7 5 8 0 3 4] [6 1 9]
[4 1 0 6 8 9 3] [5 2 7]

本部分新的主要分享了最基本的交叉驗(yàn)證的調(diào)用，和五個(gè)不同的交叉驗(yàn)證方法，分別為K-折疊（K-Fold），重復(fù)的K-折疊（Repeated K-Fold），留一法（Leave One Out），留P法（Leave P Out），隨機(jī)排列交叉驗(yàn)證a.k.a. Shuffle & Split（Random permutations cross-validation a.k.a. Shuffle & Split），從而，更加細(xì)化的了解交叉驗(yàn)證方法。

不同的交叉驗(yàn)證方法針對(duì)的場景不同，因次，需要根據(jù)不同的實(shí)際情況，選擇不同的方法對(duì)數(shù)據(jù)進(jìn)行交叉驗(yàn)證，以提高模型的泛化能力和避免過擬合情況的出現(xiàn)。在后面的內(nèi)容中，將繼續(xù)分享交叉驗(yàn)證部分的學(xué)習(xí)心得。

CDA數(shù)據(jù)分析師考試相關(guān)入口一覽（建議收藏）：

? 想報(bào)名CDA認(rèn)證考試，點(diǎn)擊>>> “CDA報(bào)名” 了解CDA考試詳情；