www.五月激情.com,一个人免费视频观看,两个人看的在线www片

從今天開(kāi)始不熬夜

2022-09-15 閱讀量: 1605

python數(shù)據(jù)預(yù)處理：樣本不均衡（過(guò)采樣、欠采樣、設(shè)置權(quán)重、集成方法）

何為樣本不均衡：

樣本分布不均衡就是指樣本差異非常大，例如共1000條數(shù)據(jù)樣本的數(shù)據(jù)集中，其中占有10條樣本分類(lèi)，其特征無(wú)論如何你和也無(wú)法實(shí)現(xiàn)完整特征值的覆蓋，此時(shí)屬于嚴(yán)重的樣本分布不均衡。

為何要解決樣本不均衡：

樣本分部不均衡的數(shù)據(jù)集也是很常見(jiàn)的：比如惡意刷單、黃牛訂單、信用卡欺詐、電力竊電、設(shè)備故障、大企業(yè)客戶(hù)流失等。

樣本不均衡將導(dǎo)致樣本量少的分類(lèi)所包含的特征過(guò)少，很難從中提取規(guī)律，即使得到分類(lèi)模型，也容易產(chǎn)生過(guò)度依賴(lài)于有限的數(shù)量樣本而導(dǎo)致過(guò)擬合問(wèn)題，當(dāng)模型應(yīng)用到新的數(shù)據(jù)上時(shí)，模型的準(zhǔn)確性和健壯性將會(huì)很差。

樣本不均衡的解決方法：

過(guò)采樣 通過(guò)增加分類(lèi)中樣本較少的類(lèi)別的采樣數(shù)量來(lái)實(shí)現(xiàn)平衡，最直接的方法是簡(jiǎn)單復(fù)制小樣本數(shù)據(jù)，缺點(diǎn)是如果特征少，會(huì)導(dǎo)致過(guò)擬合的問(wèn)題。經(jīng)過(guò)改進(jìn)的過(guò)抽樣方法通過(guò)在少數(shù)類(lèi)中加入隨機(jī)噪聲、干擾數(shù)據(jù)或通過(guò)一定規(guī)則產(chǎn)生新的合成樣本。

欠采樣 通過(guò)減少分類(lèi)中多數(shù)類(lèi)樣本的數(shù)量來(lái)實(shí)現(xiàn)樣本均衡，最直接的方法是隨機(jī)去掉一些多數(shù)類(lèi)樣本來(lái)減小多數(shù)類(lèi)的規(guī)模，缺點(diǎn)是會(huì)丟失多數(shù)類(lèi)中的一些重要信息。

設(shè)置權(quán)重 對(duì)不同樣本數(shù)量的類(lèi)別賦予不同的權(quán)重（通常會(huì)設(shè)置為與樣本量成反比）

集成方法 每次生成訓(xùn)練集時(shí)使用所有分類(lèi)中的小樣本量，同時(shí)從分類(lèi)中的大樣本量中隨機(jī)抽取數(shù)據(jù)來(lái)與小樣本量合并構(gòu)成訓(xùn)練集，這樣反復(fù)多次會(huì)得到很多訓(xùn)練集和訓(xùn)練模型。最后在應(yīng)用時(shí)，使用組合方法（例如投票、加權(quán)投票等）產(chǎn)生分類(lèi)預(yù)測(cè)結(jié)果。這種方法類(lèi)似于隨機(jī)森林。缺點(diǎn)是，比較吃計(jì)算資源，費(fèi)時(shí)。

————————————————

原文鏈接：https://blog.csdn.net/tonydz0523/article/details/84325823