
導(dǎo)讀:在數(shù)據(jù)清洗過程中,主要處理的是缺失值、異常值和重復(fù)值。所謂清洗,是對(duì)數(shù)據(jù)集通過丟棄、填充、替換、去重等操作,達(dá)到去除異常、糾正錯(cuò)誤、補(bǔ)足缺失的目的。
作者:宋天龍
本文轉(zhuǎn)自:大數(shù)據(jù)DT(ID:hzdashuju)
01、數(shù)據(jù)列缺失的4種處理方法
數(shù)據(jù)缺失分為兩種:一種是行記錄的缺失,這種情況又稱數(shù)據(jù)記錄丟失;另一種是數(shù)據(jù)列值的缺失,即由于各種原因?qū)е碌臄?shù)據(jù)記錄中某些列的值空缺。
不同的數(shù)據(jù)存儲(chǔ)和環(huán)境中對(duì)于缺失值的表示結(jié)果也不同,例如,數(shù)據(jù)庫中是Null,Python返回對(duì)象是None,Pandas或Numpy中是NaN。
在極少數(shù)情況下,部分缺失值也會(huì)使用空字符串來代替,但空字符串絕對(duì)不同于缺失值。從對(duì)象的實(shí)體來看,空字符串是有實(shí)體的,實(shí)體為字符串類型;而缺失值其實(shí)是沒有實(shí)體的,即沒有數(shù)據(jù)類型。
丟失的數(shù)據(jù)記錄通常無法找回,這里重點(diǎn)討論數(shù)據(jù)列類型缺失值的處理思路。通常有4種思路。
1. 丟棄
這種方法簡單明了,直接刪除帶有缺失值的行記錄(整行刪除)或者列字段(整列刪除),減少缺失數(shù)據(jù)記錄對(duì)總體數(shù)據(jù)的影響。但丟棄意味著會(huì)消減數(shù)據(jù)特征,以下任何一種場(chǎng)景都不宜采用該方法。
2. 補(bǔ)全
相對(duì)丟棄而言,補(bǔ)全是更加常用的缺失值處理方式。通過一定的方法將缺失的數(shù)據(jù)補(bǔ)上,從而形成完整的數(shù)據(jù)記錄,對(duì)于后續(xù)的數(shù)據(jù)處理、分析和建模至關(guān)重要。常用的補(bǔ)全方法如下。
3. 真值轉(zhuǎn)換法
在某些情況下,我們可能無法得知缺失值的分布規(guī)律,并且無法對(duì)于缺失值采用上述任何一種補(bǔ)全方法做處理;或者我們認(rèn)為數(shù)據(jù)缺失也是一種規(guī)律,不應(yīng)該輕易對(duì)缺失值隨意處理,那么還有一種缺失值處理思路—真值轉(zhuǎn)換。
該思路的根本觀點(diǎn)是,我們承認(rèn)缺失值的存在,并且把數(shù)據(jù)缺失也作為數(shù)據(jù)分布規(guī)律的一部分,將變量的實(shí)際值和缺失值都作為輸入維度參與后續(xù)數(shù)據(jù)處理和模型計(jì)算中。但是變量的實(shí)際值可以作為變量值參與模型計(jì)算,而缺失值通常無法參與運(yùn)算,因此需要對(duì)缺失值進(jìn)行真值轉(zhuǎn)換。
以用戶性別字段為例,很多數(shù)據(jù)庫集都無法對(duì)會(huì)員的性別進(jìn)行補(bǔ)足,但又舍不得將其丟棄掉,那么我們將選擇將其中的值,包括男、女、未知從一個(gè)變量的多個(gè)值分布狀態(tài)轉(zhuǎn)換為多個(gè)變量的真值分布狀態(tài)。
然后將這3列新的字段作為輸入維度替換原來的1個(gè)字段參與后續(xù)模型計(jì)算。
4. 不處理
在數(shù)據(jù)預(yù)處理階段,對(duì)于具有缺失值的數(shù)據(jù)記錄不做任何處理,也是一種思路。這種思路主要看后期的數(shù)據(jù)分析和建模應(yīng)用,很多模型對(duì)于缺失值有容忍度或靈活的處理方法,因此在預(yù)處理階段可以不做處理。
常見的能夠自動(dòng)處理缺失值的模型包括:KNN、決策樹和隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)和樸素貝葉斯、DBSCAN(基于密度的帶有噪聲的空間聚類)等。這些模型對(duì)于缺失值的處理思路是:
在數(shù)據(jù)建模前的數(shù)據(jù)歸約階段,有一種歸約的思路是降維,降維中有一種直接選擇特征的方法。假如我們通過一定方法確定帶有缺失值(無論缺少字段的值缺失數(shù)量有多少)的字段對(duì)于模型的影響非常小,那么我們根本就不需要對(duì)缺失值進(jìn)行處理。
因此,后期建模時(shí)的字段或特征的重要性判斷也是決定是否處理字段缺失值的重要參考因素之一。
對(duì)于缺失值的處理思路是先通過一定方法找到缺失值,接著分析缺失值在整體樣本中的分布占比,以及缺失值是否具有顯著的無規(guī)律分布特征,然后考慮后續(xù)要使用的模型中是否能滿足缺失值的自動(dòng)處理,最后決定采用哪種缺失值處理方法。
在選擇處理方法時(shí),注意投入的時(shí)間、精力和產(chǎn)出價(jià)值,畢竟,處理缺失值只是整個(gè)數(shù)據(jù)工作的冰山一角而已。
在數(shù)據(jù)采集時(shí),可在采集端針對(duì)各個(gè)字段設(shè)置一個(gè)默認(rèn)值。以MySQL為例,在設(shè)計(jì)數(shù)據(jù)庫表時(shí),可通過default指定每個(gè)字段的默認(rèn)值,該值必須是常數(shù)。
在這種情況下,假如原本數(shù)據(jù)采集時(shí)沒有采集到數(shù)據(jù),字段的值應(yīng)該為Null,雖然由于在建立庫表時(shí)設(shè)置了默認(rèn)值會(huì)導(dǎo)致“缺失值”看起來非常正常,但本質(zhì)上還是缺失的。對(duì)于這類數(shù)據(jù)需要尤其注意。
02、不要輕易拋棄異常數(shù)據(jù)
異常數(shù)據(jù)是數(shù)據(jù)分布的常態(tài),處于特定分布區(qū)域或范圍之外的數(shù)據(jù)通常會(huì)被定義為異常或“噪音”。產(chǎn)生數(shù)據(jù)“噪音”的原因很多,例如業(yè)務(wù)運(yùn)營操作、數(shù)據(jù)采集問題、數(shù)據(jù)同步問題等。
對(duì)異常數(shù)據(jù)進(jìn)行處理前,需要先辨別出到底哪些是真正的數(shù)據(jù)異常。從數(shù)據(jù)異常的狀態(tài)看分為兩種:
大多數(shù)數(shù)據(jù)挖掘或數(shù)據(jù)工作中,異常值都會(huì)在數(shù)據(jù)的預(yù)處理過程中被認(rèn)為是噪音而剔除,以避免其對(duì)總體數(shù)據(jù)評(píng)估和分析挖掘的影響。但在以下幾種情況下,我們無須對(duì)異常值做拋棄處理。
1. 異常值正常反映了業(yè)務(wù)運(yùn)營結(jié)果
該場(chǎng)景是由業(yè)務(wù)部門的特定動(dòng)作導(dǎo)致的數(shù)據(jù)分布異常,如果拋棄異常值將導(dǎo)致無法正確反饋業(yè)務(wù)結(jié)果。
例如:公司的A商品正常情況下日銷量為1000臺(tái)左右。由于昨日舉行優(yōu)惠促銷活動(dòng)導(dǎo)致總銷量達(dá)到10000臺(tái),由于后端庫存?zhèn)湄洸蛔銓?dǎo)致今日銷量又下降到100臺(tái)。在這種情況下,10000臺(tái)和100臺(tái)都正確地反映了業(yè)務(wù)運(yùn)營的結(jié)果,而非數(shù)據(jù)異常案例。
2. 異常檢測(cè)模型
異常檢測(cè)模型是針對(duì)整體樣本中的異常數(shù)據(jù)進(jìn)行分析和挖掘,以便找到其中的異常個(gè)案和規(guī)律,這種數(shù)據(jù)應(yīng)用圍繞異常值展開,因此異常值不能做拋棄處理。
異常檢測(cè)模型常用于客戶異常識(shí)別、信用卡欺詐、貸款審批識(shí)別、藥物變異識(shí)別、惡劣氣象預(yù)測(cè)、網(wǎng)絡(luò)入侵檢測(cè)、流量作弊檢測(cè)等。在這種情況下,異常數(shù)據(jù)本身是目標(biāo)數(shù)據(jù),如果被處理掉將損失關(guān)鍵信息。
3. 包容異常值的數(shù)據(jù)建模
如果數(shù)據(jù)算法和模型對(duì)異常值不敏感,那么即使不處理異常值也不會(huì)對(duì)模型本身造成負(fù)面影響。例如在決策樹中,異常值本身就可以作為一種分裂節(jié)點(diǎn)。
提示:除了拋棄和保留,還有一種思路可對(duì)異常值進(jìn)行處理,例如使用其他統(tǒng)計(jì)量、預(yù)測(cè)量進(jìn)行替換。但這種方法不推薦使用,原因是這會(huì)將其中的關(guān)鍵分布特征消除,從而改變?cè)紨?shù)據(jù)集的分布規(guī)律。
03、數(shù)據(jù)重復(fù)就需要去重嗎
數(shù)據(jù)集中的重復(fù)值包括以下兩種情況:
去重是重復(fù)值處理的主要方法,主要目的是保留能顯示特征的唯一數(shù)據(jù)記錄。但當(dāng)遇到以下幾種情況時(shí),請(qǐng)慎重(不建議)執(zhí)行數(shù)據(jù)去重。
1. 重復(fù)的記錄用于分析演變規(guī)律
以變化維度表為例。例如在商品類別的維度表中,每個(gè)商品對(duì)應(yīng)的同1個(gè)類別的值應(yīng)該是唯一的,例如蘋果iPhone7屬于個(gè)人電子消費(fèi)品,這樣才能將所有商品分配到唯一類別屬性值中。但當(dāng)所有商品類別的值重構(gòu)或升級(jí)時(shí)(大多數(shù)情況下隨著公司的發(fā)展都會(huì)這么做),原有的商品可能被分配了類別中的不同值。如下表所示展示了這種變化。
此時(shí),我們?cè)跀?shù)據(jù)中使用Full join做跨重構(gòu)時(shí)間點(diǎn)的類別匹配時(shí),會(huì)發(fā)現(xiàn)蘋果iPhone7會(huì)同時(shí)匹配到個(gè)人電子消費(fèi)品和手機(jī)數(shù)碼2條記錄。對(duì)于這種情況,需要根據(jù)具體業(yè)務(wù)需求處理。
變化維度表是數(shù)據(jù)倉庫中的概念。維度表類似于匹配表,用來存儲(chǔ)靜態(tài)的維度、屬性等數(shù)據(jù),而這些數(shù)據(jù)一般都不會(huì)改變。但是變與不變是一個(gè)相對(duì)的概念,隨著企業(yè)的不斷發(fā)展,很多時(shí)候維度也會(huì)隨著發(fā)生變化。因此在某個(gè)時(shí)間內(nèi)的維度是不變的,而從整體來看維度也是變化的。
對(duì)于維度的變化,有3種方式進(jìn)行處理:
具體到企業(yè)內(nèi)使用哪種方式,通常由數(shù)據(jù)庫管理員根據(jù)實(shí)際情況來決定。
注意:真正的變化維度表或維度表不會(huì)以中文做主鍵,通常都會(huì)使用數(shù)字或字符串類作為唯一關(guān)聯(lián)ID,本節(jié)的示例僅做說明之用。
2. 重復(fù)的記錄用于樣本不均衡處理
在開展分類數(shù)據(jù)建模工作時(shí),樣本不均衡是影響分類模型效果的關(guān)鍵因素之一。解決分類方法的一種方法是對(duì)少數(shù)樣本類別做簡單過采樣,通過隨機(jī)過采樣,采取簡單復(fù)制樣本的策略來增加少數(shù)類樣本。
經(jīng)過這種處理方式后,也會(huì)在數(shù)據(jù)記錄中產(chǎn)生相同記錄的多條數(shù)據(jù)。此時(shí),我們不能對(duì)其中的重復(fù)值執(zhí)行去重操作。
3. 重復(fù)的記錄用于檢測(cè)業(yè)務(wù)規(guī)則問題
對(duì)于以分析應(yīng)用為主的數(shù)據(jù)集而言,存在重復(fù)記錄不會(huì)直接影響實(shí)際運(yùn)營,畢竟數(shù)據(jù)集主要是用來做分析的。
但對(duì)于事務(wù)型的數(shù)據(jù)而言,重復(fù)數(shù)據(jù)可能意味著重大運(yùn)營規(guī)則問題,尤其當(dāng)這些重復(fù)值出現(xiàn)在與企業(yè)經(jīng)營中與金錢相關(guān)的業(yè)務(wù)場(chǎng)景時(shí),例如:重復(fù)的訂單、重復(fù)的充值、重復(fù)的預(yù)約項(xiàng)、重復(fù)的出庫申請(qǐng)等。
這些重復(fù)的數(shù)據(jù)記錄通常是由于數(shù)據(jù)采集、存儲(chǔ)、驗(yàn)證和審核機(jī)制的不完善等問題導(dǎo)致的,會(huì)直接反映到前臺(tái)生產(chǎn)和運(yùn)營系統(tǒng)。以重復(fù)訂單為例:
因此,這些問題必須在前期數(shù)據(jù)采集和存儲(chǔ)時(shí)就通過一定機(jī)制解決和避免。如果確實(shí)產(chǎn)生了此類問題,那么數(shù)據(jù)工作者或運(yùn)營工作者可以基于這些重復(fù)值來發(fā)現(xiàn)規(guī)則漏洞,并配合相關(guān)部門,最大限度地降低由此而帶來的運(yùn)營風(fēng)險(xiǎn)。
關(guān)于作者:宋天龍,大數(shù)據(jù)技術(shù)專家,觸脈咨詢合伙人兼副總裁,前Webtrekk中國區(qū)技術(shù)和咨詢負(fù)責(zé)人(Webtrekk,德國的在線數(shù)據(jù)分析服務(wù)提供商)。擅長數(shù)據(jù)挖掘、建模、分析與運(yùn)營,精通端到端數(shù)據(jù)價(jià)值場(chǎng)景設(shè)計(jì)、業(yè)務(wù)需求轉(zhuǎn)換、數(shù)據(jù)結(jié)構(gòu)梳理、數(shù)據(jù)建模與學(xué)習(xí)以及數(shù)據(jù)工程交付。
直播預(yù)告
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03