
作者 | 常國珍、趙仁乾、張秋劍
來源 |《Python數(shù)據(jù)科學:技術詳解與商業(yè)實踐》
數(shù)據(jù)清洗是數(shù)據(jù)分析的必備環(huán)節(jié),在進行分析過程中,會有很多不符合分析要求的數(shù)據(jù),例如重復、錯誤、缺失、異常類數(shù)據(jù)。
01 重復值處理
數(shù)據(jù)錄入過程、數(shù)據(jù)整合過程都可能會產(chǎn)生重復數(shù)據(jù),直接刪除是重復數(shù)據(jù)處理的主要方法。pandas提供查看、處理重復數(shù)據(jù)的方法duplicated和drop_duplicates。以如下數(shù)據(jù)為例:
>sample = pd.DataFrame({'id':[1,1,1,3,4,5], 'name':['Bob','Bob','Mark','Miki','Sully','Rose'], 'score':[99,99,87,77,77,np.nan], 'group':[1,1,1,2,1,2],}) >sample group id name score 0 1 1 Bob 99.0 1 1 1 Bob 99.0 2 1 1 Mark 87.0 3 2 3 Miki 77.0 4 1 4 Sully 77.0 5 2 5 Rose NaN
發(fā)現(xiàn)重復數(shù)據(jù)通過duplicated方法完成,如下所示,可以通過該方法查看重復的數(shù)據(jù)。
>sample[sample.duplicated()] group id name score 1 1 1 Bob 99.0
需要去重時,可drop_duplicates方法完成:
>sample.drop_duplicates() group id name score 0 1 1 Bob 99.0 2 1 1 Mark 87.0 3 2 3 Miki 77.0 4 1 4 Sully 77.0 5 2 5 Rose NaN
drop_duplicates方法還可以按照某列去重,例如去除id列重復的所有記錄:
>sample.drop_duplicates('id') group id name score 0 1 1 Bob 99.0 3 2 3 Miki 77.0 4 1 4 Sully 77.0 5 2 5 Rose NaN
02 缺失值處理
缺失值是數(shù)據(jù)清洗中比較常見的問題,缺失值一般由NA表示,在處理缺失值時要遵循一定的原則。
首先,需要根據(jù)業(yè)務理解處理缺失值,弄清楚缺失值產(chǎn)生的原因是故意缺失還是隨機缺失,再通過一些業(yè)務經(jīng)驗進行填補。一般來說當缺失值少于20%時,連續(xù)變量可以使用均值或中位數(shù)填補;分類變量不需要填補,單算一類即可,或者也可以用眾數(shù)填補分類變量。
當缺失值處于20%-80%之間時,填補方法同上。另外每個有缺失值的變量可以生成一個指示啞變量,參與后續(xù)的建模。當缺失值多于80%時,每個有缺失值的變量生成一個指示啞變量,參與后續(xù)的建模,不使用原始變量。
在下圖中展示了中位數(shù)填補缺失值和缺失值指示變量的生成過程。
▲圖5-8:缺失值填補示例
Pandas提供了fillna方法用于替換缺失值數(shù)據(jù),其功能類似于之前的replace方法,例如對于如下數(shù)據(jù):
> sample group id name score 0 1.0 1.0 Bob 99.0 1 1.0 1.0 Bob NaN 2 NaN 1.0 Mark 87.0 3 2.0 3.0 Miki 77.0 4 1.0 4.0 Sully 77.0 5 NaN NaN NaN NaN
分步驟進行缺失值的查看和填補如下:
1. 查看缺失情況
在進行數(shù)據(jù)分析前,一般需要了解數(shù)據(jù)的缺失情況,在Python中可以構造一個lambda函數(shù)來查看缺失值,該lambda函數(shù)中,sum(col.isnull())表示當前列有多少缺失,col.size表示當前列總共多少行數(shù)據(jù):
>sample.apply(lambda col:sum(col.isnull())/col.size) group 0.333333 id 0.166667 name 0.166667 score 0.333333 dtype: float64
2. 以指定值填補
pandas數(shù)據(jù)框提供了fillna方法完成對缺失值的填補,例如對sample表的列score填補缺失值,填補方法為均值:
>sample.score.fillna(sample.score.mean()) 0 99.0 1 85.0 2 87.0 3 77.0 4 77.0 5 85.0 Name: score, dtype: float64
當然還可以以分位數(shù)等方法進行填補:
>sample.score.fillna(sample.score.median()) 0 99.0 1 82.0 2 87.0 3 77.0 4 77.0 5 82.0 Name: score, dtype: float64
3. 缺失值指示變量
pandas數(shù)據(jù)框對象可以直接調用方法isnull產(chǎn)生缺失值指示變量,例如產(chǎn)生score變量的缺失值指示變量:
>sample.score.isnull() 0 False 1 True 2 False 3 False 4 False 5 True Name: score, dtype: bool
若想轉換為數(shù)值0,1型指示變量,可以使用apply方法,int表示將該列替換為int類型。
>sample.score.isnull().apply(int) 0 0 1 1 2 0 3 0 4 0 5 1 Name: score, dtype: int64
03 噪聲值處理
噪聲值指數(shù)據(jù)中有一個或幾個數(shù)值與其他數(shù)值相比差異較大,又稱為異常值、離群值(outlier)。
對于大部分的模型而言,噪聲值會嚴重干擾模型的結果,并且使結論不真實或偏頗,如圖5-9。需要在數(shù)據(jù)預處理的時候清除所以噪聲值。噪聲值的處理方法很多,對于單變量,常見的方法有蓋帽法、分箱法;多變量的處理方法為聚類法。下面進行詳細介紹:
▲圖5-9:噪聲值(異常值、離群值)示例:年齡數(shù)據(jù),圓圈為噪聲值
1. 蓋帽法
蓋帽法將某連續(xù)變量均值上下三倍標準差范圍外的記錄替換為均值上下三倍標準差值,即蓋帽處理(圖5-10)。
▲圖5-10:蓋帽法處理噪聲值示例
Python中可自定義函數(shù)完成蓋帽法。如下所示,參數(shù)x表示一個pd.Series列,quantile指蓋帽的范圍區(qū)間,默認凡小于百分之1分位數(shù)和大于百分之99分位數(shù)的值將會被百分之1分位數(shù)和百分之99分位數(shù)替代:
>def cap(x,quantile=[0.01,0.99]): """蓋帽法處理異常值 Args: x:pd.Series列,連續(xù)變量 quantile:指定蓋帽法的上下分位數(shù)范圍 """ # 生成分位數(shù) Q01,Q99=x.quantile(quantile).values.tolist() # 替換異常值為指定的分位數(shù) if Q01 > x.min(): x = x.copy() x.loc[x<Q01] = Q01 if Q99 < x.max(): x = x.copy() x.loc[x>Q99] = Q99 return(x)
現(xiàn)生成一組服從正態(tài)分布的隨機數(shù),sample.hist表示產(chǎn)生直方圖,更多繪圖方法會在下一章節(jié)進行講解:
>sample = pd.DataFrame({'normal':np.random.randn(1000)}) >sample.hist(bins=50)
▲圖5-11:未處理噪聲時的變量直方圖
對pandas數(shù)據(jù)框所有列進行蓋帽法轉換,可以以如下寫法,從直方圖對比可以看出蓋帽后極端值頻數(shù)的變化。
>new = sample.apply(cap,quantile=[0.01,0.99]) >new.hist(bins=50)
▲圖5-12:處理完噪聲后的變量直方圖
2. 分箱法
分箱法通過考察數(shù)據(jù)的“近鄰”來光滑有序數(shù)據(jù)的值。有序值分布到一些桶或箱中。
分箱法包括等深分箱:每個分箱中的樣本量一致;等寬分箱:每個分箱中的取值范圍一致。直方圖其實首先對數(shù)據(jù)進行了等寬分箱,再計算頻數(shù)畫圖。
比如價格排序后數(shù)據(jù)為:4、8、15、21、21、24、25、28、34
將其劃分為(等深)箱:
將其劃分為(等寬)箱:
分箱法將異常數(shù)據(jù)包含在了箱子中,在進行建模的時候,不直接進行到模型中,因而可以達到處理異常值的目的。
pandas的qcut函數(shù)提供了分箱的實現(xiàn)方法,下面介紹如何具體實現(xiàn)。
等寬分箱:qcut函數(shù)可以直接進行等寬分箱,此時需要的待分箱的列和分箱個數(shù)兩個參數(shù),如下所示,sample數(shù)據(jù)的int列為從10個服從標準正態(tài)分布的隨機數(shù):
>sample =pd.DataFrame({'normal':np.random.randn(10)}) >sample normal 0 0.065108 1 -0.597031 2 0.635432 3 -0.491930 4 -1.894007 5 1.623684 6 1.723711 7 -0.225949 8 -0.213685 9 -0.309789
現(xiàn)分為5箱,可以看到,結果是按照寬度分為5份,下限中,cut函數(shù)自動選擇小于列最小值一個數(shù)值作為下限,最大值為上限,等分為五分。結果產(chǎn)生一個Categories類的列,類似于R中的factor,表示分類變量列。
此外弱數(shù)據(jù)存在缺失,缺失值將在分箱后將繼續(xù)保持缺失,如下所示:
>pd.cut(sample.normal,5) 0 (-0.447, 0.277] 1 (-1.17, -0.447] 2 (0.277, 1.0] 3 (-1.17, -0.447] 4 (-1.898, -1.17] 5 (1.0, 1.724] 6 (1.0, 1.724] 7 (-0.447, 0.277] 8 (-0.447, 0.277] 9 (-0.447, 0.277] Name: normal, dtype: category Categories (5, interval[float64]): [(-1.898, -1.17] < (-1.17, -0.447] < (-0.447, 0.277] < (0.277, 1.0] < (1.0, 1.724]]
這里也可以使用labels參數(shù)指定分箱后各個水平的標簽,如下所示,此時相應區(qū)間值被標簽值替代:
> pd.cut(sample.normal,bins=5,labels=[1,2,3,4,5]) 0 1 1 1 2 2 3 2 4 3 5 3 6 4 7 4 8 5 9 5 Name: normal, dtype: category Categories (5, int64): [1 < 2 < 3 < 4 < 5]
標簽除了可以設定為數(shù)值,也可以設定為字符,如下所示,將數(shù)據(jù)等寬分為兩箱,標簽為‘bad’,‘good’:
>pd.cut(sample.normal,bins=2,labels=['bad','good']) 0 bad 1 bad 2 bad 3 bad 4 bad 5 good 6 good 7 good 8 good 9 good Name: normal, dtype: category Categories (2, object): [bad < good]
等深分箱:等深分箱中,各個箱的寬度可能不一,但頻數(shù)是幾乎相等的,所以可以采用數(shù)據(jù)的分位數(shù)來進行分箱。依舊以之前的sample數(shù)據(jù)為例,現(xiàn)進行等深度分2箱,首先找到2箱的分位數(shù):
>sample.normal.quantile([0,0.5,1]) 0.0 0.0 0.5 4.5 1.0 9.0 Name: normal, dtype: float64
在bins參數(shù)中設定分位數(shù)區(qū)間,如下所示完成分箱,include_lowest=True參數(shù)表示包含邊界最小值包含數(shù)據(jù)的最小值:
>pd.cut(sample.normal,bins=sample.normal.quantile([0,0.5,1]), include_lowest=True) 0 [0, 4.5] 1 [0, 4.5] 2 [0, 4.5] 3 [0, 4.5] 4 [0, 4.5] 5 (4.5, 9] 6 (4.5, 9] 7 (4.5, 9] 8 (4.5, 9] 9 (4.5, 9] Name: normal, dtype: category Categories (2, object): [[0, 4.5] < (4.5, 9)]
此外也可以加入label參數(shù)指定標簽,如下所示:
>pd.cut(sample.normal,bins=sample.normal.quantile([0,0.5,1]), include_lowest=True) 0 bad 1 bad 2 bad 3 bad 4 bad 5 good 6 good 7 good 8 good 9 good Name: normal, dtype: category Categories (2, object): [bad < good]
3. 多變量異常值處理-聚類法
通過快速聚類法將數(shù)據(jù)對象分組成為多個簇,在同一個簇中的對象具有較高的相似度,而不同的簇之間的對象差別較大。聚類分析可以挖掘孤立點以發(fā)現(xiàn)噪聲數(shù)據(jù),因為噪聲本身就是孤立點。
本案例考慮兩個變量income和age,散點圖如圖5-13所示,其中A、B表示異常值:
▲圖5-13:多變量異常值示例
對于聚類方法處理異常值,其步驟如下所示:
輸入:數(shù)據(jù)集S(包括N條記錄,屬性集D:{年齡、收入}),一條記錄為一個數(shù)據(jù)點,一條記錄上的每個屬性上的值為一個數(shù)據(jù)單元格。數(shù)據(jù)集S有N×D個數(shù)據(jù)單元格,其中某些數(shù)據(jù)單元格是噪聲數(shù)據(jù)。
輸出:孤立數(shù)據(jù)點如圖所示。孤立點A是我們認為它是噪聲數(shù)據(jù),很明顯它的噪聲屬性是收入,通過對收入變量使用蓋帽法可以剔除A。
另外,數(shù)據(jù)點B也是一個噪聲數(shù)據(jù),但是很難判定它在哪個屬性上的數(shù)據(jù)出現(xiàn)錯誤。這種情況下只可以使用多變量方法進行處理。
常用檢查異常值聚類算法為K-means聚類,會在后續(xù)章節(jié)中詳細介紹,本節(jié)不贅述。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調研數(shù)據(jù)中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03