女的把腿扒开要男的桶,2022精品久久久久久中文字幕,肥婆 www.bbwsex.tv

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

數(shù)據(jù)分析實踐入門：缺失值處理、重復(fù)值處理、異常值處理等

2020-05-11

作者 | CDA數(shù)據(jù)分析師

從菜市場買來的菜，總有一些是壞掉的不太好的，所以把菜買回來之后要做一遍預(yù)處理，也就是把那些壞掉的不太好的部分扔掉。現(xiàn)實中大部分的數(shù)據(jù)都類似于菜市場的菜品，拿到手以后會有一些不好的數(shù)據(jù)，所以都要先做一次預(yù)處理。

常見的不規(guī)則數(shù)據(jù)主要有缺失數(shù)據(jù)、重復(fù)數(shù)據(jù)、異常數(shù)據(jù)幾種，在開始正式的數(shù)據(jù)分析之前，我們需要先把這些不太規(guī)整的數(shù)據(jù)處理掉，做數(shù)據(jù)預(yù)處理。

一、缺失值處理

缺失值就是由某些原因?qū)е虏糠謹?shù)據(jù)是空的，對于為空的這部分數(shù)據(jù)我們一般是有兩種處理方式的，一種是做刪除處理，即把含有缺失值的數(shù)據(jù)刪除；另一種是做填充處理，即把缺失的那部分數(shù)據(jù)用某個值代替。

1、缺失值查看

對缺失值進行處理，首先要把數(shù)據(jù)中的缺失值找出來，也就是查看數(shù)據(jù)中有哪些列有缺失值。

（1）、Excel實現(xiàn)

在Excel中我們選中一列沒有缺失值的數(shù)據(jù)，看一下這一列數(shù)據(jù)共有多少個，然后把其他列的計數(shù)與這一列進行做對比，小于這一列數(shù)據(jù)個數(shù)的就代表該列數(shù)據(jù)有缺失值，差值就是缺失個數(shù)。

下圖中非缺失值列的數(shù)據(jù)計數(shù)為5，性別這一列計數(shù)為4，這就表示性別這一列是有一個缺失值的。

如果想要看整個數(shù)據(jù)表中每列數(shù)據(jù)的缺失情況，則要挨個選中數(shù)據(jù)中每一列去判斷該列是否有缺失值。

如果數(shù)據(jù)不是特別多，你想看數(shù)據(jù)中具體是哪個單元格的缺失，則可以利用定位條件（按快捷鍵Ctrl+G可彈出對話框）查找。在定位條件對話框中選擇空值，單擊確定就會把所有的空值選中，如下圖所示：

通過定位條件把數(shù)據(jù)中缺失值選出來的結(jié)果，如下圖所示：

（2）Python實現(xiàn)

在Python中直接調(diào)用info ( ) 函數(shù)的方法就會返回每一列的缺失情況。關(guān)于info ( ) 函數(shù)方法我們在之前就用過，但是沒有說明這個方法可以判斷數(shù)據(jù)的缺失情況。

Pythoy中缺失值一般用NaN表示，從用info ( ) 方法的結(jié)果來看，數(shù)據(jù)中性別這一列是3 non-null object，表示性別這一列有3個非null值，而其他列有4個非null值，說明性別這一列有1個null值。

我們在python中還可以用isnull ( ) 方法來判斷哪個值是缺失值，如果是缺失值則返回True，一行中如果不是缺失值則返回False。

2、缺失值刪除

缺失值分為兩種，第一種是一行中某個字段是缺失值；另一種是一行中的字段全部為缺失值，即為一個空白行。

（1）Excel實現(xiàn)

在Excel中，這兩種缺失值都可以通過定位條件（按快捷鍵Ctrl+G可彈出該對話框），對話框中選擇空值就可以找到。

這樣含有缺失值的部分數(shù)據(jù)就會被選中，包括某個具體的單元格及一整行，然后單擊鼠標右鍵在彈出的刪除對話框中選擇刪除整行選項，并單擊確定按鈕即可實現(xiàn)整行的刪除。

（2）Python實現(xiàn)

在Python中，我們利用的是函數(shù)dropna ( ) 方法，函數(shù)dropna ( ) 方法默認刪除含有缺失值的行，也就是只要某一行有缺失值就把這一行刪除。

運行函數(shù)dropna ( ) 方法以后，刪除含有NaN值的行，返回刪除后的數(shù)據(jù)。

如果想刪除空白行，只要給函數(shù)dropna ( ) 方法傳入一個參數(shù) how = all 即可，這樣就會只刪除那些全為空值的行，不全為空值的行就不會被刪除。

上表第二行中只有性別這個字段是空值，所以在利用函數(shù)dropna（ how = “all” ）的時候并沒有刪除第二行，只是把全為NaN值的第三行刪掉了。

3、缺失值的填充

上面介紹了數(shù)據(jù)處理缺失值刪除的方法，但是數(shù)據(jù)是寶貴的，一般情況下只要數(shù)據(jù)缺失比例不是過高（不大于30%），盡量還是不要做刪除處理，而是選擇做填充。

（1）Excel實現(xiàn)

在Excel中，缺失值的填充和缺失值刪除一樣，利用的也是定位條件，先把缺失值找到，然后在第一個缺失值的單元格中輸入要填充的值，最常用的就是用0填充，輸入以后按Ctrl+Enter組合鍵就可以對所有缺失值進行填充處理。

缺失值填充前后的對比如下圖所示：

在數(shù)據(jù)中年齡用數(shù)字填充合適，但是性別用數(shù)字填充就不太合適，那么可不可以分開填充呢？答案是可以的，選中想要被填充的那一列，按照填充全部數(shù)據(jù)的方式進行填充就可以了，只不過如果想要要填充幾列，則需要執(zhí)行幾次這樣的操作。

上圖是數(shù)據(jù)填充前后的對比，年齡這一列我們使用平均值進行填充，性別這一列我們使用眾數(shù)進行填充。

除了用0填充、平均值填充、眾數(shù)（大多數(shù)）填充，還有向前填充（即用缺失值的前一個非缺失值填充，比如上個例子中編號A3 對應(yīng)的缺失年齡的前一個非缺失值就是16）、向后填充（與向前填充對應(yīng)）等方式。

（2）Python實現(xiàn)

在Python中，我們利用的 fillna ( ) 方法對數(shù)據(jù)表中的所有缺失值進行填充，在fillna ( )后面的括號中輸入要填充的值即可。

在Python中我們也可以按不同列進行填充，只要在函數(shù)fillna ( ) 方法的括號中指明列名即可。

上面的代碼中只針對性別這一列進行了填充處理，數(shù)據(jù)中其他列均未進行任何更改。

也可以同時對多個列填充不同的值：

二、重復(fù)值處理

重復(fù)數(shù)據(jù)就是同樣的記錄有多條，對于這樣的數(shù)據(jù)我們一般做刪除處理。

假設(shè)你是一名數(shù)據(jù)分析師，你的主要工作是分析你所在公司的銷售情況，現(xiàn)有公司2018年8月的銷售明細（已知一條明細對應(yīng)一筆成交記錄信息），你想看一下2018年8月公司整體成交量是多少，最簡單的方式就是看一下這個月有多少條成交明細。但是這里可能會有重復(fù)的成交記錄存在，所以要先做刪除重復(fù)項的處理。

（1）Excel實現(xiàn)

在Excel中依次單擊菜單欄中的數(shù)據(jù)>數(shù)據(jù)工具>刪除重復(fù)值，就可以刪除重復(fù)數(shù)據(jù)了，如下圖所示：

數(shù)據(jù)刪除前后的對比圖如下：

Excel的刪除重復(fù)值默認是針對所有值進行重復(fù)值判斷，比如數(shù)據(jù)中有訂單編號、客戶姓名、唯一識別碼（類似于身份證號的字段）、成交時間這四個字段，Excel會判斷這四個字段是否都是相等的，只有都相等時才會做刪除處理，并且會保留第一個值（第一行值）。

你知道了公司2018年8月份成交明細以后，你想看一下2018年8月份總共有多少成交客戶，且每個客戶在2018年8月份首次成交的日期。

查看客戶數(shù)量只需要按客戶的唯一識別碼進行去重就可以了。Excel默認是全選，我們可以取消全選，選擇唯一識別碼進行去重，這樣只要唯一識別碼重復(fù)就會被刪除，如下圖所示：

因為Excel默認會保留第一條記錄，而我們又想獲取每個客戶較早成交日期，所以我們需要先對時間進行升序排序，讓較早的日期排在前面。這樣在刪除的時候就會保留較早的成交日期。

刪除前后的對比如下圖所示：

（2）Python實現(xiàn)

在Python中我們利用drop_duplicates ( ) 方法，該方法默認對所有值進行重復(fù)值判斷，且默認保留第一個值（或第一行值）。

上面的代碼是針對所有字段進行的重復(fù)值判斷，我們同樣也可以只針對某一列或某幾列進行重復(fù)值刪除的判斷，只需要在drop_duplicates ( ) 方法中指明要判斷的列名即可。

也可以利用多列去重，只需要把多個列名以列表的形式傳給參數(shù)subset即可。比如按姓名和唯一識別碼去重。

還可以定義刪除重復(fù)項時要保留哪個，默認是保留第一個，也可以默認保留最后一個，或者全部不保留。通過傳入?yún)?shù)keep進行設(shè)置，參數(shù)keep默認值是first，即保留第一個值；也可以是last，保留最后一個值；還可以是False，即把重復(fù)值全部去掉。

三、異常值的檢測與處理

異常值就是相比正常數(shù)據(jù)而言過高或者過低的數(shù)據(jù)，比如一個人的年齡是0歲或者100歲都算是一個異常值，因為這和實際情況差距過大。

1、異常值檢測

要處理異常值首先要檢測，也就是發(fā)現(xiàn)異常值，發(fā)現(xiàn)異常值的方式主要有以下三種：

■根據(jù)業(yè)務(wù)經(jīng)驗劃定不同指標的正常范圍，超過該范圍的值就可以算為異常值

■通過繪制箱型圖，把大于（小于）箱型圖上邊緣（下邊緣）的點稱為異常值

■如果數(shù)據(jù)服從正太分布，則可以利用3σ 原則；如果一個數(shù)值與平均值之間的偏差超過3倍標準差，那么我們就認為這個值是異常值。

箱形圖如下圖所示：

下圖是正態(tài)分布圖，我們把大于μ+3σ的值稱為異常值。

2、異常值處理

對于異常值一般有以下幾種處理方式：

■最常用的處理方式就是刪除

■把異常值當做缺失值來填充

■把異常值當做特殊情況，研究異常值出現(xiàn)的原因

（1）Excel實現(xiàn)

在Excel中，刪除異常值只要通過篩選就把異常值對應(yīng)的行找出來，然后單擊鼠標右鍵選擇刪除行即可。

對異常值進行填充，其實就是對異常值進行替換，同樣通過篩選的功能把異常值先找出來，然后把這些異常值替換成要填充的值即可。

（2）Python實現(xiàn)

在Python中，刪除異常值用到的方法和Excel中的方法原理類似，Python中是通過過濾的方法對異常值進行刪除。比如 df 表中有年齡這個指標，要把年齡大于200的值刪掉，你可以通過篩選把年齡不大于200的篩出來，篩出來的部分就是刪除大于200的值以后的新表。

對異常值進行填充，就是對異常值進行替換，利用 replace ( ) 方法可以對特定的值進行替換。

四、數(shù)據(jù)類型轉(zhuǎn)換

1、數(shù)據(jù)類型

（1）Excel實現(xiàn)

在Excel中常用的數(shù)據(jù)類型就是在菜單欄中數(shù)字選項下面的幾種，你也可以選擇其他數(shù)據(jù)格式，如下圖所示。

在Excel中只要選中某一列就可以在菜單欄看到這一列的數(shù)據(jù)類型。

當選中成交時間這一列時，菜單欄中就會顯示日期，表示成交時間這一列的數(shù)據(jù)類型是日期格式，如下圖所示。

（2）Python實現(xiàn)

Pandas不像Excel分得那么詳細，它主要有6種數(shù)據(jù)類型，如下表所示。

在 Python 中，不僅可以用 info ( ) 方法獲取每一列的數(shù)據(jù)類型，還可以通過 dtype方法來獲取某一列的數(shù)據(jù)類型。

2、類型轉(zhuǎn)換

我們在前面說過，不同數(shù)據(jù)類型的數(shù)據(jù)可以做的事情是不一樣的，所以我們需要對數(shù)據(jù)進行類型轉(zhuǎn)化，把數(shù)據(jù)轉(zhuǎn)換為我們需要的類型。

（1）Excel實現(xiàn)

在Excel中如果想更改某一列的數(shù)據(jù)類型，只要選中這一列，然后在數(shù)字菜單欄中通過下拉菜單選擇你要轉(zhuǎn)換的目標類型即可實現(xiàn)。

下圖就是將文本類型的數(shù)據(jù)轉(zhuǎn)換成數(shù)值類型的數(shù)據(jù)，數(shù)值類型數(shù)據(jù)默認為兩位小數(shù)，也可以設(shè)置成其他位數(shù)。

（2）Python實現(xiàn)

在Python中，我們利用astype ( ) 方法對數(shù)據(jù)類型進行轉(zhuǎn)換，astype ( ) 后面的括號里指明要轉(zhuǎn)換的目標類型即可。

五、索引設(shè)置

索引是查找數(shù)據(jù)的依據(jù)，設(shè)置索引的目的是便于我們查找數(shù)據(jù)。舉個例子，你逛超市買了很多食材，回到家以后你要把這些食材全部放在冰箱里，放置在冰箱的過程其實就是一個建立索引的過程，比如蔬菜放在冷藏室，肉類放在冷凍室，進行完這樣的分類存放之后，這樣再找的時候就可以很快的找到。

1、為無索引的表添加索引

有的表沒有索引，這時要給這類表加一個索引。

（1）Excel實現(xiàn)

在Excel中，一般都是有索引的，如果沒索引數(shù)據(jù)看起來會很亂，當然也會有例外，數(shù)據(jù)表就是沒有索引的。這個時候插入一行一列就是為表添加索引。

添加索引前后的對比如下圖所示，序號列為行索引，字段名稱為列索引。