99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

作者：俊欣

來源：關(guān)于數(shù)據(jù)分析與可視化

大家好，又是新的一周。大家一般會(huì)用Pandas模塊來對數(shù)據(jù)集進(jìn)行進(jìn)一步的分析與挖掘關(guān)鍵信息，但是當(dāng)我們遇到數(shù)據(jù)集特別特別大的時(shí)候，內(nèi)存就會(huì)爆掉，今天小編就來分享幾個(gè)技巧，來幫助你避免遇到上述提到的這個(gè)情況。

read_csv()方法當(dāng)中的chunksize參數(shù)

read_csv()方法當(dāng)中的chunksize參數(shù)顧名思義就是對于超大csv文件，我們可以分塊來進(jìn)行讀取，例如文件當(dāng)中有7000萬行的數(shù)據(jù)，我們將chunksize參數(shù)設(shè)置為100萬，每次分100萬來分批讀取，代碼如下

# read the large csv file with specified chunksize  df_chunk = pd.read_csv(r'data.csv', chunksize=1000000)

這時(shí)我們得到的df_chunk并非是一個(gè)DataFrame對象，而是一個(gè)可迭代的對象。接下來我們使用for循環(huán)并且將自己創(chuàng)立數(shù)據(jù)預(yù)處理的函數(shù)方法作用于每塊的DataFrame數(shù)據(jù)集上面，代碼如下

chunk_list = []  # 創(chuàng)建一個(gè)列表chunk_list   # for循環(huán)遍歷df_chunk當(dāng)中的每一個(gè)DataFrame對象 for chunk in df_chunk:   # 將自己創(chuàng)建的數(shù)據(jù)預(yù)處理的方法作用于每個(gè)DataFrame對象上 chunk_filter = chunk_preprocessing(chunk)  # 將處理過后的結(jié)果append到上面建立的空列表當(dāng)中 chunk_list.append(chunk_filter)  # 然后將列表concat到一塊兒 df_concat = pd.concat(chunk_list)

將不重要的列都去除掉

當(dāng)然我們還可以進(jìn)一步將不重要的列都給去除掉，例如某一列當(dāng)中存在較大比例的空值，那么我們就可以將該列去除掉，代碼如下

# Filter out unimportant columns df = df[['col_1','col_2', 'col_3', 'col_4', 'col_5', 'col_6','col_7', 'col_8', 'col_9', 'col_10']]

當(dāng)然我們要去除掉空值可以調(diào)用df.dropna()方法，一般也可以提高數(shù)據(jù)的準(zhǔn)確性以及減少內(nèi)存的消耗

轉(zhuǎn)變數(shù)據(jù)格式

最后我們可以通過改變數(shù)據(jù)類型來壓縮內(nèi)存空間，一般情況下，Pandas模塊會(huì)給數(shù)據(jù)列自動(dòng)設(shè)置默認(rèn)的數(shù)據(jù)類型，很多數(shù)據(jù)類型里面還有子類型，而這些子類型可以用更加少的字節(jié)數(shù)來表示，下表給出了各子類型所占的字節(jié)數(shù)

2000字詳解，當(dāng)Pandas遇上超大規(guī)模的數(shù)據(jù)集該如何處理呢？

對于內(nèi)存當(dāng)中的數(shù)據(jù)，我們可以這么來理解，內(nèi)存相當(dāng)于是倉庫，而數(shù)據(jù)則相當(dāng)于是貨物，貨物在入倉庫之前呢需要將其裝入箱子當(dāng)中，現(xiàn)在有著大、中、小三種箱子，

現(xiàn)在Pandas在讀取數(shù)據(jù)的時(shí)候是將這些數(shù)據(jù)無論其類型，都是裝到大箱子當(dāng)中去，因此會(huì)在很快的時(shí)間里倉庫也就是內(nèi)存就滿了。

因此我們優(yōu)化的思路就在于是遍歷每一列，然后找出該列的最大值與最小值，我們將這些最大最小值與子類型當(dāng)中的最大最小值去做比較，挑選字節(jié)數(shù)最小的子類型。

我們舉個(gè)例子，Pandas默認(rèn)是int64類型的某一列最大值與最小值分別是0和100，而int8類型是可以存儲(chǔ)數(shù)值在-128~127之間的，因此我們可以將該列從int64類型轉(zhuǎn)換成int8類型，也就同時(shí)節(jié)省了不少內(nèi)存的空間。

我們將上面的思路整理成代碼，就是如下所示

def reduce_mem_usage(df): """ 遍歷DataFrame數(shù)據(jù)集中的每列數(shù)據(jù)集
    并且更改它們的數(shù)據(jù)類型        
    """ start_memory = df.memory_usage().sum() / 1024**2 print('DataFrame所占用的數(shù)據(jù)集有: {:.2f} MB'.format(start_memory)) for col in df.columns:
        col_type = df[col].dtype if col_type != object:
            col_min = df[col].min()
            col_max = df[col].max() if str(col_type)[:3] == 'int': if col_min > np.iinfo(np.int8).min and col_max < np.iinfo(np.int8).max:
                    df[col] = df[col].astype(np.int8) elif col_min > np.iinfo(np.int16).min and col_max < np.iinfo(np.int16).max:
                    df[col] = df[col].astype(np.int16) elif col_min > np.iinfo(np.int32).min and col_max < np.iinfo(np.int32).max:
                    df[col] = df[col].astype(np.int32) elif col_min > np.iinfo(np.int64).min and col_max < np.iinfo(np.int64).max:
                    df[col] = df[col].astype(np.int64) else: if col_min > np.finfo(np.float16).min and col_max < np.finfo(np.float16).max:
                    df[col] = df[col].astype(np.float16) elif col_min > np.finfo(np.float32).min and col_max < np.finfo(np.float32).max:
                    df[col] = df[col].astype(np.float32) else:
                    df[col] = df[col].astype(np.float64)

    end_memory = df.memory_usage().sum() / 1024**2 print('優(yōu)化過之后數(shù)據(jù)集的內(nèi)存占有: {:.2f} MB'.format(end_memory))
    print('減少了大約有: {:.1f}%'.format(100 * (start_memory - end_memory) / start_memory)) return df

大家可以將小編寫的這個(gè)函數(shù)方法拿去嘗試一番，看一下效果如何？

京公網(wǎng)安備 11010802034615號經(jīng)營許可證編號：京B2-20210330

聯(lián)系電話：13321103290 (微信同號)

免密碼登錄

提交首次登錄驗(yàn)證后自動(dòng)注冊

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

2000字詳解，當(dāng)Pandas遇上超大規(guī)模的數(shù)據(jù)集該如何處理呢？（CDA內(nèi)容分享）

read_csv()方法當(dāng)中的chunksize參數(shù)

將不重要的列都去除掉

轉(zhuǎn)變數(shù)據(jù)格式

數(shù)據(jù)分析師考試動(dòng)態(tài)

CDA報(bào)考指南

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

【CDA干貨】SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換 ...

【CDA干貨】MySQL 大表拆分與關(guān)聯(lián)查詢效率：打破 “ ...

CDA 數(shù)據(jù)分析師：表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預(yù)期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 ...

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗(yàn)與 t 檢驗(yàn)：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解 ...

【CDA干貨】解析 Python 中 Response 對象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 ...

【CDA干貨】Python HTTP 請求工具對比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點(diǎn)數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu) ...

【CDA干貨】用 SQL 驗(yàn)證業(yè)務(wù)邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據(jù)驅(qū)動(dòng)下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實(shí)踐到業(yè)務(wù) ...

【CDA干貨】統(tǒng)計(jì)模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

2000字詳解，當(dāng)Pandas遇上超大規(guī)模的數(shù)據(jù)集該如何處理呢？（CDA內(nèi)容分享）

read_csv()方法當(dāng)中的chunksize參數(shù)

將不重要的列都去除掉

轉(zhuǎn)變數(shù)據(jù)格式

數(shù)據(jù)分析師考試動(dòng)態(tài)

CDA報(bào)考指南

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

【CDA干貨】SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換 ...

【CDA干貨】MySQL 大表拆分與關(guān)聯(lián)查詢效率：打破 “ ...

CDA 數(shù)據(jù)分析師：表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預(yù)期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 ...

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗(yàn)與 t 檢驗(yàn)：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解 ...

【CDA干貨】解析 Python 中 Response 對象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 ...

【CDA干貨】Python HTTP 請求工具對比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點(diǎn)數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu) ...

【CDA干貨】用 SQL 驗(yàn)證業(yè)務(wù)邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據(jù)驅(qū)動(dòng)下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實(shí)踐到業(yè)務(wù) ...

【CDA干貨】統(tǒng)計(jì)模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

2000字詳解，當(dāng)Pandas遇上超大規(guī)模的數(shù)據(jù)集該如何處理呢？（CDA內(nèi)容分享）

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...