99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話：13121318867

登錄

首頁精彩閱讀介紹一款進階版的Pandas數(shù)據(jù)分析神器：Polars

介紹一款進階版的Pandas數(shù)據(jù)分析神器：Polars

2022-04-11

作者：俊欣

來源：關于數(shù)據(jù)分析與可視化

相信對于不少的數(shù)據(jù)分析從業(yè)者來說呢，用的比較多的是Pandas以及SQL這兩種工具，Pandas不但能夠?qū)?shù)據(jù)集進行清理與分析，并且還能夠繪制各種各樣的炫酷的圖表，但是遇到數(shù)據(jù)集很大的時候要是還使用Pandas來處理顯然有點力不從心。

今天小編就來介紹另外一個數(shù)據(jù)處理與分析工具，叫做Polars，它在數(shù)據(jù)處理的速度上更快，當然里面還包括兩種API，一種是Eager API，另一種則是Lazy API，其中Eager API和Pandas的使用類似，語法類似差不太多，立即執(zhí)行就能產(chǎn)生結(jié)果。

而Lazy API和Spark很相似，會有并行以及對查詢邏輯優(yōu)化的操作。

模塊的安裝與導入

我們先來進行模塊的安裝，使用pip命令

pip install polars

在安裝成功之后，我們分別用Pandas和Polars來讀取數(shù)據(jù)，看一下各自性能上的差異，我們導入會要用到的模塊

import pandas as pd import polars as pl import matplotlib.pyplot as plt
%matplotlib inline

用Pandas讀取文件

本次使用的數(shù)據(jù)集是某網(wǎng)站注冊用戶的用戶名數(shù)據(jù)，總共有360MB大小，我們先用Pandas模塊來讀取該csv文件

%%time df = pd.read_csv("users.csv")
df.head()

output

可以看到用Pandas讀取CSV文件總共花費了12秒的時間，數(shù)據(jù)集總共有兩列，一列是用戶名稱，以及用戶名稱重復的次數(shù)“n”，我們來對數(shù)據(jù)集進行排序，調(diào)用的是sort_values()方法，代碼如下

%%time df.sort_values("n", ascending=False).head()

output

用Polars來讀取操作文件

下面我們用Polars模塊來讀取并操作文件，看看所需要的多久的時間，代碼如下

%%time data = pl.read_csv("users.csv") data.head()

output

可以看到用polars模塊來讀取數(shù)據(jù)僅僅只花費了730毫秒的時間，可以說是快了不少的，我們根據(jù)“n”這一列來對數(shù)據(jù)集進行排序，代碼如下

%%time data.sort(by="n", reverse=True).head()

output

對數(shù)據(jù)集進行排序所消耗的時間為1.39秒，接下來我們用polars模塊來對數(shù)據(jù)集進行一個初步的探索性分析，數(shù)據(jù)集總共有哪些列、列名都有哪些，我們還是以熟知“泰坦尼克號”數(shù)據(jù)集為例

df_titanic = pd.read_csv("titanic.csv")
df_titanic.columns

output

['PassengerId',
 'Survived',
 'Pclass',
 'Name',
 'Sex',
 'Age',
 ......]

和Pandas一樣輸出列名調(diào)用的是columns方法，然后我們來看一下數(shù)據(jù)集總共是有幾行幾列的，

df_titanic.shape

output

(891, 12)

看一下數(shù)據(jù)集中每一列的數(shù)據(jù)類型

df_titanic.dtypes

output

[polars.datatypes.Int64,
 polars.datatypes.Int64,
 polars.datatypes.Int64,
 polars.datatypes.Utf8,
 polars.datatypes.Utf8,
 polars.datatypes.Float64,
......]

填充空值與數(shù)據(jù)的統(tǒng)計分析

我們來看一下數(shù)據(jù)集當中空值的分布情況，調(diào)用null_count()方法

df_titanic.null_count()

output

我們可以看到“Age”以及“Cabin”兩列存在著空值，我們可以嘗試用平均值來進行填充，代碼如下

df_titanic["Age"] = df_titanic["Age"].fill_nan(df_titanic["Age"].mean())

計算某一列的平均值只需要調(diào)用mean()方法即可，那么中位數(shù)、最大/最小值的計算也是同樣的道理，代碼如下

print(f'Median Age: {df_titanic["Age"].median()}')
print(f'Average Age: {df_titanic["Age"].mean()}')
print(f'Maximum Age: {df_titanic["Age"].max()}')
print(f'Minimum Age: {df_titanic["Age"].min()}')

output

Median Age: 29.69911764705882 Average Age: 29.699117647058817 Maximum Age: 80.0 Minimum Age: 0.42

數(shù)據(jù)的篩選與可視化

我們篩選出年齡大于40歲的乘客有哪些，代碼如下

df_titanic[df_titanic["Age"] > 40]

output

最后我們簡單地來繪制一張圖表，代碼如下

fig, ax = plt.subplots(figsize=(10, 5))
ax.boxplot(df_titanic["Age"])
plt.xticks(rotation=90)
plt.xlabel('Age Column')
plt.ylabel('Age')
plt.show()

output

總體來說呢，polars在數(shù)據(jù)分析與處理上面和Pandas模塊有很多相似的地方，其中會有一部分的API存在著差異。

CDA數(shù)據(jù)分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

數(shù)據(jù)分析數(shù)據(jù)處理 matplotlib SQL python pandas 數(shù)據(jù)類型統(tǒng)計分析

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇你們都有switch，憑什么我python沒有？

下一篇JavaScript 逆向爬蟲中的瀏覽器調(diào)試常見技巧

CDA報考指南

報考流程
考試時間
報名費用
聯(lián)系我們

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

京公網(wǎng)安備 11010802034615號經(jīng)營許可證編號：京B2-20210330

聯(lián)系電話：13321103290 (微信同號)

CDA教材
CDA題庫
CDA大綱

客服在線

立即咨詢

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊

') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進行初始化 // 參數(shù)1：配置參數(shù) // 參數(shù)2：回調(diào)，回調(diào)的第一個參數(shù)驗證碼對象，之后可以使用它調(diào)用相應的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須，不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式，包括：float，popup width: "280px", https: true // 更多配置參數(shù)說明請參見：http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'！'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'！'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

介紹一款進階版的Pandas數(shù)據(jù)分析神器：Polars

模塊的安裝與導入

用Pandas讀取文件

用Polars來讀取操作文件

填充空值與數(shù)據(jù)的統(tǒng)計分析

數(shù)據(jù)的篩選與可視化

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

【CDA干貨】SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換 ...

【CDA干貨】MySQL 大表拆分與關聯(lián)查詢效率：打破 “ ...

CDA 數(shù)據(jù)分析師：表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 ...

【CDA干貨】Excel 導入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解 ...

【CDA干貨】解析 Python 中 Response 對象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 ...

【CDA干貨】Python HTTP 請求工具對比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu) ...

【CDA干貨】用 SQL 驗證業(yè)務邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據(jù)驅(qū)動下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實踐到業(yè)務 ...

【CDA干貨】統(tǒng)計模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA教育閉環(huán)

常見問題

關于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

介紹一款進階版的Pandas數(shù)據(jù)分析神器：Polars

模塊的安裝與導入

用Pandas讀取文件

用Polars來讀取操作文件

填充空值與數(shù)據(jù)的統(tǒng)計分析

數(shù)據(jù)的篩選與可視化

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

【CDA干貨】SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換 ...

【CDA干貨】MySQL 大表拆分與關聯(lián)查詢效率：打破 “ ...

CDA 數(shù)據(jù)分析師：表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 ...

【CDA干貨】Excel 導入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解 ...

【CDA干貨】解析 Python 中 Response 對象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 ...

【CDA干貨】Python HTTP 請求工具對比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu) ...

【CDA干貨】用 SQL 驗證業(yè)務邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據(jù)驅(qū)動下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實踐到業(yè)務 ...

【CDA干貨】統(tǒng)計模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA教育閉環(huán)

常見問題

關于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...