
作者:俊欣
來源:關(guān)于數(shù)據(jù)分析與可視化
今天小編打算稍微中規(guī)中矩一些,寫一篇技術(shù)類的干貨文章。
這篇文章小編來講講lambda方法以及它在pandas模塊當中的運用,熟練掌握可以極大地提高數(shù)據(jù)分析與挖掘的效率
我們第一步需要導入模塊以及數(shù)據(jù)集
import pandas as pd
df = pd.read_csv("IMDB-Movie-Data.csv")
df.head()
一般我們是通過在現(xiàn)有兩列的基礎上進行一些簡單的數(shù)學運算來創(chuàng)建新的一列,例如
df['AvgRating'] = (df['Rating'] + df['Metascore']/10)/2
但是如果要新創(chuàng)建的列是經(jīng)過相當復雜的計算得來的,那么lambda方法就很多必要被運用到了,我們先來定義一個函數(shù)方法
def custom_rating(genre,rating): if 'Thriller' in genre: return min(10,rating+1) elif 'Comedy' in genre: return max(0,rating-1) elif 'Drama' in genre: return max(5, rating-1) else: return rating
我們對于不同類別的電影采用了不同方式的評分方法,例如對于“驚悚片”,評分的方法則是在“原來的評分+1”和10分當中取一個最小的,而對于“喜劇”類別的電影,則是在0分和“原來的評分-1”當中取一個最大的,然后我們通過apply方法和lambda方法將這個自定義的函數(shù)應用在這個DataFrame數(shù)據(jù)集當中
df["CustomRating"] = df.apply(lambda x: custom_rating(x['Genre'], x['Rating']), axis = 1)
我們這里需要說明一下axis參數(shù)的作用,其中axis=1代表跨列而axis=0代表跨行,如下圖所示
在pandas當中篩選數(shù)據(jù)相對來說比較容易,可以用到& | ~這些操作符,代碼如下
# 單個條件,評分大于5分的 df_gt_5 = df[df['Rating']>5] # 多個條件: AND - 同時滿足評分高于5分并且投票大于100000的 And_df = df[(df['Rating']>5) & (df['Votes']>100000)] # 多個條件: OR - 滿足評分高于5分或者投票大于100000的 Or_df = df[(df['Rating']>5) | (df['Votes']>100000)] # 多個條件:NOT - 將滿足評分高于5分或者投票大于100000的數(shù)據(jù)排除掉 Not_df = df[~((df['Rating']>5) | (df['Votes']>100000))]
這些都是非常簡單并且是常見的例子,但是要是我們想要篩選出電影的影名長度大于5的部分,要是也采用上面的方式就會報錯
df[len(df['Title'].split(" "))>=5]
output
AttributeError: 'Series' object has no attribute 'split'
這里我們還是采用apply和lambda相結(jié)合,來實現(xiàn)上面的功能
#創(chuàng)建一個新的列來存儲每一影片名的長度 df['num_words_title'] = df.apply(lambda x : len(x['Title'].split(" ")),axis=1) #篩選出影片名長度大于5的部分 new_df = df[df['num_words_title']>=5]
當然要是大家覺得上面的方法有點繁瑣的話,也可以一步到位
new_df = df[df.apply(lambda x : len(x['Title'].split(" "))>=5,axis=1)]
例如我們想要篩選出那些影片的票房低于當年平均水平的數(shù)據(jù),可以這么來做。
我們先要對每年票房的的平均值做一個歸總,代碼如下
year_revenue_dict = df.groupby(['Year']).agg({'Revenue(Millions)':np.mean}).to_dict()['Revenue(Millions)']
然后我們定義一個函數(shù)來判斷是否存在該影片的票房低于當年平均水平的情況,返回的是布爾值
def bool_provider(revenue, year): return revenue
然后我們通過結(jié)合apply方法和lambda方法應用到數(shù)據(jù)集當中去
new_df = df[df.apply(lambda x : bool_provider(x['Revenue(Millions)'],
x['Year']),axis=1)]
我們篩選數(shù)據(jù)的時候,主要是用.loc方法,它同時也可以和lambda方法聯(lián)用,例如我們想要篩選出評分在5-8分之間的電影以及它們的票房,代碼如下
df.loc[lambda x: (x["Rating"] > 5) & (x["Rating"] < 8)][["Title", "Revenue (Millions)"]]
轉(zhuǎn)變指定列的數(shù)據(jù)類型
通常我們轉(zhuǎn)變指定列的數(shù)據(jù)類型,都是調(diào)用astype方法來實現(xiàn)的,例如我們將“Price”這一列的數(shù)據(jù)類型轉(zhuǎn)變成整型的數(shù)據(jù),代碼如下
df['Price'].astype('int')
會出現(xiàn)如下所示的報錯信息
ValueError: invalid literal for int() with base 10: '12,000'
因此當出現(xiàn)類似“12,000”的數(shù)據(jù)的時候,調(diào)用astype方法實現(xiàn)數(shù)據(jù)類型轉(zhuǎn)換就會報錯,因此我們還需要將到apply和lambda結(jié)合進行數(shù)據(jù)的清洗,代碼如下
df['Price'] = df.apply(lambda x: int(x['Price'].replace(',', '')),axis=1)
方法調(diào)用過程的可視化
有時候我們在處理數(shù)據(jù)集比較大的時候,調(diào)用函數(shù)方法需要比較長的時間,這個時候就需要有一個要是有一個進度條,時時刻刻向我們展示數(shù)據(jù)處理的進度,就會直觀很多了。
這里用到的是tqdm模塊,我們將其導入進來
from tqdm import tqdm, tqdm_notebook
tqdm_notebook().pandas()
然后將apply方法替換成progress_apply即可,代碼如下
df["CustomRating"] = df.progress_apply(lambda x: custom_rating(x['Genre'],x['Rating']),axis=1)
output
當lambda方法遇到if-else
當然我們也可以將if-else運用在lambda自定義函數(shù)當中,代碼如下
Bigger = lambda x, y : x if(x > y) else y
Bigger(2, 10)
output
10
當然很多時候我們可能有多組if-else,這樣寫起來就有點麻煩了,代碼如下
df['Rating'].apply(lambda x:"低分電影" if x < 3 else ("中等電影" if x>=3 and x < 5 else("高分電影" if x>=8 else "值得觀看")))
看上去稍微有點凌亂了,這個時候,小編這里到還是推薦大家自定義函數(shù),然后通過apply和lambda方法搭配使用
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領(lǐng)域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10