
文章來源:數(shù)據(jù)分析與統(tǒng)計學之美
作者:黃偉呢
1.概述
python字符串應該是python里面最重要的數(shù)據(jù)類型了,因此學會怎么處理各種各樣的字符串,顯得尤為重要。
我們不僅要學會怎么處理單個字符串,這個就需要學習“python字符串函數(shù)”,我們還要學會怎么處理二維表格中每一列每一格的字符串,這個就需要學習“pandas的str矢量化字符串函數(shù)”。
今天我們采用對比的方式,帶大家總結(jié)常用的字符串函數(shù),希望這篇文章能夠?qū)Υ蠹移鸬胶芎玫淖饔谩?
在開始享用這篇文章之前,請培養(yǎng)好自己的耐心,本文確實干貨滿滿,一定要看到最后你才知道收獲有多大,尤其是后面的str屬性,超有用。
2.常用的python字符串函數(shù)
字符串中,空白符也算是真實存在的一個字符。
1)python字符串函數(shù)大全
2)函數(shù)講解
① find()函數(shù)
功能 :檢測字符串是否包含指定字符。如果包含指定字符,則返回開始的索引;否則,返回-1.
② index()函數(shù)
功能 :檢測字符串是否包含指定字符。如果包含指定字符,則返回開始的索引;否則,提示ValueError錯誤。
③ count()函數(shù)
功能 : 統(tǒng)計字符串中,某指定字符在指定索引范圍內(nèi),出現(xiàn)的次數(shù)。
索引范圍 :左閉右開區(qū)間。
注意 :如果不指定索引范圍,表示在整個字符串中,搜索指定字符出現(xiàn)的次數(shù)。
④ replace()函數(shù)
語法 :st.replace(str1.str2.count)。
功能 :將字符串st中的str1替換為str2.
注意 : 如果不指定count,則表示整個替換;如果指定count=1.則表示只替換一次,count=2.則表示只替換兩次。
⑤ split()
語法 :st.split('分隔符', maxSplit)
功能 :將字符串按照指定分隔符,進行分割。
注意 :如果split中什么都不寫,則默認按照空格進行分割;如果指定了分割符,則按照指定分隔符,進行分割。
maxSplit作用:不好敘述,自己看下面的例子就明白。
⑥ startswith()函數(shù)
語法 :st.startswith(str1)
功能 :檢查字符串st是否以字符串str1開頭,若是,則返回True;否則,返回False。
⑦ endswith()函數(shù)
語法 :st.endswith(str1)
功能 :檢查字符串st是否以字符串str1結(jié)尾,若是,則返回True;否則,返回False。
⑧ lower()
語法 :st.lower()
功能 :將字符串的所有字母轉(zhuǎn)換為小寫。
⑨ upper()
語法 :st.upper()
功能 :將字符串的所有字母轉(zhuǎn)換為大寫。
⑩ strip()
語法 :st.strip()
功能 :去掉字符串左右兩邊的空白字符。
注1:st.rstrip() : 去掉字符串右邊的空白字符。
注2:st.lstrip() : 去掉字符串左邊的空白字符。
? join()函數(shù)
語法 :st.join(str1)
功能 :在指定字符串str1中,每相鄰元素中間插入st字符串,形成新的字符串。
注意 :是在str1中間插入st,而不是在st中間插入str1.
? isalpha()
語法 :str.isalpha()
功能 :如果字符串str中只包含字母,則返回True;否則,返回False。
注意 :只有字符串中全部是字母,才會返回True,中間有空格都不行。
? isdigit()
語法 :str.isdigit()
功能 :如果字符串str中只包含數(shù)字,則返回True;否則,返回False。
3.常用的str矢量化字符串函數(shù)
str矢量化操作:指的是循環(huán)迭代數(shù)組里面的某個元素,來完成某個操作。
1)str矢量化字符串函數(shù)大全
2)構(gòu)造一個DataFrame,用于測試函數(shù)
import pandas as pd
df ={'姓名':[' 黃同學','黃至尊','黃老邪 ','陳大美','孫尚香'],
'英文名':['Huang tong_xue','huang zhi_zun','Huang Lao_xie','Chen Da_mei','sun shang_xiang'],
'性別':['男','women','men','女','男'],
'身份證':['463895200003128433','429475199912122345','420934199110102311','431085200005230122','420953199509082345'],
'身高':['mid:175_good','low:165_bad','low:159_bad','high:180_verygood','low:172_bad'],
'家庭住址':['湖北廣水','河南信陽','廣西桂林','湖北孝感','廣東廣州'],
'電話號碼':['13434813546','19748672895','16728613064','14561586431','19384683910'],
'收入':['1.1萬','8.5千','0.9萬','6.5千','2.0萬']}
df = pd.DataFrame(df)
df
結(jié)果如下:
3)函數(shù)講解
① cat函數(shù):用于字符串的拼接
df["姓名"].str.cat(df["家庭住址"],sep='-'*3)
結(jié)果如下:
② contains:判斷某個字符串是否包含給定字符
df["家庭住址"].str.contains("廣")
結(jié)果如下:
③ startswith/endswith:判斷某個字符串是否以...開頭/結(jié)尾
# 第一個行的“ 黃偉”是以空格開頭的
df["姓名"].str.startswith("黃")
df["英文名"].str.endswith("e")
結(jié)果如下:
④ count:計算給定字符在字符串中出現(xiàn)的次數(shù)
df["電話號碼"].str.count("3")
結(jié)果如下:
⑤ get:獲取指定位置的字符串
df["姓名"].str.get(-1)
df["身高"].str.split(":")
df["身高"].str.split(":").str.get(0)
結(jié)果如下:
⑥ len:計算字符串長度
df["性別"].str.len()
結(jié)果如下:
⑦ upper/lower:英文大小寫轉(zhuǎn)換
df["英文名"].str.upper()
df["英文名"].str.lower()
結(jié)果如下:
⑧ pad+side參數(shù)/center:在字符串的左邊、右邊或左右兩邊添加給定字符
df["家庭住址"].str.pad(10.fillchar="*") # 相當于ljust()
df["家庭住址"].str.pad(10.side="right",fillchar="*") # 相當于rjust()
df["家庭住址"].str.center(10.fillchar="*")
結(jié)果如下:
⑨ repeat:重復字符串幾次
df["性別"].str.repeat(3)
結(jié)果如下:
⑩ slice_replace:使用給定的字符串,替換指定的位置的字符
df["電話號碼"].str.slice_replace(4.8."*"*4)
結(jié)果如下:
? replace:將指定位置的字符,替換為給定的字符串
df["身高"].str.replace(":","-")
結(jié)果如下:
? replace:將指定位置的字符,替換為給定的字符串(接受正則表達式)
replace中傳入正則表達式,才叫好用;
先不要管下面這個案例有沒有用,你只需要知道,使用正則做數(shù)據(jù)清洗多好用;
df["收入"].str.replace("\d+\.\d+","正則")
結(jié)果如下:
? split方法+expand參數(shù):搭配join方法功能很強大
# 普通用法
df["身高"].str.split(":")
# split方法,搭配expand參數(shù)
df[["身高描述","final身高"]] = df["身高"].str.split(":",expand=True)
df
# split方法搭配join方法
df["身高"].str.split(":").str.join("?"*5)
結(jié)果如下:
? strip/rstrip/lstrip:去除空白符、換行符
df["姓名"].str.len()
df["姓名"] = df["姓名"].str.strip()
df["姓名"].str.len()
結(jié)果如下:
? findall:利用正則表達式,去字符串中匹配,返回查找結(jié)果的列表
findall使用正則表達式,做數(shù)據(jù)清洗,真的很香!
df["身高"]
df["身高"].str.findall("[a-zA-Z]+")
結(jié)果如下:
? extract/extractall:接受正則表達式,抽取匹配的字符串(一定要加上括號)
df["身高"].str.extract("([a-zA-Z]+)")
# extractall提取得到復合索引
df["身高"].str.extractall("([a-zA-Z]+)")
# extract搭配expand參數(shù)
df["身高"].str.extract("([a-zA-Z]+).*?([a-zA-Z]+)",expand=True)
結(jié)果如下:
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10CDA 數(shù)據(jù)分析師:商業(yè)數(shù)據(jù)分析實踐的落地者與價值創(chuàng)造者 商業(yè)數(shù)據(jù)分析的價值,最終要在 “實踐” 中體現(xiàn) —— 脫離業(yè)務(wù)場景的分 ...
2025-09-10