
一、簡單介紹
正則表達式是一種小型的、高度專業(yè)化的編程語言,并不是python中特有的,是許多編程語言中基礎而又重要的一部分。在python中,主要通過re模塊來實現。
正則表達式模式被編譯成一系列的字節(jié)碼,然后由用c編寫的匹配引擎執(zhí)行。那么正則表達式通常有哪些使用場景呢?
比如為想要匹配的相應字符串集指定規(guī)則;
該字符串集可以是包含e-mail地址、Internet地址、電話號碼,或是根據需求自定義的一些字符串集;
當然也可以去判斷一個字符串集是否符合我們定義的匹配規(guī)則;
找到字符串中匹配該規(guī)則的部分內容;
修改、切割等一系列的文本處理;
......
二、特殊符號和字符(元字符)
這里介紹常見的一些元字符,它給予正則表達式強大的功能和靈活性。表2-1列出了比較常見的符號和字符。
三、正則表達式
1、使用 compile()函數編譯正則表達式
由于python代碼最終會被翻譯成字節(jié)碼,然后在解釋器上執(zhí)行。所以對于我們代碼中經常要用到的一些正則表達式進行預編譯,執(zhí)行起來會更加便捷。
re模塊中的大多數函數和已經編譯的正則表達式對象和正則匹配對象的方法同名并且具有相同的功能。
示例:
>>> import re
>>> r1 = r'bugs' # 字符串前加"r"反斜杠就不會被任何特殊方式處理,這是個習慣,雖然這里沒用到
>>> re.findall(r1, 'bugsbunny') # 直接利用re模塊進行解釋性地匹配
['bugs']
>>>
>>> r2 = re.compile(r1) # 如果r1這個匹配規(guī)則你會經常用到,為了提高效率,那就進行預編譯吧
>>> r2 # 編譯后的正則對象
<_sre.SRE_Pattern object at 0x7f5d7db99bb0>
>>>
>>> r2.findall('bugsbunny') # 訪問對象的findall方法得到的匹配結果與上面是一致的
['bugs'] # 所以說,re模塊中的大多數函數和已經編譯的正則表達式對象和正則匹配對象的方法同名并且具有相同的功能
re.compile()函數也接受可選的標志參數,常用來實現不同的特殊功能和語法變更。這些標志也可以作為參數適用于大多數re模塊函數。這些標志可以用操作法(|)合并。
示例:
>>> import re
>>> r1 = r'bugs'
>>> r2 = re.compile(r1,re.I) # 這里選擇的是忽略大小寫的標志,完整的是re.IGNORECASE,這里簡寫re.I
>>> r2.findall('BugsBunny')
['Bugs']<br><br># re.S 使.匹配換行符在內的所有字符<br># re.M 多行匹配,英雄^和$<br># re,X 用來使正則匹配模式組織得更加清晰
完整的標志參數列表和用法可以參考相關官方文檔。
2、使用正則表達式
re模塊提供了一個正則表達式引擎的接口,下面具體介紹一些常用的函數和方法。
匹配對象以及group()和groups()方法
當處理正則表達式時,除了正則表達式對象之外,還有一個對象類型:匹配對象。這些是成功調用 match()或者search()返回的對象。匹配對象有兩個主要的方法:group()和groups()。
group()要么返回整個匹配對象,要么根據要求返回特定子組。groups()則僅返回一個包含唯一或者全部子組的元組。如果沒有子組的要求,那么當group()仍然返回整個匹配時,groups返回一個空元組。下面一些函數示例會演示到此方法。
使用 match()方法匹配字符串
match()函數從字符串的起始部分對模式進行匹配。如果匹配成功,就返回一個匹配對象;如果匹配失敗,就返回 None,匹配對象的方法 group()方法就能夠用于顯示那個成功的匹配。
示例如下:
>>> m = re.match('bugs', 'bugsbunny') # 模式匹配字符串
>>> if m is not None: # 如果匹配成功,就輸出匹配內容
... m.group()
...
'bugs'<br>>>> m<br><_sre.SRE_Match object at 0x7f5d7da1f168> # 確認返回的匹配對象
使用search()在一個字符串中查找模式
search()的工作方式與match()完全一致,不同之處在于search()是對給定正則表達式模式搜索第一次出現的匹配情況。簡單來說,就是在任意位置符合都能匹配成功,不僅僅是字符串的起始部分,這就是與match()函數的區(qū)別,用腳指頭想想search()方法使用的范圍更多更廣。
示例:
>>> m = re.search('bugs', 'hello bugsbunny')
>>> if m is not None:
... m.group()
...
'bugs'
使用findall()和finditer()查找每一次出現的位置
findall()是用來查找字符串中所有(非重復)出現的正則表達式模式,并返回一個匹配列表;finditer()與findall()不同的地方是返回一個迭代器,對于每一次匹配,迭代器都返回一個匹配對象。
>>> m = re.findall('bugs', 'bugsbunnybugs')
>>> m
['bugs', 'bugs']
>>> m = re.finditer('bugs', 'bugsbunnybugs')
>>> m.next() # 迭代器用next()方法返回一個匹配對象
<_sre.SRE_Match object at 0x7f5d7da71a58> # 匹配用group()方法顯示出來
>>> m.next().group()
'bugs'
使用sub()和subn()搜索與替換
都是將某字符串中所有匹配正則表達式的部分進行某種形式的替換。sub()返回一個用來替換的字符串,可以定義替換次數,默認替換所有出現的位置。subn()和sub()一樣,但subn()還返回一個表示替換的總是,替換后的字符串和表示替換總數一起作為一個擁有兩個元素的元組返回。
示例:
>>> r = 'a.b'
>>> m = 'acb abc aab aac'
>>> re.sub(r,'hello',m)
'hello abc hello aac'<br>>>> re.subn(r,'hello',m)<br>('hello abc hello aac', 2)
字符串也有一個replace()方法,當遇到一些模糊搜索替換的時候,就需要更為靈活的sub()方法了。
使用split()分割字符串
同樣的,字符串中也有split(),但它也不能處理正則表達式匹配的分割。在re模塊中,分居正則表達式的模式分隔符,split函數將字符串分割為列表,然后返回成功匹配的列表。
示例:
>>> s = '1+2-3*4'
>>> re.split(r'[\+\-\*]',s)
['1', '2', '3', '4']
分組
有時在匹配的時候我們只想提取一些想要的信息或者對提取的信息作一個分類,這時就需要對正則匹配模式進行分組,只需要加上()即可。
示例:
>>> m = re.match('(\w{3})-(\d{3})','abc-123')
>>> m.group() # 完整匹配
'abc-123'
>>> m.group(1) # 子組1
'abc'
>>> m.group(2) # 子組2
'123'
>>> m.groups() # 全部子組
('abc', '123')
由以上的例子可以看出,group()通常用于以普通方式顯示所有的匹配部分,但也能用于獲取各個匹配的子組。可以使用groups()方法來獲取一個包含所有匹配字符串的元組。
以上所述是小編給大家介紹的python模塊之re正則表達式詳解,希望對大家有所幫助
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數的日期轉換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數據處理中,日期格式轉換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數據庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數據分析師:表結構數據 “獲取 - 加工 - 使用” 全流程的賦能者 表結構數據(如數據庫表、Excel 表、CSV 文件)是企業(yè)數字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數據分析師:解鎖表結構數據特征價值的專業(yè)核心 表結構數據(以 “行 - 列” 規(guī)范存儲的結構化數據,如數據庫表、Excel 表、 ...
2025-09-17Excel 導入數據含缺失值?詳解 dropna 函數的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數據時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數據分析與統計學領域,假設檢驗是驗證研究假設、判斷數據差異是否 “ ...
2025-09-16CDA 數據分析師:掌控表格結構數據全功能周期的專業(yè)操盤手 表格結構數據(以 “行 - 列” 存儲的結構化數據,如 Excel 表、數據 ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數據分析師:激活表格結構數據價值的核心操盤手 表格結構數據(如 Excel 表格、數據庫表)是企業(yè)最基礎、最核心的數據形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調用、數據爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數據的科學計數法問題 為幫助 Python 數據從業(yè)者解決pd.read_csv讀取長浮點數據時的科學計數法問題 ...
2025-09-12CDA 數據分析師:業(yè)務數據分析步驟的落地者與價值優(yōu)化者 業(yè)務數據分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數據把關的實戰(zhàn)指南 在業(yè)務系統落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數據驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數據分析師與戰(zhàn)略 / 業(yè)務數據分析:概念辨析與協同價值 在數據驅動決策的體系中,“戰(zhàn)略數據分析”“業(yè)務數據分析” 是企業(yè) ...
2025-09-11Excel 數據聚類分析:從操作實踐到業(yè)務價值挖掘 在數據分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數據中挖 ...
2025-09-10統計模型的核心目的:從數據解讀到決策支撐的價值導向 統計模型作為數據分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10