
一、簡單介紹
正則表達(dá)式是一種小型的、高度專業(yè)化的編程語言,并不是python中特有的,是許多編程語言中基礎(chǔ)而又重要的一部分。在python中,主要通過re模塊來實(shí)現(xiàn)。
正則表達(dá)式模式被編譯成一系列的字節(jié)碼,然后由用c編寫的匹配引擎執(zhí)行。那么正則表達(dá)式通常有哪些使用場景呢?
比如為想要匹配的相應(yīng)字符串集指定規(guī)則;
該字符串集可以是包含e-mail地址、Internet地址、電話號碼,或是根據(jù)需求自定義的一些字符串集;
當(dāng)然也可以去判斷一個字符串集是否符合我們定義的匹配規(guī)則;
找到字符串中匹配該規(guī)則的部分內(nèi)容;
修改、切割等一系列的文本處理;
......
二、特殊符號和字符(元字符)
這里介紹常見的一些元字符,它給予正則表達(dá)式強(qiáng)大的功能和靈活性。表2-1列出了比較常見的符號和字符。
1、使用 compile()函數(shù)編譯正則表達(dá)式
由于python代碼最終會被翻譯成字節(jié)碼,然后在解釋器上執(zhí)行。所以對于我們代碼中經(jīng)常要用到的一些正則表達(dá)式進(jìn)行預(yù)編譯,執(zhí)行起來會更加便捷。
re模塊中的大多數(shù)函數(shù)和已經(jīng)編譯的正則表達(dá)式對象和正則匹配對象的方法同名并且具有相同的功能。
示例:
>>> import re
>>> r1 = r'bugs' # 字符串前加"r"反斜杠就不會被任何特殊方式處理,這是個習(xí)慣,雖然這里沒用到
>>> re.findall(r1, 'bugsbunny') # 直接利用re模塊進(jìn)行解釋性地匹配
['bugs']
>>>
>>> r2 = re.compile(r1) # 如果r1這個匹配規(guī)則你會經(jīng)常用到,為了提高效率,那就進(jìn)行預(yù)編譯吧
>>> r2 # 編譯后的正則對象
<_sre.SRE_Pattern object at 0x7f5d7db99bb0>
>>>
>>> r2.findall('bugsbunny') # 訪問對象的findall方法得到的匹配結(jié)果與上面是一致的
['bugs'] # 所以說,re模塊中的大多數(shù)函數(shù)和已經(jīng)編譯的正則表達(dá)式對象和正則匹配對象的方法同名并且具有相同的功能
re.compile()函數(shù)也接受可選的標(biāo)志參數(shù),常用來實(shí)現(xiàn)不同的特殊功能和語法變更。這些標(biāo)志也可以作為參數(shù)適用于大多數(shù)re模塊函數(shù)。這些標(biāo)志可以用操作法(|)合并。
示例:
>>> import re
>>> r1 = r'bugs'
>>> r2 = re.compile(r1,re.I) # 這里選擇的是忽略大小寫的標(biāo)志,完整的是re.IGNORECASE,這里簡寫re.I
>>> r2.findall('BugsBunny')
['Bugs']<br><br># re.S 使.匹配換行符在內(nèi)的所有字符<br># re.M 多行匹配,英雄^和$<br># re,X 用來使正則匹配模式組織得更加清晰
完整的標(biāo)志參數(shù)列表和用法可以參考相關(guān)官方文檔。
2、使用正則表達(dá)式
re模塊提供了一個正則表達(dá)式引擎的接口,下面具體介紹一些常用的函數(shù)和方法。
匹配對象以及group()和groups()方法
當(dāng)處理正則表達(dá)式時,除了正則表達(dá)式對象之外,還有一個對象類型:匹配對象。這些是成功調(diào)用 match()或者search()返回的對象。匹配對象有兩個主要的方法:group()和groups()。
group()要么返回整個匹配對象,要么根據(jù)要求返回特定子組。groups()則僅返回一個包含唯一或者全部子組的元組。如果沒有子組的要求,那么當(dāng)group()仍然返回整個匹配時,groups返回一個空元組。下面一些函數(shù)示例會演示到此方法。
使用 match()方法匹配字符串
match()函數(shù)從字符串的起始部分對模式進(jìn)行匹配。如果匹配成功,就返回一個匹配對象;如果匹配失敗,就返回 None,匹配對象的方法 group()方法就能夠用于顯示那個成功的匹配。
示例如下:
>>> m = re.match('bugs', 'bugsbunny') # 模式匹配字符串
>>> if m is not None: # 如果匹配成功,就輸出匹配內(nèi)容
... m.group()
...
'bugs'<br>>>> m<br><_sre.SRE_Match object at 0x7f5d7da1f168> # 確認(rèn)返回的匹配對象
使用search()在一個字符串中查找模式
search()的工作方式與match()完全一致,不同之處在于search()是對給定正則表達(dá)式模式搜索第一次出現(xiàn)的匹配情況。簡單來說,就是在任意位置符合都能匹配成功,不僅僅是字符串的起始部分,這就是與match()函數(shù)的區(qū)別,用腳指頭想想search()方法使用的范圍更多更廣。
示例:
>>> m = re.search('bugs', 'hello bugsbunny')
>>> if m is not None:
... m.group()
...
'bugs'
使用findall()和finditer()查找每一次出現(xiàn)的位置
findall()是用來查找字符串中所有(非重復(fù))出現(xiàn)的正則表達(dá)式模式,并返回一個匹配列表;finditer()與findall()不同的地方是返回一個迭代器,對于每一次匹配,迭代器都返回一個匹配對象。
>>> m = re.findall('bugs', 'bugsbunnybugs')
>>> m
['bugs', 'bugs']
>>> m = re.finditer('bugs', 'bugsbunnybugs')
>>> m.next() # 迭代器用next()方法返回一個匹配對象
<_sre.SRE_Match object at 0x7f5d7da71a58> # 匹配用group()方法顯示出來
>>> m.next().group()
'bugs'
使用sub()和subn()搜索與替換
都是將某字符串中所有匹配正則表達(dá)式的部分進(jìn)行某種形式的替換。sub()返回一個用來替換的字符串,可以定義替換次數(shù),默認(rèn)替換所有出現(xiàn)的位置。subn()和sub()一樣,但subn()還返回一個表示替換的總是,替換后的字符串和表示替換總數(shù)一起作為一個擁有兩個元素的元組返回。
示例:
>>> r = 'a.b'
>>> m = 'acb abc aab aac'
>>> re.sub(r,'hello',m)
'hello abc hello aac'<br>>>> re.subn(r,'hello',m)<br>('hello abc hello aac', 2)
字符串也有一個replace()方法,當(dāng)遇到一些模糊搜索替換的時候,就需要更為靈活的sub()方法了。
使用split()分割字符串
同樣的,字符串中也有split(),但它也不能處理正則表達(dá)式匹配的分割。在re模塊中,分居正則表達(dá)式的模式分隔符,split函數(shù)將字符串分割為列表,然后返回成功匹配的列表。
示例:
>>> s = '1+2-3*4'
>>> re.split(r'[\+\-\*]',s)
['1', '2', '3', '4']
分組
有時在匹配的時候我們只想提取一些想要的信息或者對提取的信息作一個分類,這時就需要對正則匹配模式進(jìn)行分組,只需要加上()即可。
示例:
>>> m = re.match('(\w{3})-(\d{3})','abc-123')
>>> m.group() # 完整匹配
'abc-123'
>>> m.group(1) # 子組1
'abc'
>>> m.group(2) # 子組2
'123'
>>> m.groups() # 全部子組
('abc', '123')
由以上的例子可以看出,group()通常用于以普通方式顯示所有的匹配部分,但也能用于獲取各個匹配的子組??梢允褂胓roups()方法來獲取一個包含所有匹配字符串的元組。
以上所述是小編給大家介紹的python模塊之re正則表達(dá)式詳解,希望對大家有所幫助
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03