
Python使用正則表達式獲取網(wǎng)頁中所需要的信息
使用正則表達式的幾個步驟:
1、用import re 導入正則表達式模塊;
2、用re.compile()函數(shù)創(chuàng)建一個Regex對象;
3、用Regex對象的search()或findall()方法,傳入想要查找的字符串,返回一個Match對象;
4、調(diào)用Match對象的group()方法,返回匹配到的字符串。
在交互式環(huán)境中簡單嘗試一下,查詢字符串中的固話:
import re
text = '小明家的固話是0755-123456,而小麗家的固話時0789-654321,小王家的電話是123456789'#用于檢測的字符串
ph_re = re.compile(r'\d{4}?-\d+') #創(chuàng)建Regex對象,匹配幾種電話的方式,\d表示0-9的數(shù)字,{4}表示前面的匹配4次,?表示可選,+表示出現(xiàn)1次或多次。
matchs1 = ph_re.findall(text) #findall()表示查找所有匹配項,返回一個字符串
matchs2 = ph_re.search(text)#search(),查找第一次匹配的文本,返回一個對象。
print(matchs1)
print(matchs2)
matchs2.group()
返回的結果,是這樣的:
findall()方法返回的是一個字符串,可以直接打印出來。而search()方法返回的是一個對象,所以打印出來的是是如圖的第二行。
調(diào)用group(),對象返回匹配的結果。
最后,小王的電話之所以沒有匹配到,是因為'-'沒有進行可選即在其后加上‘?'。
下面進行一個小的實驗,獲取某個網(wǎng)頁中所有的http/https網(wǎng)址,并計算有多少個。
首先是獲取HTML文件。這里要用到requests模塊。
# -*- coding: utf-8 -*-
import requests
import re
def get_html(url):
res = requests.get(url)
res.encoding = 'utf-8'
html = res.text
return html
這里get_html函數(shù)返回的,其實就類似上面例子中的text,用來匹配的文本。
然后,創(chuàng)建正則表達式:
def get_addr(response):
addr_regex = re.compile(r'''(
(http://|https://)? #http/https
(www)?
(\.[a-z1-9A-Z]+)
(\.com|\.cn)
)''',re.VERBOSE)#匹配網(wǎng)址,
matchs = []
for groups in addr_regex.findall(response):
matchs.append(groups[0])
if len(matchs) == 0:
print('沒有網(wǎng)址')
return matchs
這里向re.compile(),傳入變量re.VERBOSE,作為第二個參數(shù),可以將正則表達式放在多行,并進行注釋,如上。
返回一個matchs列表對象。
再來個啟動函數(shù)。
def start():
url = 'http://news.163.com/18/0127/18/D966K4CO0001899N.html'
a = get_html(url)
b = get_addr(a)
print('\n'.join(b))
print(str(len(b)))
print('ok')
if __name__ == '__main__':
start()
這里傳入的url是我隨意找的一個新聞鏈接。
然后調(diào)用get_html()和get_addr(),就得到了想要的東西。str(len(b)),為統(tǒng)計的數(shù)量。
測試的結果是類似這樣的:
這里似乎獲取一些URL,沒什么卵用。。。但是,如果結合前面的查詢新聞列表的方式,獲取批量url,
而創(chuàng)建的正則是xxx.jpg,然后調(diào)用os模塊,os.mkdir(folder)、os.chdir(folder),將獲取到的匹配結果寫入文件,放入某個文件夾。
那么就可以實現(xiàn),從某些網(wǎng)站上批量獲取jpg圖片,然后存入某個文件夾的爬蟲功能。實測,可行!
總結
以上所述是小編給大家介紹的Python使用正則獲取網(wǎng)頁中所需要的信息,希望對大家有所幫助
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03