99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀Python爬蟲正則表達式常用符號和方法
Python爬蟲正則表達式常用符號和方法
2017-09-03
收藏

Python爬蟲正則表達式常用符號和方法

python語言中,我們經(jīng)常會用到python爬蟲的正則表達式,下面小編通過本篇文章給大家介紹python爬蟲正則表達式常用的符號和方法,以及具體用法,感興趣的童鞋快來看看吧。

正則表達式并不是Python的一部分。正則表達式是用于處理字符串的強大工具,擁有自己獨特的語法以及一個獨立的處理引擎,效率上可能不如str自帶的方法,但功能十分強大。得益于這一點,在提供了正則表達式的語言里,正則表達式的語法都是一樣的,區(qū)別只在于不同的編程語言實現(xiàn)支持的語法數(shù)量不同;但不用擔心,不被支持的語法通常是不常用的部分。

1、常用符號

. :匹配任意字符,換行符 \n 除外

:匹配前一個字符0次或無限次
? :匹配前一個字符0次或1次

.* :貪心算法,盡可能的匹配多的字符

.*? :非貪心算法

() :括號內(nèi)的數(shù)據(jù)作為結(jié)果返回

2、常用方法

findall:匹配所有符合規(guī)律的內(nèi)容,返回包含結(jié)果的列表

Search:匹配并提取第一個符合規(guī)律的內(nèi)容,返回一個正則表達式對象

Sub:替換符合規(guī)律的內(nèi)容,返回替換后的值

3、使用示例

(1). 的使用舉例,匹配任意字符,換行符 \n 除外

import re #導入re庫文件

a = 'xy123'

b = re.findall('x..',a)

print b

打印的結(jié)果為:['xy1'] ,每個 . 表示一個占位符

(2) * 的使用舉例,匹配前一個字符0次或無限次

a = 'xyxy123'

b = re.findall('x*',a)

print b

打印的結(jié)果為:['x', '', 'x', '', '', '', '', '']

(3) ? 的使用舉例,匹配前一個字符0次或1次

a = 'xy123'

b = re.findall('x?',a)

print b

打印的結(jié)果為:['x', '', '', '', '', '']

(4) .* 的使用舉例

secret_code = 'hadkfalifexxIxxfasdjifja134xxlovexx23345sdfxxyouxx8dfse'

b = re.findall('xx.*xx',secret_code)

print b

打印的結(jié)果為:['xxIxxfasdjifja134xxlovexx23345sdfxxyouxx']

(5).*?的使用舉例

secret_code = 'hadkfalifexxIxxfasdjifja134xxlovexx23345sdfxxyouxx8dfse'

c = re.findall('xx.*?xx',secret_code)

print c

打印的結(jié)果為:['xxIxx', 'xxlovexx', 'xxyouxx']

(6) ()的使用舉例

secret_code = 'hadkfalifexxIxxfasdjifja134xxlovexx23345sdfxxyouxx8dfse'

d = re.findall('xx(.*?)xx',secret_code)

print d

打印的結(jié)果為:['I', 'love', 'you'] ,括號內(nèi)的數(shù)據(jù)作為返回的結(jié)果

(7) re.S的使用舉例

s = '''sdfxxhello

xxfsdfxxworldxxasdf'''

d = re.findall('xx(.*?)xx',s,re.S)

print d

打印的結(jié)果為:['hello\n', 'world'] ,re.S的作用是使 . 在匹配時包括 \n

(8) findall的使用舉例

s2 = 'asdfxxIxx123xxlovexxdfd'

f2 = re.findall('xx(. ?)xx123xx(. ?)xx',s2)

print f20

打印的結(jié)果為:love

這時f2為含有一個元組的列表,該元組包含兩個元素,該元組中的兩個元素為兩個()匹配到的內(nèi)容,如果s2包含多個'xx(. ?)xx123xx(. ?)xx'這樣的子串,則f2包含多個元組;

(9) search的使用舉例

s2 = 'asdfxxIxx123xxlovexxdfd'

f = re.search('xx(. ?)xx123xx(. ?)xx',s2).group(2)

print f

打印的結(jié)果為:love

.group(2) 表示返回第二個括號匹配到的內(nèi)容,如果是 .group(1), 則打印的就是:I

(10)sub的使用舉例

s = '123rrrrr123'

output = re.sub('123(.*?)123','123%d123'%789,s)

print output

打印的結(jié)果為:123789123

其中的%d類似于C語言中的%d,如果 output=re.sub('123(.*?)123','123789123',s),輸出結(jié)果也為: 123789123

(11) \d 的使用舉例,用于匹配數(shù)字

a = 'asdfasf1234567fasd555fas'

b = re.findall('(\d+)',a)

print b

打印的結(jié)果為:['1234567', '555'] , \d+ 可以匹配數(shù)字字符串;

以上就是python爬蟲正則表達式的一些常用符號和語法,希望對python初學者學習有所幫助。



數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗證碼對象,之后可以使用它調(diào)用相應的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }