99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

^{<blockquote id="4oapj"></blockquote>}

熱線電話：13121318867

登錄

首頁大數(shù)據時代爬蟲遇到頭疼的驗證碼？python實戰(zhàn)講解彈窗處理和驗證碼識別

爬蟲遇到頭疼的驗證碼？python實戰(zhàn)講解彈窗處理和驗證碼識別

2020-07-29

文章來源：早起Python微信公眾號

作者：陳熹

前言

在我們寫爬蟲的過程中，目標網站常見的干擾手段就是設置驗證碼等，本就將基于Selenium實戰(zhàn)講解如何處理彈窗和驗證碼，爬取的目標網站為某儀器預約平臺

可以看到登錄所需的驗證碼構成比較簡單，是彩色的標準數(shù)字配合簡單的背景干擾

因此這里的驗證碼識別不需要借助人工智能的手段，可直接利用二值法對圖片處理后交給谷歌的識別引擎tesseract-OCR即可獲得圖中的數(shù)字。

注：selenium 和 tesseract 的配置讀者可自行搜索，本文不做介紹)

python實戰(zhàn)

首先導入所需模塊

import re
# 圖片處理
from PIL import Image
# 文字識別
import pytesseract
# 瀏覽器自動化
from selenium import webdriver
import time

解決彈出框問題

先嘗試打開示例網站

url = 'http://lims.gzzoc.com/client'
driver = webdriver.Chrome()
driver.get(url)
time.sleep(30)

有趣的地方出現(xiàn)了，網站顯示了一個我們前面沒有看到的彈窗，簡單說一下彈窗的知識點，初學者可以將彈出框簡單分為alert和非alert

alert式彈出框

alert(message)方法用于顯示帶有一條指定消息和一個 OK 按鈕的警告框

confirm(message)方法用于顯示一個帶有指定消息和 OK 及取消按鈕的對話框

prompt(text,defaultText)方法用于顯示可提示用戶進行輸入的對話框

看一下這個彈出框的js是怎么寫的：

看起來似乎是alert式彈出框，那么直接用driver.switch_to.alert嗎？先不急

非傳統(tǒng)alert式彈出框的處理

彈出框位于div層，跟平常定位方法一樣

彈出框是嵌套的iframe層，需要切換iframe

彈出框位于嵌套的handle，需要切換窗口

所以我們對這個彈出框進行元素審查

所以問題實際上很簡單，直接定位按鈕并點擊即可

url = 'http://lims.gzzoc.com/client'

driver = webdriver.Chrome()
driver.get(url)
time.sleep(1)
driver.maximize_window() # 最大化窗口
driver.find_element_by_xpath("http://div[@class='jconfirm-buttons']/button").click()

獲取圖片位置并截圖

二值法處理驗證碼的簡單思路如下：

切割截取驗證碼所在的圖片

轉為灰度后二值法將有效信息轉為黑，背景和干擾轉為白色

處理后的圖片交給文字識別引擎

輸入返回的結果并提交

切割截取驗證碼的圖片進一步思考解決策略：首先獲取網頁上圖片的css屬性，根據size和location算出圖片的坐標；然后截屏；最后用這個坐標進一步去處理截屏即可(由于驗證碼js的特殊性，不能簡單獲取img的href后下載圖片后讀取識別，會導致前后不匹配)

img = driver.find_element_by_xpath('//img[@id="valiCode"]')
time.sleep(1)
location = img.location
size = img.size
# left = location['x']
# top = location['y']
# right = left + size['width']
# bottom = top + size['height']
left = 2 * location['x']
top = 2 * location['y']
right = left + 2 * size['width'] - 10
bottom = top + 2 * size['height'] - 10
driver.save_screenshot('valicode.png')
page_snap_obj = Image.open('valicode.png')
image_obj = page_snap_obj.crop((left, top, right, bottom))
image_obj.show()

正常情況下直接使用注釋的四行代碼即可，但不同的電腦不同的瀏覽器，縮放倍率存在差異，因此如果截取出的圖存在偏差這需要考慮乘上倍率系數(shù)。最后可以再加減數(shù)值進行微調

可以看到圖片這成功截取出來了！

驗證碼圖片的進一步處理

這個閾值需要具體用Photoshop或者其他工具嘗試，即找到一個像素閾值能夠將灰度圖片中真實數(shù)據和背景干擾分開，本例經測試閾值為205

img = image_obj.convert("L")  # 轉灰度圖
pixdata = img.load()
w, h = img.size
threshold = 205
# 遍歷所有像素，大于閾值的為黑色
for y in range(h):
    for x in range(w):
        if pixdata[x, y] < threshold:
            pixdata[x, y] = 0
        else:
            pixdata[x, y] = 255

根據像素二值結果重新生成圖片

data = img.getdata()
w, h = img.size
black_point = 0
for x in range(1, w - 1):
    for y in range(1, h - 1):
        mid_pixel = data[w * y + x]
        if mid_pixel < 50:
            top_pixel = data[w * (y - 1) + x]
            left_pixel = data[w * y + (x - 1)]
            down_pixel = data[w * (y + 1) + x]
            right_pixel = data[w * y + (x + 1)]
            if top_pixel < 10:
                black_point += 1
            if left_pixel < 10:
                black_point += 1
            if down_pixel < 10:
                black_point += 1
            if right_pixel < 10:
                black_point += 1
            if black_point < 1:
                img.putpixel((x, y), 255)
            black_point = 0
img.show()

圖像處理前后對比如下

文字識別

將處理后的圖片就給谷歌的文字識別引擎就能完成識別

result = pytesseract.image_to_string(img)
# 可能存在異常符號，用正則提取其中的數(shù)字
regex = '\d+'
result = ''.join(re.findall(regex, result))
print(result)

識別結果如下

提交賬號密碼、驗證碼等信息

在處理完驗證碼之后，現(xiàn)在我們就可以向網站提交賬號密碼、驗證碼等登陸所需信息

driver.find_element_by_name('code').send_keys(result)
driver.find_element_by_name('userName').send_keys('xxx')
driver.find_element_by_name('password').send_keys('xxx')
# 最后點擊確定
driver.find_element_by_xpath("http://div[@class='form-group login-input'][3]").click()

需要注意的是，二值法識別驗證碼成功率不是100%，因此需要考慮到驗證碼識別錯誤，需要單擊圖片更換驗證碼重新識別，可以將上述代碼拆解成多個函數(shù)后，用如下循環(huán)框架試錯

while True:
    try:
        ...
        break
    except:
        driver.find_element_by_id('valiCode').click()

為了方便理解，代碼的書寫沒有以函數(shù)形式呈現(xiàn)，歡迎讀者自行嘗試修改！

小結

成功登錄后就可以獲得個人的cookies，接下來可以繼續(xù)用selenium進行瀏覽器自動化或者把cookies傳給requests，后面就能爬取需要的信息做分析或者實現(xiàn)一些自動化功能，但由于涉及到的爬蟲知識點比較多，我們會在后續(xù)的爬蟲專題文章中進行分享！

CDA數(shù)據分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

xpath python requests 偏差人工智能

數(shù)據分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇劇版“浪姐”口碑爆了！數(shù)據告訴你，《三十而已》憑什么這么戳中觀眾的心

下一篇python 為什么要有 pass 語句？

CDA報考指南

報考流程
考試時間
報名費用
聯(lián)系我們

數(shù)據分析學習

數(shù)據分析師資訊

京公網安備 11010802034615號經營許可證編號：京B2-20210330

聯(lián)系電話：13321103290 (微信同號)

CDA教材
CDA題庫
CDA大綱

客服在線

立即咨詢

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊

') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調用 initGeetest 進行初始化 // 參數(shù)1：配置參數(shù) // 參數(shù)2：回調，回調的第一個參數(shù)驗證碼對象，之后可以使用它調用相應的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須，不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產品形式，包括：float，popup width: "280px", https: true // 更多配置參數(shù)說明請參見：http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'！'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'！'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

爬蟲遇到頭疼的驗證碼？python實戰(zhàn)講解彈窗處理和驗證碼識別

前言

python實戰(zhàn)

解決彈出框問題

獲取圖片位置并截圖

驗證碼圖片的進一步處理

文字識別

提交賬號密碼、驗證碼等信息

小結

數(shù)據分析師考試動態(tài)

CDA報考指南

數(shù)據分析學習

數(shù)據分析師資訊

【CDA干貨】DSGE 模型中的 Et：理性預期算子的內涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據分析師：解鎖表結構數(shù)據特征價值的專業(yè)核心 ...

【CDA干貨】Excel 導入數(shù)據含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...

CDA 數(shù)據分析師：掌控表格結構數(shù)據全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解 ...

【CDA干貨】解析 Python 中 Response 對象的 text ...

CDA 數(shù)據分析師：激活表格結構數(shù)據價值的核心操盤手 ...

【CDA干貨】Python HTTP 請求工具對比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點數(shù)據的科 ...

CDA 數(shù)據分析師：業(yè)務數(shù)據分析步驟的落地者與價值優(yōu) ...

【CDA干貨】用 SQL 驗證業(yè)務邏輯：從規(guī)則拆解到數(shù)據 ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據驅動下的 ...

CDA 數(shù)據分析師與戰(zhàn)略 / 業(yè)務數(shù)據分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據聚類分析：從操作實踐到業(yè)務 ...

【CDA干貨】統(tǒng)計模型的核心目的：從數(shù)據解讀到決策 ...

CDA 數(shù)據分析師：商業(yè)數(shù)據分析實踐的落地者與價值創(chuàng) ...

【CDA干貨】機器學習解決實際問題的核心關鍵：從業(yè) ...

【CDA干貨】SPSS 編碼狀態(tài)區(qū)域中 Unicode 的功能與 ...

CDA教育閉環(huán)

常見問題

關于我們

CDA數(shù)據分析師公眾號

CDA考試中心小程序

CDA數(shù)據分析師App下載

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

爬蟲遇到頭疼的驗證碼？python實戰(zhàn)講解彈窗處理和驗證碼識別

前言

python實戰(zhàn)

解決彈出框問題

獲取圖片位置并截圖

驗證碼圖片的進一步處理

文字識別

提交賬號密碼、驗證碼等信息

小結

數(shù)據分析師考試動態(tài)

CDA報考指南

數(shù)據分析學習

數(shù)據分析師資訊

【CDA干貨】DSGE 模型中的 Et：理性預期算子的內涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據分析師：解鎖表結構數(shù)據特征價值的專業(yè)核心 ...

【CDA干貨】Excel 導入數(shù)據含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...

CDA 數(shù)據分析師：掌控表格結構數(shù)據全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解 ...

【CDA干貨】解析 Python 中 Response 對象的 text ...

CDA 數(shù)據分析師：激活表格結構數(shù)據價值的核心操盤手 ...

【CDA干貨】Python HTTP 請求工具對比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點數(shù)據的科 ...

CDA 數(shù)據分析師：業(yè)務數(shù)據分析步驟的落地者與價值優(yōu) ...

【CDA干貨】用 SQL 驗證業(yè)務邏輯：從規(guī)則拆解到數(shù)據 ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據驅動下的 ...

CDA 數(shù)據分析師與戰(zhàn)略 / 業(yè)務數(shù)據分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據聚類分析：從操作實踐到業(yè)務 ...

【CDA干貨】統(tǒng)計模型的核心目的：從數(shù)據解讀到決策 ...

CDA 數(shù)據分析師：商業(yè)數(shù)據分析實踐的落地者與價值創(chuàng) ...

【CDA干貨】機器學習解決實際問題的核心關鍵：從業(yè) ...

【CDA干貨】SPSS 編碼狀態(tài)區(qū)域中 Unicode 的功能與 ...

CDA教育閉環(huán)

常見問題

關于我們

CDA數(shù)據分析師公眾號

CDA考試中心小程序

CDA數(shù)據分析師App下載

提交賬號密碼、驗證碼等信息

【CDA干貨】Excel 導入數(shù)據含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...