99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話：13121318867

登錄

首頁(yè)精彩閱讀手把手教你JS逆向搞定字體反爬并獲取某招聘網(wǎng)站信息

手把手教你JS逆向搞定字體反爬并獲取某招聘網(wǎng)站信息

2021-11-25

作者：Python進(jìn)階者

今天給大家?guī)?lái)干貨，JS逆向。

網(wǎng)站的反爬措施有很多，例如：js反爬、ip反爬、css反爬、字體反爬、驗(yàn)證碼反爬、滑動(dòng)點(diǎn)擊類驗(yàn)證反爬等等，今天我們通過(guò)爬取某招聘來(lái)實(shí)戰(zhàn)學(xué)習(xí)字體反爬。

今日網(wǎng)站

小編已加密：
aHR0cHM6Ly93d3cuc2hpeGlzZW5nLmNvbS8= 出于安全原因，我們把網(wǎng)址通過(guò)base64編碼了，大家可以通過(guò)base64解碼把網(wǎng)址獲取下來(lái)。

字體反爬

字體反爬：一種常見的反爬技術(shù)，是網(wǎng)頁(yè)與前端字體文件配合完成的反爬策略，最早使用字體反爬技術(shù)的有58同城、汽車之家等等，現(xiàn)在很多主流的網(wǎng)站或APP也使用字體反爬技術(shù)為自身的網(wǎng)站或APP增加一種反爬措施。

字體反爬原理：通過(guò)自定義的字體來(lái)替換頁(yè)面中某些數(shù)據(jù)，當(dāng)我們不使用正確的解碼方式就無(wú)法獲取正確的數(shù)據(jù)內(nèi)容。

在HTML中通過(guò)@font-face來(lái)使用自定義字體，如下圖所示：

其語(yǔ)法格式為：

@font-face{ font-family:"名字"; src:url('字體文件鏈接'); url('字體文件鏈接')format('文件類型')
}

字體文件一般是ttf類型、eot類型、woff類型，woff類型的文件運(yùn)用比較廣泛，所以大家一般碰到的都是woff類型的文件。

以woff類型文件為例，其內(nèi)容是怎樣的呢，又是以什么編碼方式使得數(shù)據(jù)與代碼一一對(duì)應(yīng)的呢？

我們以某招聘網(wǎng)站的字體文件為例，進(jìn)入百度字體編譯器并打開字體文件，如下圖所示：

隨機(jī)打開一個(gè)字體，如下圖所示：

可以發(fā)現(xiàn)字體6放在一個(gè)平面坐標(biāo)里面，根據(jù)平面坐標(biāo)的每個(gè)點(diǎn)來(lái)得出字體6的編碼，這里就不解釋如何得出字體6的編碼了。

如何解決字體反爬呢？

首先映射關(guān)系可以看作為字典，大致有兩種常用的方法：

第一種：手動(dòng)把一組編碼和字符的對(duì)應(yīng)關(guān)系提取出來(lái)并用字典的形式展示，代碼如下所示：

replace_dict={ '0xf7ce':'1', '0xf324':'2', '0xf23e':'3',
	....... '0xfe43':'n'，
} for key in replace_dict:
    數(shù)據(jù)=數(shù)據(jù).replace(key,replace_dict[key])

首先定義字體與其對(duì)應(yīng)的代碼一一對(duì)應(yīng)的字典，再通過(guò)for循環(huán)把數(shù)據(jù)一一替換。

注意：這種方法主要適用于字體映射少的數(shù)據(jù)。

第二種：首先下載網(wǎng)站的字體文件，再把字體文件轉(zhuǎn)換為XML文件，找到里面的字體映射關(guān)系的代碼，通過(guò)decode函數(shù)解碼，然后將解碼的代碼組合成一個(gè)字典，再根據(jù)字典內(nèi)容將數(shù)據(jù)一一替換，由于代碼比較長(zhǎng)，這里就不寫示例代碼了，待會(huì)在實(shí)戰(zhàn)演練中會(huì)展示這種方法的代碼。

好了，字體反爬就簡(jiǎn)單講到這里，接下來(lái)我們正式爬取某招聘網(wǎng)站。

實(shí)戰(zhàn)演練

自定義字體文件查找

首先進(jìn)入某招聘網(wǎng)并打開開發(fā)者模式，如下圖所示：

這里我們看到代碼中只有生字不能正常函數(shù)，而是用來(lái)代碼來(lái)替代，初步判定為使用了自定義的字體文件，這時(shí)就要找到字體文件了，那么字體文件在哪里找呢，首先打開開發(fā)者模式，并點(diǎn)擊Network選項(xiàng)，如下圖所示：

一般情況下，字體文件放在Font選卡中，我們發(fā)現(xiàn)這里一共有5個(gè)條目，那么哪個(gè)是自定義字體文件的條目呢，當(dāng)我們每次點(diǎn)擊下一頁(yè)的時(shí)候，自定義字體文件就會(huì)執(zhí)行一次，這時(shí)我們只需要點(diǎn)擊網(wǎng)頁(yè)中的下一頁(yè)即可，如下圖所示：

可以看到多了一個(gè)以file開頭的條目，這時(shí)可以初步判定該文件為自定義字體文件，現(xiàn)在我們把它下載下來(lái)，下載方式很簡(jiǎn)單，只需要把file開頭的條目的URL復(fù)制并在網(wǎng)頁(yè)上打開即可，下載下來(lái)后在百度字體編譯器打開，如下圖所示：

這時(shí)發(fā)現(xiàn)打開不了，是不是找錯(cuò)了字體文件，網(wǎng)站提示說(shuō)不支持這種文件類型，那么我們把下載的文件后綴改為.woff在打開試試，如下圖所示：

這時(shí)就成功打開了。

字體映射關(guān)系

找到自定義字體文件了，那么我們?cè)撛趺蠢媚兀窟@時(shí)我們先自定義方法get_fontfile()來(lái)處理自定義字體文件，然后在通過(guò)兩步來(lái)把字體文件中的映射關(guān)系通過(guò)字典的方式展示出來(lái)。

字體文件下載與轉(zhuǎn)換；
字體映射關(guān)系解碼。

字體文件下載與轉(zhuǎn)換

首先自定義字體文件更新頻率是很高的，這時(shí)我們可以實(shí)時(shí)獲取網(wǎng)頁(yè)的自定義字體文件來(lái)防止利用了之前的自定義字體文件從而導(dǎo)致獲取數(shù)據(jù)不準(zhǔn)確。首先觀察自定義字體文件的url鏈接：

https://www.xxxxxx.com/interns/iconfonts/file?rand=0.2254193167485603 https://www.xxxxxx.com/interns/iconfonts/file?rand=0.4313944100724574 https://www.xxxxxx.com/interns/iconfonts/file?rand=0.3615862774301839

可以發(fā)現(xiàn)自定義字體文件的URL只有rand這個(gè)參數(shù)發(fā)生變化，而且是隨機(jī)的十六位小于1的浮點(diǎn)數(shù)，那么我們只需要構(gòu)造rand參數(shù)即可，主要代碼如下所示：

def get_fontfile(): rand=round(random.uniform(0,1),17)
    url=f'https://www.xxxxxx.com/interns/iconfonts/file?rand={rand}' response=requests.get(url,headers=headers).content with open('file.woff','wb')as f:
        f.write(response)
    font = TTFont('file.woff')
    font.saveXML('file.xml')

首先通過(guò)random.uniform()方法來(lái)控制隨機(jī)數(shù)的大小，再通過(guò)round()方法控制隨機(jī)數(shù)的位數(shù)，這樣就可以得到rand的值，再通過(guò).content把URL響應(yīng)內(nèi)容轉(zhuǎn)換為二進(jìn)制并寫入file.woff文件中，在通過(guò)TTFont()方法獲取文件內(nèi)容，通過(guò)saveXML方法把內(nèi)容保存為xml文件。xml文件內(nèi)容如下圖所示：

字體解碼及展現(xiàn)

該字體.xml文件一共有4589行那么多，哪個(gè)部分才是字體映射關(guān)系的代碼部分呢？

首先我們看回在百度字體編碼器的內(nèi)容，如下圖所示：

漢字人對(duì)應(yīng)的代碼為f0e2，那么我們就在字體.xml文件中查詢?nèi)说拇a，如下圖所示：

可以發(fā)現(xiàn)一共有4個(gè)結(jié)果，但仔細(xì)觀察每個(gè)結(jié)果都相同，這時(shí)我們可以根據(jù)它們代碼規(guī)律來(lái)獲取映射關(guān)系，再通過(guò)解碼來(lái)獲取對(duì)應(yīng)的數(shù)據(jù)值，最后以字典的形式展示，主要代碼如下所示：

with open('file.xml') as f: xml = f.read() keys = re.findall('', xml) values = re.findall('', xml) for i in range(len(values)): if len(values[i]) < 4: values[i] = ('u00' + values[i]).encode('utf-8').decode('unicode_escape') else: values[i] = ('u' + values[i]).encode('utf-8').decode('unicode_escape')
word_dict = dict(zip(keys, values))

首先讀取file.xml文件內(nèi)容，找出把代碼中的code、name的值并分別設(shè)置為keys鍵，values值，再通過(guò)for循環(huán)把values的值解碼為我們想要的數(shù)據(jù)，最后通過(guò)zip()方法合并為一個(gè)元組并通過(guò)dict()方法轉(zhuǎn)換為字典數(shù)據(jù)，運(yùn)行結(jié)果如圖所示：

獲取招聘數(shù)據(jù)

在上一步中，我們成功把字體映射關(guān)系轉(zhuǎn)換為字典數(shù)據(jù)了，接下來(lái)開始發(fā)出網(wǎng)絡(luò)請(qǐng)求來(lái)獲取數(shù)據(jù)，主要代碼如下所示：

def get_data(dict,url):
    response=requests.get(url,headers=headers).text.replace('&#','0') for key in dict: response=response.replace(key,dict[key])
    XPATH=parsel.Selector(response)
    datas=XPATH.xpath('//*[@id="__layout"]/div/div[2]/div[2]/div[1]/div[1]/div[1]/div') for i in datas: data={ 'workname':i.xpath('./div[1]/div[1]/p[1]/a/text()').extract_first(), 'link':i.xpath('./div[1]/div[1]/p[1]/a/@href').extract_first(), 'salary':i.xpath('./div[1]/div[1]/p[1]/span/text()').extract_first(), 'place':i.xpath('./div[1]/div[1]/p[2]/span[1]/text()').extract_first(), 'work_time':i.xpath('./div[1]/div[1]/p[2]/span[3]/text()').extract_first()+i.xpath('./div[1]/div[1]/p[2]/span[5]/text()').extract_first(), 'company_name':i.xpath('./div[1]/div[2]/p[1]/a/text()').extract_first(), 'Field_scale':i.xpath('./div[1]/div[2]/p[2]/span[1]/text()').extract_first()+i.xpath('./div[1]/div[2]/p[2]/span[3]/text()').extract_first(), 'advantage': ','.join(i.xpath('./div[2]/div[1]/span/text()').extract()), 'welfare':','.join(i.xpath('./div[2]/div[2]/span/text()').extract())
        }
        saving_data(list(data.values()))

首先自定義方法get_data()并接收字體映射關(guān)系的字典數(shù)據(jù)，再通過(guò)for循環(huán)將字典內(nèi)容與數(shù)據(jù)一一替換，最后通過(guò)xpath()來(lái)提取我們想要的數(shù)據(jù)，最后把數(shù)據(jù)傳入我們自定義方法saving_data()中。

保存數(shù)據(jù)

數(shù)據(jù)已經(jīng)獲取下來(lái)了，接下來(lái)將保存數(shù)據(jù)，主要代碼如下所示：

def saving_data(data): db = pymysql.connect(host=host, user=user, password=passwd, port=port, db='recruit')
    cursor = db.cursor()
    sql = 'insert into recruit_data(work_name, link, salary, place, work_time,company_name,Field_scale,advantage,welfare) values(%s,%s,%s,%s,%s,%s,%s,%s,%s)' try:
        cursor.execute(sql,data)
        db.commit() except:
        db.rollback()
    db.close()

啟動(dòng)程序

好了，程序已經(jīng)寫得差不多了，接下來(lái)將編寫代碼運(yùn)行程序，主要代碼如下所示：

if __name__ == '__main__':
    create_db()
    get_fontfile() for i in range(1,3):
        url=f'https://www.xxxxxx.com/interns?page={i}&type=intern&salary=-0&city=%E5%85%A8%E5%9B%BD' get_data(get_dict(),url)

結(jié)果展示

好了，學(xué)習(xí)字體反爬并爬取某招聘就講到這里了?。?！

CDA數(shù)據(jù)分析師考試相關(guān)入口一覽（建議收藏）：

? 想報(bào)名CDA認(rèn)證考試，點(diǎn)擊>>> “CDA報(bào)名” 了解CDA考試詳情；

? 想學(xué)習(xí)CDA考試教材，點(diǎn)擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫(kù)，點(diǎn)擊>>> “CDA題庫(kù)” 了解CDA考試詳情；

? 想了解CDA考試含金量，點(diǎn)擊>>> “CDA含金量” 了解CDA考試詳情；

xpath python requests mysql 數(shù)據(jù)挖掘

數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼

若不方便掃碼，搜微信號(hào)：CDAshujufenxi

上一篇想記錄地球表面每時(shí)每刻的變化？這個(gè)數(shù)據(jù)庫(kù)做到了

下一篇矩陣分析法，做商業(yè)決策必備的經(jīng)典分析思維

CDA報(bào)考指南

報(bào)考流程
考試時(shí)間
報(bào)名費(fèi)用
聯(lián)系我們

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

京公網(wǎng)安備 11010802034615號(hào) 經(jīng)營(yíng)許可證編號(hào)：京B2-20210330

聯(lián)系電話：13321103290 (微信同號(hào))

CDA教材
CDA題庫(kù)
CDA大綱

客服在線

立即咨詢

客服在線

立即咨詢

^{<blockquote id="vc6tr"></blockquote>}

免密碼登錄

提交首次登錄驗(yàn)證后自動(dòng)注冊(cè)

') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1：配置參數(shù) // 參數(shù)2：回調(diào)，回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象，之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須，不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式，包括：float，popup width: "280px", https: true // 更多配置參數(shù)說(shuō)明請(qǐng)參見：http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'！'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'！'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

手把手教你JS逆向搞定字體反爬并獲取某招聘網(wǎng)站信息

今日網(wǎng)站

字體反爬

實(shí)戰(zhàn)演練

自定義字體文件查找

字體映射關(guān)系

字體文件下載與轉(zhuǎn)換

字體解碼及展現(xiàn)

獲取招聘數(shù)據(jù)

保存數(shù)據(jù)

啟動(dòng)程序

結(jié)果展示

數(shù)據(jù)分析師考試動(dòng)態(tài)

CDA報(bào)考指南

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

CDA 數(shù)據(jù)分析師：表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預(yù)期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 ...

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗(yàn)與 t 檢驗(yàn)：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解 ...

【CDA干貨】解析 Python 中 Response 對(duì)象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 ...

【CDA干貨】Python HTTP 請(qǐng)求工具對(duì)比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu) ...

【CDA干貨】用 SQL 驗(yàn)證業(yè)務(wù)邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營(yíng)銷案例：數(shù)據(jù)驅(qū)動(dòng)下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實(shí)踐到業(yè)務(wù) ...

【CDA干貨】統(tǒng)計(jì)模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA 數(shù)據(jù)分析師：商業(yè)數(shù)據(jù)分析實(shí)踐的落地者與價(jià)值創(chuàng) ...

【CDA干貨】機(jī)器學(xué)習(xí)解決實(shí)際問(wèn)題的核心關(guān)鍵：從業(yè) ...

CDA教育閉環(huán)

常見問(wèn)題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號(hào)

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...