99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話：13121318867

登錄

首頁精彩閱讀提取任意網(wǎng)頁核心內(nèi)容——像搜索引擎一樣精準(zhǔn)

提取任意網(wǎng)頁核心內(nèi)容——像搜索引擎一樣精準(zhǔn)

2021-10-26

作者：李曉飛

來源：Python 技術(shù)

爬蟲程序想必大家都很熟悉了，隨便寫一個就可以獲取網(wǎng)頁上的信息，甚至可以通過請求自動生成 Python 腳本[1]。

最近我遇到一個爬蟲項目，需要爬取網(wǎng)上的文章。感覺沒有什么特別的，但問題是沒有限定爬取范圍，意味著沒有明確的頁面的結(jié)構(gòu)。

對于一個頁面來說，除了核心文章內(nèi)容外，還有頭部，尾部，左右列表欄等等。有的頁面框架用 div 布局，有的用 table，即使都用 div，不太的網(wǎng)站風(fēng)格和布局也不同。

但問題必須解決，我想，既然搜索引擎抓取到各種網(wǎng)頁的核心內(nèi)容，我們也應(yīng)該可以搞定，拎起 Python，說干就干！

各種嘗試

如何解決呢？

生成PDF

開始想了一個取巧的方法，就是利用工具（wkhtmltopdf[2]）將目標(biāo)網(wǎng)頁生成 PDF 文件。

好處是不必關(guān)心頁面的具體形式，就像給頁面拍了一張照片，文章結(jié)構(gòu)是完整的。

雖然 PDF 是可以源碼級檢索，但是，生成 PDF 有諸多缺點：

耗費計算資源多、效率低、出錯率高，體積太大。

幾萬條數(shù)據(jù)已經(jīng)兩百多G，如果數(shù)據(jù)量上來光存儲就是很大的問題。

提取文章內(nèi)容

不生成PDF，有簡單辦法就是通過 xpath[3] 提取頁面上的所有文字。

但是內(nèi)容將失去結(jié)構(gòu)，可讀性差。更要命的是，網(wǎng)頁上有很多無關(guān)內(nèi)容，比如側(cè)邊欄，廣告，相關(guān)鏈接等，也會被提取下來，影響內(nèi)容的精確性。

為了保證有一定的結(jié)構(gòu)，還要識別到核心內(nèi)容，就只能識別并提取文章部分的結(jié)構(gòu)了。像搜索引擎學(xué)習(xí)，就是想辦法識別頁面的核心內(nèi)容。

我們知道，通常情況下，頁面上的核心內(nèi)容（如文章部分）文字比較集中，可以從這個地方著手分析。

于是編寫了一段代碼，我是用 Scrapy[4] 作為爬蟲框架的，這里只截取了其中提取文章部分的代碼：

divs = response.xpath("body//div")
sel = None
maxvalue = 0 for d in divs:
  ds = len(d.xpath(".//div"))
  ps = len(d.xpath(".//p")) value = ps - ds if value > maxvalue:
    sel = { "node": d, "value": value }
    maxvalue = value print("".join(sel['node'].getall()))

response 是頁面的一個響應(yīng)，其中包含了頁面的所有內(nèi)容，可以通過 xpath 提取想要的部分
"body//div" 的意思是提取所以 body 標(biāo)簽下的 div 子標(biāo)簽，注意：// 操作是遞歸的
遍歷所有提取到的標(biāo)簽，計算其中包含的 div 數(shù)量，和 p 數(shù)量
p 數(shù)量和 div 數(shù)量的差值作為這個元素的權(quán)值，意思是如果這個元素里包含了大量的 p 時，就認(rèn)為這里是文章主體
通過比較權(quán)值，選擇出權(quán)值最大的元素，這便是文章主體
得到文章主體之后，提取這個元素的內(nèi)容，相當(dāng)于 jQuery[5] 的 outerHtml

簡單明了，測試了幾個頁面確實挺好。

不過大量提取時發(fā)現(xiàn)，很多頁面提取不到數(shù)據(jù)。仔細(xì)查看發(fā)現(xiàn)，有兩種情況。

有的文章內(nèi)容被放在了 <article> 標(biāo)簽里了，所以沒有獲取到
有的文章每個 <p> 外面都包裹了一個 <div>，所以 p 的數(shù)量和 div 的抵消了

再調(diào)整了一下策略，不再區(qū)分 div，查看所有的元素。

另外優(yōu)先選擇更多的 p，在其基礎(chǔ)上再看更少的 div。調(diào)整后的代碼如下：

divs = response.xpath("body//*")
sels = []
maxvalue = 0 for d in divs:
  ds = len(d.xpath(".//div"))
  ps = len(d.xpath(".//p")) if ps >= maxvalue:
    sel = { "node": d, "ps": ps, "ds": ds
    }
    maxvalue = ps
    sels.append(sel)

sels.sort(lambda x: x.ds)

sel = sels[0] print("".join(sel['node'].getall()))

方法主體里，先挑選出 p 數(shù)量比較大的節(jié)點，注意 if 判斷條件中換成了 >= 號，作用時篩選出同樣具有 p 數(shù)量的結(jié)點
經(jīng)過篩選之后，按照 div 數(shù)量排序，然后選取 div 數(shù)量最少的

經(jīng)過這樣修改之后，確實在一定程度上彌補了前面的問題，但是引入了一個更麻煩的問題。

就是找到的文章主體不穩(wěn)定，特別容易受到其他部分有些 p 的影響。

選擇最優(yōu)

既然直接計算不太合適，需要重新設(shè)計一個算法。

我發(fā)現(xiàn)，文字集中的地方是往往是文章主體，而前面的方法中，沒有考慮到這一點，只是機械地找出了最大的 p。

還有一點，網(wǎng)頁結(jié)構(gòu)是個顆 DOM 樹[6]

提取任意網(wǎng)頁核心內(nèi)容——像搜<a href='/map/suoyin/' style='color:#000;font-size:inherit;'>索引</a>擎一樣精準(zhǔn)

那么越靠近 p 標(biāo)簽的地方應(yīng)該越可能是文章主體，也就是說，計算是越靠近 p 的節(jié)點權(quán)值應(yīng)該越大，而遠(yuǎn)離 p 的結(jié)點及時擁有很多 p 但是權(quán)值也應(yīng)該小一點。

經(jīng)過試錯，最終代碼如下：

def find(node, sel): value = 0 for n in node.xpath("*"): if n.xpath("local-name()").get() == "p":
            t = "".join([s.strip() for s in (n.xpath('text()').getall() + n.xpath("*/text()").getall())]) value += len(t) else: value += find(n, a)*0.5 if value > sel["value"]:
        sel["node"] = node
        sel["value"] = value return value sel = { 'value': 0, 'node': None
}
find(response.xpath("body"), sel)

定義了一個 find 函數(shù)，這是為了方便做遞歸，第一次調(diào)用的參數(shù)是 body 標(biāo)簽，和前面一樣
進(jìn)入方法里，只找出該節(jié)點的直接孩子們，然后遍歷這些孩子
判斷如果孩子是 p 節(jié)點，提取出其中的所有文字，包括子節(jié)點的，然后將文字的長度作為權(quán)值
提取文字的地方比較繞，先取出直接的文本，和間接文本，合成 list，對每部分文本做了去除前后空字符，最后合并為一個字符串，得到了所包含的文本
如果孩子節(jié)點不是 p，就遞歸調(diào)用 find 方法，而 find 方法返回的是指定節(jié)點所包含的文本長度
在獲取子節(jié)點的長度時，做了縮減處理，用以體現(xiàn)距離越遠(yuǎn)，權(quán)值越低的規(guī)則
最終通過引用傳遞的 sel 參數(shù)，記錄權(quán)值最高的節(jié)點

通過這樣改造之后，效果特別好。

為什么呢？其實利用了密度原理，就是說越靠近中心的地方，密度越高，遠(yuǎn)離中心的地方密度成倍的降低，這樣就能篩選出密度中心了。

50% 的坡度比率是如何得到的呢？

其實是通過實驗確定的，剛開始時我設(shè)置為 90%，但結(jié)果時 body 節(jié)點總是最優(yōu)的，因為 body 里包含了所有的文字內(nèi)容。

反復(fù)實驗后，確定 50% 是比較好的值，如果在你的應(yīng)用中不合適，可以做調(diào)整。

總結(jié)

描述了我如何選取文章主體的方法后，后沒有發(fā)現(xiàn)其實很是很簡單的方法。而這次解決問題的經(jīng)歷，讓我感受到了數(shù)學(xué)的魅力。

一直以來我認(rèn)為只要了解常規(guī)處理問題的方式就足以應(yīng)對日常編程了，可以當(dāng)遇到不確定性問題，沒有辦法抽取出簡單模型的問題時，常規(guī)思維顯然不行。

所以平時我們應(yīng)該多看一些數(shù)學(xué)性強的，解決不確定性問題的方法，以便提高我們的編程適應(yīng)能力，擴展我們的技能范圍。

CDA數(shù)據(jù)分析師考試相關(guān)入口一覽（建議收藏）：

? 想報名CDA認(rèn)證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學(xué)習(xí)CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

xpath 索引

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇數(shù)據(jù)解讀：票房破50億！《長津湖》憑什么如此火爆？

下一篇知乎熱門：如何提高爬蟲速度？

CDA報考指南

報考流程
考試時間
報名費用
聯(lián)系我們

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

京公網(wǎng)安備 11010802034615號經(jīng)營許可證編號：京B2-20210330

聯(lián)系電話：13321103290 (微信同號)

CDA教材
CDA題庫
CDA大綱

客服在線

立即咨詢

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊

') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1：配置參數(shù) // 參數(shù)2：回調(diào)，回調(diào)的第一個參數(shù)驗證碼對象，之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須，不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務(wù)器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式，包括：float，popup width: "280px", https: true // 更多配置參數(shù)說明請參見：http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'！'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'！'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

提取任意網(wǎng)頁核心內(nèi)容——像搜索引擎一樣精準(zhǔn)

各種嘗試

生成PDF

提取文章內(nèi)容

選擇最優(yōu)

總結(jié)

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

CDA 數(shù)據(jù)分析師：表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預(yù)期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 ...

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解 ...

【CDA干貨】解析 Python 中 Response 對象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 ...

【CDA干貨】Python HTTP 請求工具對比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu) ...

【CDA干貨】用 SQL 驗證業(yè)務(wù)邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據(jù)驅(qū)動下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實踐到業(yè)務(wù) ...

【CDA干貨】統(tǒng)計模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA 數(shù)據(jù)分析師：商業(yè)數(shù)據(jù)分析實踐的落地者與價值創(chuàng) ...

【CDA干貨】機器學(xué)習(xí)解決實際問題的核心關(guān)鍵：從業(yè) ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

提取任意網(wǎng)頁核心內(nèi)容——像搜索引擎一樣精準(zhǔn)

各種嘗試

生成PDF

提取文章內(nèi)容

選擇最優(yōu)

總結(jié)

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

CDA 數(shù)據(jù)分析師：表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預(yù)期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 ...

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解 ...

【CDA干貨】解析 Python 中 Response 對象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 ...

【CDA干貨】Python HTTP 請求工具對比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu) ...

【CDA干貨】用 SQL 驗證業(yè)務(wù)邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據(jù)驅(qū)動下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實踐到業(yè)務(wù) ...

【CDA干貨】統(tǒng)計模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA 數(shù)據(jù)分析師：商業(yè)數(shù)據(jù)分析實踐的落地者與價值創(chuàng) ...

【CDA干貨】機器學(xué)習(xí)解決實際問題的核心關(guān)鍵：從業(yè) ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...