99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話：13121318867

登錄

首頁精彩閱讀大數(shù)據(jù)時代，這項(xiàng)收集數(shù)據(jù)的技能不可少

大數(shù)據(jù)時代，這項(xiàng)收集數(shù)據(jù)的技能不可少

2017-01-23

大數(shù)據(jù)時代，這項(xiàng)收集數(shù)據(jù)的技能不可少

大數(shù)據(jù)是未來的“新石油”?！度祟惡喪罚簭膭游锏缴系邸返淖髡哂韧郀枴ず绽f：大數(shù)據(jù)將是人類自由意志的終結(jié)，數(shù)據(jù)主義將取代以往的宗教和人文主義，成為未來的信仰。人人都在談大數(shù)據(jù)，談DT時代，我們剝?nèi)ド鐣郊由系耐庖拢瑒t回歸“數(shù)據(jù)”二字。

那如何獲取數(shù)據(jù)呢？

在運(yùn)營公眾號這么長一段時間，經(jīng)常有人問超模君：超模君，我需要什么的數(shù)據(jù)，該怎么處理，或者直接問超模君，能不能給我提供一些數(shù)據(jù)？

其實(shí)超模君內(nèi)心是奔潰的。。。而一般我給出的建議如果沒有整理好的數(shù)據(jù)，可以嘗試做個爬蟲試試。而在獲取數(shù)據(jù)的道路上并不簡單，爬蟲可謂是“麻雀雖小，五臟俱全”，爬蟲雖然操作起來很簡單，用十幾行腳本語言就可以搞定，但其中可涉及到網(wǎng)絡(luò)通信，字符串處理，數(shù)據(jù)庫等，能使用到一種語言的幾乎所有組件。

一言不合就上代碼

我們先來看一個最簡單的最簡單的爬蟲，用python寫成，只需要三行。

import requests
url="http://www.cricode.com"
r=requests.get(url)

上面這三行爬蟲程序，就如下面這三行情詩一般，很干脆利落。

是好男人，

就應(yīng)該在和女友吵架時，

抱著必輸?shù)男膽B(tài)。

上面那個最簡單的爬蟲，不是一個完整的爬蟲，因?yàn)榕老x通常需要以下3個步驟：

1）給定的種子URLs，爬蟲程序?qū)⑺蟹N子URL頁面爬取下來

2）爬蟲程序解析爬取到的URL頁面中的鏈接，將這些鏈接放入待爬取URL集合里

3）重復(fù)1、2步，直到達(dá)到指定條件才終止爬取

因此，一個完整的爬蟲大概是這樣子的：

import requests                       #用來爬取網(wǎng)頁
from bs4 import BeautifulSoup         #用來解析網(wǎng)頁
seds = ["http://www.hao123.com",      #我們的種子
              "http://www.csdn.net",
              "http://www.cricode.com"]
sum = 0                               #我們設(shè)定終止條件為：爬取到100000個頁面時，就不玩了

while sum < 10000 :
    if sum < len(seds):
         r = requests.get(seds[sum])
         sum = sum + 1
         do_save_action(r)
         soup = BeautifulSoup(r.content)
         urls = soup.find_all("href",.....)                     //解析網(wǎng)頁
         for url in urls:
              seds.append(url)

    else:
         break

上面那個完整的爬蟲，不足20行代碼，相信你能找出20個需要改進(jìn)的地方來。因?yàn)樗娜秉c(diǎn)實(shí)在是太多了。下面列舉一下它的N個缺點(diǎn)：

1）我們的任務(wù)是爬取1萬個網(wǎng)頁，按上面這個程序，一個人在默默的爬取，假設(shè)爬起一個網(wǎng)頁3秒鐘，那么，爬一萬個網(wǎng)頁就要3萬秒鐘。MGD，我們可以考慮開啟多個線程去一起爬取，或者用分布式架構(gòu)去并發(fā)地爬取網(wǎng)頁。

2）種子URL和后續(xù)解析到的URL都放在一個列表里，我們應(yīng)該將這些待爬取的URL存放到一個新的更合理的數(shù)據(jù)結(jié)構(gòu)里，例如隊(duì)列或者優(yōu)先隊(duì)列。

3）對各個網(wǎng)站的URL，我們一視同仁，然而，我們應(yīng)該是要區(qū)別對待的。應(yīng)當(dāng)考慮大站好站優(yōu)先原則。

4）我們每次發(fā)起請求，都是根據(jù)URL來發(fā)起的，而在這個過程中會牽涉到DNS解析（將URL轉(zhuǎn)換成 IP 地址）。一個網(wǎng)站通常有數(shù)以萬計(jì)的URL，所以我們可以考慮將這些網(wǎng)站域名的 IP 地址進(jìn)行緩存，避免每次都發(fā)起DNS請求，浪費(fèi)時間。

5）解析到網(wǎng)頁中的URLs后，我們沒有做任何去重處理，全部放入了待爬取的列表中。事實(shí)上，可能有很多鏈接是重復(fù)的，我們做了很多無用功。

6）…..

那么，真正的問題來了，學(xué)挖掘機(jī)到底哪家強(qiáng)？

現(xiàn)在我們就來列出上面找出的幾個問題的解決方案。

1）如何做到并行爬取

我們可以有多重方法去實(shí)現(xiàn)并行。

多線程或者線程池方式，一個爬蟲程序內(nèi)部開啟多個線程。同一臺機(jī)器開啟多個爬蟲程序，這樣，我們就有N多爬取線程在同時工作。能大大縮短時間。

此外，當(dāng)我們要爬取的任務(wù)特別多時，一臺機(jī)器、一個網(wǎng)點(diǎn)明顯不夠，這時我們就要考慮分布式爬蟲了。常見的分布式架構(gòu)有：主從（Master——Slave）架構(gòu)、點(diǎn)對點(diǎn)（Peer to Peer）架構(gòu)，混合架構(gòu)等。

說到分布式架構(gòu)，我們需要考慮的問題就有很多，比如我們需要分派任務(wù)，各個爬蟲之間需要通信合作，共同完成任務(wù)，不要重復(fù)爬取相同的網(wǎng)頁。分派任務(wù)時我們要做到公平公正，就需要考慮如何進(jìn)行負(fù)載均衡。負(fù)載均衡，我們第一個想到的就是Hash，比如根據(jù)網(wǎng)站域名進(jìn)行hash。

負(fù)載均衡分派完任務(wù)之后，并不意味著萬事大吉了，萬一哪臺機(jī)器崩潰了呢？原先指派給崩潰的那臺機(jī)器的任務(wù)應(yīng)該再指派給哪臺機(jī)器？又或者哪天要增加幾臺機(jī)器，任務(wù)重新分配問題該如何解決？

用一致性Hash算法就是一個比較好的解決方案。

2）如何對待待抓取隊(duì)列

類似于操作系統(tǒng)如何調(diào)度進(jìn)程的場景。

不同的網(wǎng)站，重要程度不同，因此，可以設(shè)計(jì)一個優(yōu)先級隊(duì)列來存放待爬取的網(wǎng)頁鏈接。這樣一來，每次抓取時，重要的網(wǎng)頁都會被我們優(yōu)先爬取。

另外，你也可以效仿操作系統(tǒng)的進(jìn)程調(diào)度策略之多級反饋隊(duì)列調(diào)度算法。

3）進(jìn)行DNS緩存

為了避免每次都發(fā)起DNS查詢，我們可以將DNS進(jìn)行緩存。DNS緩存當(dāng)然是設(shè)計(jì)一個hash表來存儲已有的域名及其 IP 。

4）進(jìn)行網(wǎng)頁去重

說到網(wǎng)頁去重，應(yīng)該都會想到垃圾郵件過濾。垃圾郵件過濾的一個經(jīng)典的解決方案是Bloom Filter（布隆過濾器）。布隆過濾器原理簡單來說就是：建立一個大的位數(shù)組，然后用多個Hash函數(shù)對同一個url進(jìn)行hash得到多個數(shù)字，然后將位數(shù)組中這些數(shù)字對應(yīng)的位置為1。下次再來一個url時，同樣是用多個Hash函數(shù)進(jìn)行hash，得到多個數(shù)字，我們只需要判斷位數(shù)組中這些數(shù)字對應(yīng)的為是全為1，如果全為1，那么說明這個url已經(jīng)出現(xiàn)過。如此，便完成了url去重的問題。不過，這種方法會有誤差，但是只要誤差在我們的接受范圍之內(nèi)，就像是1萬個網(wǎng)頁，我們只爬取到了9999個，剩下那1個網(wǎng)頁，誰在乎呢！

5）數(shù)據(jù)存儲的問題

數(shù)據(jù)存儲同樣是一個很有技術(shù)含量的問題。用關(guān)系數(shù)據(jù)庫存取還是用NoSQL，或者是自己設(shè)計(jì)特定的文件格式進(jìn)行存儲，都有很大工程可做。

6）如何完成進(jìn)程間通信

分布式爬蟲，離不開進(jìn)程間的通信。我們可以以規(guī)定的數(shù)據(jù)格式進(jìn)行數(shù)據(jù)交互，去完成進(jìn)程間的通信。

7）……

廢話說了那么多，真正的問題來了，問題不是學(xué)挖掘機(jī)到底哪家強(qiáng)？而是如何實(shí)現(xiàn)上面這些東西?。海?

CDA數(shù)據(jù)分析師考試相關(guān)入口一覽（建議收藏）：

? 想報(bào)名CDA認(rèn)證考試，點(diǎn)擊>>> “CDA報(bào)名” 了解CDA考試詳情；

? 想學(xué)習(xí)CDA考試教材，點(diǎn)擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點(diǎn)擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點(diǎn)擊>>> “CDA含金量” 了解CDA考試詳情；

requests 大數(shù)據(jù) python SQL

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇圖論在大數(shù)據(jù)分析中的作用！

下一篇CDA認(rèn)證再升一檔！與國家共同推進(jìn)大數(shù)據(jù)人才培養(yǎng)標(biāo)準(zhǔn)教育事業(yè)！

CDA報(bào)考指南

報(bào)考流程
考試時間
報(bào)名費(fèi)用
聯(lián)系我們

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

京公網(wǎng)安備 11010802034615號經(jīng)營許可證編號：京B2-20210330

聯(lián)系電話：13321103290 (微信同號)

CDA教材
CDA題庫
CDA大綱

客服在線

立即咨詢

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗(yàn)證后自動注冊

') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1：配置參數(shù) // 參數(shù)2：回調(diào)，回調(diào)的第一個參數(shù)驗(yàn)證碼對象，之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須，不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式，包括：float，popup width: "280px", https: true // 更多配置參數(shù)說明請參見：http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'！'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'！'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

大數(shù)據(jù)時代，這項(xiàng)收集數(shù)據(jù)的技能不可少

數(shù)據(jù)分析師考試動態(tài)

CDA報(bào)考指南

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

【CDA干貨】SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換 ...

【CDA干貨】MySQL 大表拆分與關(guān)聯(lián)查詢效率：打破 “ ...

CDA 數(shù)據(jù)分析師：表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預(yù)期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 ...

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗(yàn)與 t 檢驗(yàn)：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解 ...

【CDA干貨】解析 Python 中 Response 對象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 ...

【CDA干貨】Python HTTP 請求工具對比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點(diǎn)數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu) ...

【CDA干貨】用 SQL 驗(yàn)證業(yè)務(wù)邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據(jù)驅(qū)動下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實(shí)踐到業(yè)務(wù) ...

【CDA干貨】統(tǒng)計(jì)模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

大數(shù)據(jù)時代，這項(xiàng)收集數(shù)據(jù)的技能不可少

數(shù)據(jù)分析師考試動態(tài)

CDA報(bào)考指南

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

【CDA干貨】SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換 ...

【CDA干貨】MySQL 大表拆分與關(guān)聯(lián)查詢效率：打破 “ ...

CDA 數(shù)據(jù)分析師：表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預(yù)期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 ...

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗(yàn)與 t 檢驗(yàn)：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解 ...

【CDA干貨】解析 Python 中 Response 對象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 ...

【CDA干貨】Python HTTP 請求工具對比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點(diǎn)數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu) ...

【CDA干貨】用 SQL 驗(yàn)證業(yè)務(wù)邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據(jù)驅(qū)動下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實(shí)踐到業(yè)務(wù) ...

【CDA干貨】統(tǒng)計(jì)模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

大數(shù)據(jù)時代，這項(xiàng)收集數(shù)據(jù)的技能不可少

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...