婷婷开心激情综合五月天,成人性生交大片免费看r男欢女爱久久一日本综合色鬼综合色

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

以Python的Pyspider為例剖析搜索引擎的網(wǎng)絡(luò)爬蟲(chóng)實(shí)現(xiàn)方法

2018-01-14

以Python的Pyspider為例剖析搜索引擎的網(wǎng)絡(luò)爬蟲(chóng)實(shí)現(xiàn)方法

在這篇文章中，我們將分析一個(gè)網(wǎng)絡(luò)爬蟲(chóng)。

網(wǎng)絡(luò)爬蟲(chóng)是一個(gè)掃描網(wǎng)絡(luò)內(nèi)容并記錄其有用信息的工具。它能打開(kāi)一大堆網(wǎng)頁(yè)，分析每個(gè)頁(yè)面的內(nèi)容以便尋找所有感興趣的數(shù)據(jù)，并將這些數(shù)據(jù)存儲(chǔ)在一個(gè)數(shù)據(jù)庫(kù)中，然后對(duì)其他網(wǎng)頁(yè)進(jìn)行同樣的操作。

如果爬蟲(chóng)正在分析的網(wǎng)頁(yè)中有一些鏈接，那么爬蟲(chóng)將會(huì)根據(jù)這些鏈接分析更多的頁(yè)面。

搜索引擎就是基于這樣的原理實(shí)現(xiàn)的。

這篇文章中，我特別選了一個(gè)穩(wěn)定的、”年輕”的開(kāi)源項(xiàng)目pyspider，它是由 binux 編碼實(shí)現(xiàn)的。
注：據(jù)認(rèn)為pyspider持續(xù)監(jiān)控網(wǎng)絡(luò)，它假定網(wǎng)頁(yè)在一段時(shí)間后會(huì)發(fā)生變化，因此一段時(shí)間后它將會(huì)重新訪(fǎng)問(wèn)相同的網(wǎng)頁(yè)。
概述
爬蟲(chóng)pyspider主要由四個(gè)組件組成。包括調(diào)度程序（scheduler），抓取程序（fetcher），內(nèi)容處理程序（processor）以及一個(gè)監(jiān)控組件。
調(diào)度程序接受任務(wù)并決定該做什么。這里有幾種可能性，它可以丟棄一個(gè)任務(wù)（可能這個(gè)特定的網(wǎng)頁(yè)剛剛被抓取過(guò)了），或者給任務(wù)分配不同的優(yōu)先級(jí)。
當(dāng)各個(gè)任務(wù)的優(yōu)先級(jí)確定之后，它們被傳入抓取程序。它重新抓取網(wǎng)頁(yè)。這個(gè)過(guò)程很復(fù)雜，但邏輯上比較簡(jiǎn)單。
當(dāng)網(wǎng)絡(luò)上的資源被抓取下來(lái)，內(nèi)容處理程序就負(fù)責(zé)抽取有用的信息。它運(yùn)行一個(gè)用戶(hù)編寫(xiě)的Python腳本，這個(gè)腳本并不像沙盒一樣被隔離。它的職責(zé)還包括捕獲異?；蛉罩荆⑦m當(dāng)?shù)毓芾硭鼈儭?br /> 最后，爬蟲(chóng)pyspider中有一個(gè)監(jiān)控組件。
爬蟲(chóng)pyspider提供一個(gè)異常強(qiáng)大的網(wǎng)頁(yè)界面（web ui），它允許你編輯和調(diào)試你的腳本，管理整個(gè)抓取過(guò)程，監(jiān)控正在進(jìn)行的任務(wù)，并最終輸出結(jié)果。
項(xiàng)目和任務(wù)
在pyspider中，我們有項(xiàng)目和任務(wù)的概念。
一個(gè)任務(wù)指的是一個(gè)需要從網(wǎng)站檢索并進(jìn)行分析的單獨(dú)頁(yè)面。
一個(gè)項(xiàng)目指的是一個(gè)更大的實(shí)體，它包括爬蟲(chóng)涉及到的所有頁(yè)面，分析網(wǎng)頁(yè)所需要的python腳本，以及用于存儲(chǔ)數(shù)據(jù)的數(shù)據(jù)庫(kù)等等。
在pyspider中我們可以同時(shí)運(yùn)行多個(gè)項(xiàng)目。
代碼結(jié)構(gòu)分析
根目錄
在根目錄中可以找到的文件夾有：
    data，空文件夾，它是存放由爬蟲(chóng)所生成的數(shù)據(jù)的地方。
    docs，包含該項(xiàng)目文檔，里邊有一些markdown代碼。
    pyspider，包含項(xiàng)目實(shí)際的代碼。
    test，包含相當(dāng)多的測(cè)試代碼。
    這里我將重點(diǎn)介紹一些重要的文件：
    .travis.yml，一個(gè)很棒的、連續(xù)性測(cè)試的整合。你如何確定你的項(xiàng)目確實(shí)有效？畢竟僅在你自己的帶有固定版本的庫(kù)的機(jī)器上進(jìn)行測(cè)試是不夠的。
    Dockerfile，同樣很棒的工具！如果我想在我的機(jī)器上嘗試一個(gè)項(xiàng)目，我只需要運(yùn)行Docker，我不需要手動(dòng)安裝任何東西，這是一個(gè)使開(kāi)發(fā)者參與到你的項(xiàng)目中的很好的方式。
    LICENSE，對(duì)于任何開(kāi)源項(xiàng)目都是必需的，（如果你自己有開(kāi)源項(xiàng)目的話(huà)）不要忘記自己項(xiàng)目中的該文件。
    requirements.txt，在Python世界中，該文件用于指明為了運(yùn)行該軟件，需要在你的系統(tǒng)中安裝什么Python包，在任何的Python項(xiàng)目中該文件都是必須的。
    run.py，該軟件的主入口點(diǎn)。
    setup.py，該文件是一個(gè)Python腳本，用于在你的系統(tǒng)中安裝pyspider項(xiàng)目。
已經(jīng)分析完項(xiàng)目的根目錄了，僅根目錄就能說(shuō)明該項(xiàng)目是以一種非常專(zhuān)業(yè)的方式進(jìn)行開(kāi)發(fā)的。如果你正在開(kāi)發(fā)任何的開(kāi)源程序，希望你能達(dá)到這樣的水準(zhǔn)。
文件夾pyspider
讓我們更深入一點(diǎn)兒，一起來(lái)分析實(shí)際的代碼。
在這個(gè)文件夾中還能找到其他的文件夾，整個(gè)軟件背后的邏輯已經(jīng)被分割，以便更容易的進(jìn)行管理和擴(kuò)展。
這些文件夾是：database、fetcher、libs、processor、result、scheduler、webui。
在這個(gè)文件夾中我們也能找到整個(gè)項(xiàng)目的主入口點(diǎn)，run.py。
文件run.py
這個(gè)文件首先完成所有必需的雜事，以保證爬蟲(chóng)成功地運(yùn)行。最終它產(chǎn)生所有必需的計(jì)算單元。向下滾動(dòng)我們可以看到整個(gè)項(xiàng)目的入口點(diǎn)，cli()。
函數(shù)cli()
這個(gè)函數(shù)好像很復(fù)雜，但與我相隨，你會(huì)發(fā)現(xiàn)它并沒(méi)有你想象中復(fù)雜。函數(shù)cli()的主要目的是創(chuàng)建數(shù)據(jù)庫(kù)和消息系統(tǒng)的所有連接。它主要解析命令行參數(shù)，并利用所有我們需要的東西創(chuàng)建一個(gè)大字典。最后，我們通過(guò)調(diào)用函數(shù)all()開(kāi)始真正的工作。
函數(shù)all()
一個(gè)網(wǎng)絡(luò)爬蟲(chóng)會(huì)進(jìn)行大量的IO操作，因此一個(gè)好的想法是產(chǎn)生不同的線(xiàn)程或子進(jìn)程來(lái)管理所有的這些工作。通過(guò)這種方式，你可以在等待網(wǎng)絡(luò)獲取你當(dāng)前html頁(yè)面的同時(shí)，提取前一個(gè)頁(yè)面的有用信息。
函數(shù)all()決定是否運(yùn)行子進(jìn)程或者線(xiàn)程，然后調(diào)用不同的線(xiàn)程或子進(jìn)程里的所有的必要函數(shù)。這時(shí)pyspider將產(chǎn)生包括webui在內(nèi)的，爬蟲(chóng)的所有邏輯模塊所需要的，足夠數(shù)量的線(xiàn)程。當(dāng)我們完成項(xiàng)目并關(guān)閉webui時(shí)，我們將干凈漂亮地關(guān)閉每一個(gè)進(jìn)程。
現(xiàn)在我們的爬蟲(chóng)就開(kāi)始運(yùn)行了，讓我們進(jìn)行更深入一點(diǎn)兒的探索。
調(diào)度程序
調(diào)度程序從兩個(gè)不同的隊(duì)列中獲取任務(wù)（newtask_queue和status_queue），并把任務(wù)加入到另外一個(gè)隊(duì)列（out_queue），這個(gè)隊(duì)列稍后會(huì)被抓取程序讀取。
調(diào)度程序做的第一件事情是從數(shù)據(jù)庫(kù)中加載所需要完成的所有的任務(wù)。之后，它開(kāi)始一個(gè)無(wú)限循環(huán)。在這個(gè)循環(huán)中會(huì)調(diào)用幾個(gè)方法：

1._update_projects()：嘗試更新的各種設(shè)置，例如，我們想在爬蟲(chóng)工作的時(shí)候調(diào)整爬取速度。

2._check_task_done()：分析已完成的任務(wù)并將其保存到數(shù)據(jù)庫(kù)，它從status_queue中獲取任務(wù)。

3._check_request()：如果內(nèi)容處理程序要求分析更多的頁(yè)面，把這些頁(yè)面放在隊(duì)列newtask_queue中，該函數(shù)會(huì)從該隊(duì)列中獲得新的任務(wù)。

4._check_select()：把新的網(wǎng)頁(yè)加入到抓取程序的隊(duì)列中。

5._check_delete()：刪除已被用戶(hù)標(biāo)記的任務(wù)和項(xiàng)目。

6._try_dump_cnt()：記錄一個(gè)文件中已完成任務(wù)的數(shù)量。對(duì)于防止程序異常所導(dǎo)致的數(shù)據(jù)丟失，這是有必要的。
def run(self):

while not self._quit:

try:

   time.sleep(self.LOOP_INTERVAL)

   self._update_projects()

   self._check_task_done()

   self._check_request()

   while self._check_cronjob():

    pass

   self._check_select()

   self._check_delete()

   self._try_dump_cnt()

   self._exceptions = 0

except KeyboardInterrupt:

   break

except Exception as e:

   logger.exception(e)

   self._exceptions += 1

   if self._exceptions > self.EXCEPTION_LIMIT:

    break

   continue

循環(huán)也會(huì)檢查運(yùn)行過(guò)程中的異常，或者我們是否要求python停止處理。
finally:

# exit components run in subprocess

for each in threads:

if not each.is_alive():

   continue

if hasattr(each, 'terminate'):

   each.terminate()

each.join()
抓取程序
抓取程序的目的是檢索網(wǎng)絡(luò)資源。
pyspider能夠處理普通HTML文本頁(yè)面和基于AJAX的頁(yè)面。只有抓取程序能意識(shí)到這種差異，了解這一點(diǎn)非常重要。我們將僅專(zhuān)注于普通的html文本抓取，然而大部分的想法可以很容易地移植到Ajax抓取器。
這里的想法在某種形式上類(lèi)似于調(diào)度程序，我們有分別用于輸入和輸出的兩個(gè)隊(duì)列，以及一個(gè)大的循環(huán)。對(duì)于輸入隊(duì)列中的所有元素，抓取程序生成一個(gè)請(qǐng)求，并將結(jié)果放入輸出隊(duì)列中。
它聽(tīng)起來(lái)簡(jiǎn)單但有一個(gè)大問(wèn)題。網(wǎng)絡(luò)通常是極其緩慢的，如果因?yàn)榈却粋€(gè)網(wǎng)頁(yè)而阻止了所有的計(jì)算，那么整個(gè)過(guò)程將會(huì)運(yùn)行的極其緩慢。解決方法非常的簡(jiǎn)單，即不要在等待網(wǎng)絡(luò)的時(shí)候阻塞所有的計(jì)算。這個(gè)想法即在網(wǎng)絡(luò)上發(fā)送大量消息，并且相當(dāng)一部分消息是同時(shí)發(fā)送的，然后異步等待響應(yīng)的返回。一旦我們收回一個(gè)響應(yīng)，我們將會(huì)調(diào)用另外的回調(diào)函數(shù)，回調(diào)函數(shù)將會(huì)以最適合的方式管理這樣的響應(yīng)。
現(xiàn)在我們的腦海里已經(jīng)有了極好的想法了，讓我們更深入地探索這是如何實(shí)現(xiàn)的。
def run(self):
def queue_loop():
if not self.outqueue or not self.inqueue:
   return
while not self._quit:
   try:
    if self.outqueue.full():
     break
    task = self.inqueue.get_nowait()
    task = utils.decode_unicode_obj(task)
    self.fetch(task)
   except queue.Empty:
    break
tornado.ioloop.PeriodicCallback(queue_loop, 100, io_loop=self.ioloop).start()
self._running = True
self.ioloop.start()

函數(shù)run()
函數(shù)run()是抓取程序fetcher中的一個(gè)大的循環(huán)程序。
函數(shù)run()中定義了另外一個(gè)函數(shù)queue_loop()，該函數(shù)接收輸入隊(duì)列中的所有任務(wù)，并抓取它們。同時(shí)該函數(shù)也監(jiān)聽(tīng)中斷信號(hào)。函數(shù)queue_loop()作為參數(shù)傳遞給tornado的類(lèi)PeriodicCallback，如你所猜，PeriodicCallback會(huì)每隔一段具體的時(shí)間調(diào)用一次queue_loop()函數(shù)。函數(shù)queue_loop()也會(huì)調(diào)用另一個(gè)能使我們更接近于實(shí)際檢索Web資源操作的函數(shù)：fetch()。
函數(shù)fetch(self, task, callback=None)
網(wǎng)絡(luò)上的資源必須使用函數(shù)phantomjs_fetch()或簡(jiǎn)單的http_fetch()函數(shù)檢索，函數(shù)fetch()只決定檢索該資源的正確方法是什么。接下來(lái)我們看一下函數(shù)http_fetch()。
函數(shù)http_fetch(self, url, task, callback)
def http_fetch(self, url, task, callback):
'''HTTP fetcher'''
fetch = copy.deepcopy(self.default_options)
fetch['url'] = url
fetch['headers']['User-Agent'] = self.user_agent

def handle_response(response):
...
return task, result

try:
request = tornado.httpclient.HTTPRequest(header_callback=header_callback, **fetch)
if self.async:
   self.http_client.fetch(request, handle_response)
else:
   return handle_response(self.http_client.fetch(request))
終于，這里才是完成真正工作的地方。這個(gè)函數(shù)的代碼有點(diǎn)長(zhǎng)，但有清晰的結(jié)構(gòu)，容易閱讀。
在函數(shù)的開(kāi)始部分，它設(shè)置了抓取請(qǐng)求的header，比如User-Agent、超時(shí)timeout等等。然后定義一個(gè)處理響應(yīng)response的函數(shù)：handle_response()，后邊我們會(huì)分析這個(gè)函數(shù)。最后我們得到一個(gè)tornado的請(qǐng)求對(duì)象request，并發(fā)送這個(gè)請(qǐng)求對(duì)象。請(qǐng)注意在異步和非異步的情況下，是如何使用相同的函數(shù)來(lái)處理響應(yīng)response的。
讓我們往回看一下，分析一下函數(shù)handle_response()做了什么。
函數(shù)handle_response(response)
def handle_response(response):
result = {}
result['orig_url'] = url
result['content'] = response.body or ''
callback('http', task, result)
return task, result
這個(gè)函數(shù)以字典的形式保存一個(gè)response的所有相關(guān)信息，例如url，狀態(tài)碼和實(shí)際響應(yīng)等，然后調(diào)用回調(diào)函數(shù)。這里的回調(diào)函數(shù)是一個(gè)小方法：send_result()。
函數(shù)send_result(self, type, task, result)
def send_result(self, type, task, result):
if self.outqueue:
self.outqueue.put((task, result))
這個(gè)最后的函數(shù)將結(jié)果放入到輸出隊(duì)列中，等待內(nèi)容處理程序processor的讀取。
內(nèi)容處理程序processor
內(nèi)容處理程序的目的是分析已經(jīng)抓取回來(lái)的頁(yè)面。它的過(guò)程同樣也是一個(gè)大循環(huán)，但輸出中有三個(gè)隊(duì)列（status_queue, newtask_queue 以及result_queue）而輸入中只有一個(gè)隊(duì)列（inqueue）。
讓我們稍微深入地分析一下函數(shù)run()中的循環(huán)過(guò)程。
函數(shù)run(self)
def run(self):
try:
task, response = self.inqueue.get(timeout=1)
self.on_task(task, response)
self._exceptions = 0
except KeyboardInterrupt:
break
except Exception as e:
self._exceptions += 1
if self._exceptions > self.EXCEPTION_LIMIT:
   break
continue
這個(gè)函數(shù)的代碼比較少，易于理解，它簡(jiǎn)單地從隊(duì)列中得到需要被分析的下一個(gè)任務(wù)，并利用on_task(task, response)函數(shù)對(duì)其進(jìn)行分析。這個(gè)循環(huán)監(jiān)聽(tīng)中斷信號(hào)，只要我們給Python發(fā)送這樣的信號(hào)，這個(gè)循環(huán)就會(huì)終止。最后這個(gè)循環(huán)統(tǒng)計(jì)它引發(fā)的異常的數(shù)量，異常數(shù)量過(guò)多會(huì)終止這個(gè)循環(huán)。
函數(shù)on_task(self, task, response)
def on_task(self, task, response):
response = rebuild_response(response)
project = task['project']
project_data = self.project_manager.get(project, updatetime)
ret = project_data['instance'].run(

status_pack = {
'taskid': task['taskid'],
'project': task['project'],
'url': task.get('url'),
...
}
self.status_queue.put(utils.unicode_obj(status_pack))
if ret.follows:
self.newtask_queue.put(
   [utils.unicode_obj(newtask) for newtask in ret.follows])

for project, msg, url in ret.messages:
self.inqueue.put(({...},{...}))

return True
函數(shù)on_task()是真正干活的方法。
它嘗試?yán)幂斎氲娜蝿?wù)找到任務(wù)所屬的項(xiàng)目。然后它運(yùn)行項(xiàng)目中的定制腳本。最后它分析定制腳本返回的響應(yīng)response。如果一切順利，將會(huì)創(chuàng)建一個(gè)包含所有我們從網(wǎng)頁(yè)上得到的信息的字典。最后將字典放到隊(duì)列status_queue中，稍后它會(huì)被調(diào)度程序重新使用。
如果在分析的頁(yè)面中有一些新的鏈接需要處理，新鏈接會(huì)被放入到隊(duì)列newtask_queue中，并在稍后被調(diào)度程序使用。
現(xiàn)在，如果有需要的話(huà)，pyspider會(huì)將結(jié)果發(fā)送給其他項(xiàng)目。
最后如果發(fā)生了一些錯(cuò)誤，像頁(yè)面返回錯(cuò)誤，錯(cuò)誤信息會(huì)被添加到日志中。