国产精品久久久久一区二区三区共,国产成人午夜福利高清在线观看,中文字幕日本最新乱码视频

馬錦濤

2021-01-25 閱讀量: 460

Scrapy基本構(gòu)成？

(1)、調(diào)度器(Scheduler):

調(diào)度器，說(shuō)白了把它假設(shè)成為一個(gè)URL（抓取網(wǎng)頁(yè)的網(wǎng)址或者說(shuō)是鏈接）的優(yōu)先隊(duì)列，由它來(lái)決定下一個(gè)要抓取的網(wǎng)址是什么，同時(shí)去除重復(fù)的網(wǎng)址（不做無(wú)用功）。用戶(hù)可以自己的需求定制調(diào)度器。

(2)、下載器(Downloader):

下載器，是所有組件中負(fù)擔(dān)最大的，它用于高速地下載網(wǎng)絡(luò)上的資源。Scrapy的下載器代碼不會(huì)太復(fù)雜，但效率高，主要的原因是Scrapy下載器是建立在twisted這個(gè)高效的異步模型上的(其實(shí)整個(gè)框架都在建立在這個(gè)模型上的)。

(3)、爬蟲(chóng)（Spider）:

爬蟲(chóng)，是用戶(hù)最關(guān)心的部份。用戶(hù)定制自己的爬蟲(chóng)(通過(guò)定制正則表達(dá)式等語(yǔ)法)，用于從特定的網(wǎng)頁(yè)中提取自己需要的信息，即所謂的實(shí)體(Item)。用戶(hù)也可以從中提取出鏈接,讓Scrapy繼續(xù)抓取下一個(gè)頁(yè)面。

(4)、實(shí)體管道(Item Pipeline):

實(shí)體管道，用于處理爬蟲(chóng)(spider)提取的實(shí)體。主要的功能是持久化實(shí)體、驗(yàn)證實(shí)體的有效性、清除不需要的信息。

(5)、Scrapy引擎(Scrapy Engine):