2020无码专区人妻系列日韩,国产精品亚洲一区二区z

馬錦濤

2021-01-25 閱讀量: 488

Scrapy執(zhí)行流程

第①步：爬蟲（Spider）使用URL（要爬取頁面的網(wǎng)址）構(gòu)造一個(gè)請(qǐng)求（Request）對(duì)象，提交給引擎（ENGINE）。如果請(qǐng)求要偽裝成瀏覽器，或者設(shè)置代理IP，可以先在爬蟲中間件中設(shè)置，再發(fā)送給引擎。

第②步：引擎將請(qǐng)求安排給調(diào)度器，調(diào)度器根據(jù)請(qǐng)求的優(yōu)先級(jí)確定執(zhí)行順序。

第③步：引擎從調(diào)度器獲取即將要執(zhí)行的請(qǐng)求。

第④步：引擎通過下載器中間件，將請(qǐng)求發(fā)送給下載器下載頁面。

第⑤步：頁面完成下載后，下載器會(huì)生成一個(gè)響應(yīng)（Response）對(duì)象并將其發(fā)送給引擎。下載后的數(shù)據(jù)會(huì)保存于響應(yīng)對(duì)象中。

第⑥步：引擎接收來自下載器的響應(yīng)對(duì)象后，通過爬蟲中間件，將其發(fā)送給爬蟲（Spider）進(jìn)行處理。

第⑦步：爬蟲將抽取到的一條數(shù)據(jù)實(shí)體（Item）和新的請(qǐng)求（如下一頁的鏈接）發(fā)送給引擎。

第⑧步：引擎將從爬蟲獲取到的Item發(fā)送給項(xiàng)目管道（ITEM PIPELINES），項(xiàng)目管道實(shí)現(xiàn)數(shù)據(jù)持久化等功能。同時(shí)將新的請(qǐng)求發(fā)送給調(diào)度器，再從第②步開始重復(fù)執(zhí)行，直到調(diào)度器中沒有更多的請(qǐng)求，引擎關(guān)閉該網(wǎng)站。