第①步:爬蟲(Spider)使用URL(要爬取頁面的網(wǎng)址)構(gòu)造一個(gè)請(qǐng)求(Request)對(duì)象,提交給引擎(ENGINE)。如果請(qǐng)求要偽裝成瀏覽器,或者設(shè)置代理IP,可以先在爬蟲中間件中設(shè)置,再發(fā)送給引擎。
第②步:引擎將請(qǐng)求安排給調(diào)度器,調(diào)度器根據(jù)請(qǐng)求的優(yōu)先級(jí)確定執(zhí)行順序。
第③步:引擎從調(diào)度器獲取即將要執(zhí)行的請(qǐng)求。
第④步:引擎通過下載器中間件,將請(qǐng)求發(fā)送給下載器下載頁面。
第⑤步:頁面完成下載后,下載器會(huì)生成一個(gè)響應(yīng)(Response)對(duì)象并將其發(fā)送給引擎。下載后的數(shù)據(jù)會(huì)保存于響應(yīng)對(duì)象中。
第⑥步:引擎接收來自下載器的響應(yīng)對(duì)象后,通過爬蟲中間件,將其發(fā)送給爬蟲(Spider)進(jìn)行處理。
第⑦步:爬蟲將抽取到的一條數(shù)據(jù)實(shí)體(Item)和新的請(qǐng)求(如下一頁的鏈接)發(fā)送給引擎。
第⑧步:引擎將從爬蟲獲取到的Item發(fā)送給項(xiàng)目管道(ITEM PIPELINES),項(xiàng)目管道實(shí)現(xiàn)數(shù)據(jù)持久化等功能。同時(shí)將新的請(qǐng)求發(fā)送給調(diào)度器,再從第②步開始重復(fù)執(zhí)行,直到調(diào)度器中沒有更多的請(qǐng)求,引擎關(guān)閉該網(wǎng)站。








暫無數(shù)據(jù)