文章詳情頁

Python爬蟲基礎(chǔ)之簡單說一下scrapy的框架結(jié)構(gòu)

瀏覽：198日期：2022-06-15 17:22:21

scrapy 框架結(jié)構(gòu)

思考

scrapy 為什么是框架而不是庫? scrapy是如何工作的?項目結(jié)構(gòu)

在開始爬取之前，必須創(chuàng)建一個新的Scrapy項目。進入您打算存儲代碼的目錄中，運行下列命令:

注意:創(chuàng)建項目時，會在當前目錄下新建爬蟲項目的目錄。

這些文件分別是:

scrapy.cfg:項目的配置文件 quotes/:該項目的python模塊。之后您將在此加入代碼 quotes/items.py:項目中的item文件 quotes/middlewares.py:爬蟲中間件、下載中間件(處理請求體與響應體) quotes/pipelines.py:項目中的pipelines文件 quotes/settings.py:項目的設(shè)置文件 quotes/spiders/:放置spider代碼的目錄Scrapy原理圖

Python爬蟲基礎(chǔ)之簡單說一下scrapy的框架結(jié)構(gòu)

各個組件的介紹

1.Engine。引擎,處理整個系統(tǒng)的數(shù)據(jù)流處理、觸發(fā)事務,是整個框架的核心。

2.ltem。項目,它定義了爬取結(jié)果的數(shù)據(jù)結(jié)構(gòu),爬取的數(shù)據(jù)會被賦值成該ltem對象。

3.Scheduler。調(diào)度器,接受引擎發(fā)過來的請求并將其加入隊列中,在引擎再次請求的時候?qū)⒄埱筇峁┙o引擎。

4.Downloader。下載器,下載網(wǎng)頁內(nèi)容,并將網(wǎng)頁內(nèi)容返回給蜘蛛。

5.Spiders。蜘蛛,其內(nèi)定義了爬取的邏輯和網(wǎng)頁的解析規(guī)則,它主要負責解析響應并生成提結(jié)果和新的請求。

6.Item Pipeline。項目管道,負責處理由蜘蛛從網(wǎng)頁中抽取的項目,它的主要任務是清洗、驗證和存儲數(shù)據(jù)。

7.Downloader Middlewares。下載器中間件,位于引擎和下載器之間的鉤子框架,主要處理引擎與下載器之間的請求及響應。

8.Spider Middlewares。蜘蛛中間件,位于引擎和蜘蛛之間的鉤子框架,主要處理蜘蛛輸入的響應和輸出的結(jié)果及新的請求。

Python爬蟲基礎(chǔ)之簡單說一下scrapy的框架結(jié)構(gòu)

數(shù)據(jù)的流動 Scrapy Engine(引擎):負責Spider、ltemPipeline、Downloader、Scheduler中間的通訊，信號、數(shù)據(jù)傳遞等。 Scheduler(調(diào)度器):負責接受引擎發(fā)送過來的Request請求，并按照一定的方式進行整理排列，入隊，當引擎需要時，交還給引擎。 Downloader(下載器):負責下載Scrapy Engine(引擎)發(fā)送的所有Requests請求，并將其獲取到的Responses交還給Scrapy Engine(引擎)，由引擎交給Spider來處理， Spider(爬蟲)?負責處理所有Responses,從中分析提取數(shù)據(jù)，獲取ltem字段需要的數(shù)據(jù)，并將需要跟進的URL提交給引擎，再次進入Scheduler(調(diào)度器)， ltem Pipeline(管道):負責處理Spider中獲取到的ltem，并進行進行后期處理(詳細分析、過濾、存儲等）的地方. Downloader Middlewares(下載中間件):你可以當作是一個可以自定義擴展下載功能的組件。 Spider Middlewares(Spider中間件):你可以理解為是一個可以自定擴展和操作引擎和Spider中間通信的功能組件（比如進入Spider的Responses;和從Spider出去的Requests)

到此這篇關(guān)于Python爬蟲基礎(chǔ)之簡單說一下scrapy的框架結(jié)構(gòu)的文章就介紹到這了,更多相關(guān)scrapy的框架結(jié)構(gòu)內(nèi)容請搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)！

Python 編程

上一條：Python實戰(zhàn)之OpenCV實現(xiàn)貓臉檢測下一條：Python爬蟲基礎(chǔ)之初次使用scrapy爬蟲實例

相關(guān)文章：

1. PHP使用Swagger生成好看的API文檔2. ASP.NET MVC使用jQuery ui的progressbar實現(xiàn)進度條3. Python3 json模塊之編碼解碼方法講解4. Python 制作查詢商品歷史價格的小工具5. Python 如何調(diào)試程序崩潰錯誤6. Python 利用Entrez庫篩選下載PubMed文獻摘要的示例7. ASP基礎(chǔ)知識VBScript基本元素講解8. python使用jenkins發(fā)送企業(yè)微信通知的實現(xiàn)9. Python sublime安裝及配置過程詳解10. Python 合并拼接字符串的方法

排行榜

					
					Android 簡單的實現(xiàn)滑塊拼圖驗證碼功能
Java源碼解析之SortedMap和NavigableMap
ASP.NET MVC使用jQuery ui的progressbar實現(xiàn)進度條
Django 模板中常用的過濾器實現(xiàn)
Java 生成隨機驗證碼圖片的示例
Android打包篇:Android Studio將代碼打包成jar包教程
springboot配置Jackson返回統(tǒng)一默認值的實現(xiàn)示例
淺談django不使用restframework自定義接口與使用的區(qū)別
樹型結(jié)構(gòu)列出指定目錄里所有文件的PHP類
Linux刪除系統(tǒng)自帶版本Python過程詳解
ASP基礎(chǔ)知識VBScript基本元素講解