文章詳情頁(yè)

Python并發(fā)爬蟲(chóng)常用實(shí)現(xiàn)方法解析

瀏覽：26日期：2022-07-04 18:17:43

在進(jìn)行單個(gè)爬蟲(chóng)抓取的時(shí)候，我們不可能按照一次抓取一個(gè)url的方式進(jìn)行網(wǎng)頁(yè)抓取，這樣效率低，也浪費(fèi)了cpu的資源。目前python上面進(jìn)行并發(fā)抓取的實(shí)現(xiàn)方式主要有以下幾種：進(jìn)程，線程，協(xié)程。進(jìn)程不在的討論范圍之內(nèi)，一般來(lái)說(shuō)，進(jìn)程是用來(lái)開(kāi)啟多個(gè)spider，比如我們開(kāi)啟了4進(jìn)程，同時(shí)派發(fā)4個(gè)spider進(jìn)行網(wǎng)絡(luò)抓取，每個(gè)spider同時(shí)抓取4個(gè)url。

所以，我們今天討論的是，在單個(gè)爬蟲(chóng)的情況下，盡可能的在同一個(gè)時(shí)間并發(fā)抓取，并且抓取的效率要高。

一.順序抓取

順序抓取是最最常見(jiàn)的抓取方式，一般初學(xué)爬蟲(chóng)的朋友就是利用這種方式，下面是一個(gè)測(cè)試代碼，順序抓取8個(gè)url，我們可以來(lái)測(cè)試一下抓取完成需要多少時(shí)間：

我們直接采用內(nèi)建的time.time()來(lái)計(jì)時(shí)，較為粗略，但可以反映大概的情況。下面是順序抓取的結(jié)果計(jì)時(shí)：

Python并發(fā)爬蟲(chóng)常用實(shí)現(xiàn)方法解析

可以從圖片中看到，顯示的順序與urls的順序是一模一樣的，總共耗時(shí)為7.763269901275635秒，一共8個(gè)url，平均抓取一個(gè)大概需要0.97秒。總體來(lái)看，還可以接受。

二.多線程抓取

線程是python內(nèi)的一種較為不錯(cuò)的并發(fā)方式，我們也給出相應(yīng)的代碼，并且為每個(gè)url創(chuàng)建了一個(gè)線程，一共8線程并發(fā)抓取，下面的代碼：

下面是我們運(yùn)行8線程的測(cè)試代碼：

多線程抓住的時(shí)間如下：

Python并發(fā)爬蟲(chóng)常用實(shí)現(xiàn)方法解析

可以看到相較于順序抓取，8線程的抓取效率明顯上升了3倍多，全部完成只消耗了2.154秒。可以看到顯示的結(jié)果已經(jīng)不是urls的順序了，說(shuō)明每個(gè)url各自完成的時(shí)間都是不一樣的。線程就是在一個(gè)進(jìn)程中不斷的切換，讓每個(gè)線程各自運(yùn)行一會(huì)，這對(duì)于網(wǎng)絡(luò)io來(lái)說(shuō)，性能是非常高的。但是線程之間的切換是挺浪費(fèi)資源的。

三.gevent并發(fā)抓取

gevent是一種輕量級(jí)的協(xié)程，可用它來(lái)代替線程，而且，他是在一個(gè)線程中運(yùn)行，機(jī)器資源的損耗比線程低很多。如果遇到了網(wǎng)絡(luò)io阻塞，會(huì)馬上切換到另一個(gè)程序中去運(yùn)行，不斷的輪詢(xún)，來(lái)降低抓取的時(shí)間下面是測(cè)試代碼：

協(xié)程的抓取時(shí)間如下：

Python并發(fā)爬蟲(chóng)常用實(shí)現(xiàn)方法解析

正常情況下，gevent的并發(fā)抓取與多線程的消耗時(shí)間差不了多少，但是可能是我網(wǎng)絡(luò)的原因，或者機(jī)器的性能的原因，時(shí)間有點(diǎn)長(zhǎng)......,請(qǐng)各位小主在自己電腦進(jìn)行跑一下看運(yùn)行時(shí)間

四.基于tornado的coroutine并發(fā)抓取

tornado中的coroutine是python中真正意義上的協(xié)程，與python3中的asyncio幾乎是完全一樣的，而且兩者之間的future是可以相互轉(zhuǎn)換的，tornado中有與asyncio相兼容的接口。下面是利用tornado中的coroutine進(jìn)行并發(fā)抓取的代碼：

利用coroutine編寫(xiě)并發(fā)略顯復(fù)雜，但這是推薦的寫(xiě)法，如果你使用的是python3，強(qiáng)烈建議你使用coroutine來(lái)編寫(xiě)并發(fā)抓取。

下面是測(cè)試代碼：

HEADERS = {’Accept’: ’text/html,application/xhtml+xml,application/xml;q=0.9’, ’Accept-Language’: ’zh-CN,zh;q=0.8’, ’Accept-Encoding’: ’gzip, deflate’,}URLS = [’http://www.cnblogs.com/moodlxs/p/3248890.html’, ’https://www.zhihu.com/topic/19804387/newest’, ’http://blog.csdn.net/yueguanghaidao/article/details/24281751’, ’https://my.oschina.net/visualgui823/blog/36987’, ’http://blog.chinaunix.net/uid-9162199-id-4738168.html’, ’http://www.tuicool.com/articles/u67Bz26’, ’http://rfyiamcool.blog.51cto.com/1030776/1538367/’, ’http://itindex.net/detail/26512-flask-tornado-gevent’]import timefrom tornado.gen import coroutinefrom tornado.ioloop import IOLoopfrom tornado.httpclient import AsyncHTTPClient, HTTPErrorfrom tornado.httpclient import HTTPRequest#urls與前面相同class MyClass(object): def __init__(self): #AsyncHTTPClient.configure('tornado.curl_httpclient.CurlAsyncHTTPClient') self.http = AsyncHTTPClient() @coroutine def get(self, url): #tornado會(huì)自動(dòng)在請(qǐng)求首部帶上host首部 request = HTTPRequest(url=url, method=’GET’, headers=HEADERS, connect_timeout=2.0, request_timeout=2.0, follow_redirects=False, max_redirects=False, user_agent='Mozilla/5.0+(Windows+NT+6.2;+WOW64)+AppleWebKit/537.36+ (KHTML,+like+Gecko)+Chrome/45.0.2454.101+Safari/537.36',) yield self.http.fetch(request, callback=self.find, raise_error=False) def find(self, response): if response.error: print(response.error) print(response.code, response.effective_url, response.request_time)class Download(object): def __init__(self): self.a = MyClass() self.urls = URLS @coroutine def d(self): print(u’基于tornado的并發(fā)抓取’) starttime = time.time() yield [self.a.get(url) for url in self.urls] endtime=time.time() print(endtime-starttime)if __name__ == ’__main__’: dd = Download() loop = IOLoop.current() loop.run_sync(dd.d)

抓取的時(shí)間如下：

Python并發(fā)爬蟲(chóng)常用實(shí)現(xiàn)方法解析

可以看到總共花費(fèi)了128087秒，而這所花費(fèi)的時(shí)間恰恰就是最后一個(gè)url抓取所需要的時(shí)間，tornado中自帶了查看每個(gè)請(qǐng)求的相應(yīng)時(shí)間。我們可以從圖中看到，最后一個(gè)url抓取總共花了1.28087秒，相較于其他時(shí)間大大的增加，這也是導(dǎo)致我們消耗時(shí)間過(guò)長(zhǎng)的原因。那可以推斷出，前面的并發(fā)抓取，也在這個(gè)url上花費(fèi)了較多的時(shí)間。

總結(jié)：

以上測(cè)試其實(shí)非常的不嚴(yán)謹(jǐn)，因?yàn)槲覀冞x取的url的數(shù)量太少了，完全不能反映每一種抓取方式的優(yōu)劣。如果有一萬(wàn)個(gè)不同的url同時(shí)抓取，那么記下總抓取時(shí)間，是可以得出一個(gè)較為客觀的結(jié)果的。

并且，已經(jīng)有人測(cè)試過(guò)，多線程抓取的效率是遠(yuǎn)不如gevent的。所以，如果你使用的是python2，那么我推薦你使用gevent進(jìn)行并發(fā)抓取；如果你使用的是python3，我推薦你使用tornado的http客戶(hù)端結(jié)合coroutine進(jìn)行并發(fā)抓取。從上面的結(jié)果來(lái)看，tornado的coroutine是高于gevent的輕量級(jí)的協(xié)程的。但具體結(jié)果怎樣，我沒(méi)測(cè)試過(guò)。

以上就是本文的全部?jī)?nèi)容，希望對(duì)大家的學(xué)習(xí)有所幫助，也希望大家多多支持好吧啦網(wǎng)。

Python 編程

上一條：python 刪除系統(tǒng)中的文件(按時(shí)間,大小,擴(kuò)展名)下一條：Python類(lèi)class參數(shù)self原理解析

相關(guān)文章：

1. PHP使用Swagger生成好看的API文檔2. Python 如何調(diào)試程序崩潰錯(cuò)誤3. Python3 json模塊之編碼解碼方法講解4. Python 利用Entrez庫(kù)篩選下載PubMed文獻(xiàn)摘要的示例5. ASP.NET MVC使用jQuery ui的progressbar實(shí)現(xiàn)進(jìn)度條6. ASP基礎(chǔ)知識(shí)VBScript基本元素講解7. Python 制作查詢(xún)商品歷史價(jià)格的小工具8. python使用jenkins發(fā)送企業(yè)微信通知的實(shí)現(xiàn)9. Python sublime安裝及配置過(guò)程詳解10. Python 合并拼接字符串的方法

排行榜

					
					Android 簡(jiǎn)單的實(shí)現(xiàn)滑塊拼圖驗(yàn)證碼功能
Java源碼解析之SortedMap和NavigableMap
ASP.NET MVC使用jQuery ui的progressbar實(shí)現(xiàn)進(jìn)度條
Django 模板中常用的過(guò)濾器實(shí)現(xiàn)
Java 生成隨機(jī)驗(yàn)證碼圖片的示例
Android打包篇:Android Studio將代碼打包成jar包教程
springboot配置Jackson返回統(tǒng)一默認(rèn)值的實(shí)現(xiàn)示例
淺談django不使用restframework自定義接口與使用的區(qū)別
樹(shù)型結(jié)構(gòu)列出指定目錄里所有文件的PHP類(lèi)
Linux刪除系統(tǒng)自帶版本Python過(guò)程詳解
ASP基礎(chǔ)知識(shí)VBScript基本元素講解
				

日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

Python并發(fā)爬蟲(chóng)常用實(shí)現(xiàn)方法解析