文章詳情頁

Python爬蟲之Spider類用法簡單介紹

瀏覽：196日期：2022-07-15 10:33:16

一、網(wǎng)絡(luò)爬蟲

網(wǎng)絡(luò)爬蟲又被稱為網(wǎng)絡(luò)蜘蛛（🕷️），我們可以把互聯(lián)網(wǎng)想象成一個蜘蛛網(wǎng)，每一個網(wǎng)站都是一個節(jié)點(diǎn)，我們可以使用一只蜘蛛去各個網(wǎng)頁抓取我們想要的資源。舉一個最簡單的例子，你在百度和谷歌中輸入‘Python’，會有大量和Python相關(guān)的網(wǎng)頁被檢索出來，百度和谷歌是如何從海量的網(wǎng)頁中檢索出你想要的資源，他們靠的就是派出大量蜘蛛去網(wǎng)頁上爬取，檢索關(guān)鍵字，建立索引數(shù)據(jù)庫，經(jīng)過復(fù)雜的排序算法，結(jié)果按照搜索關(guān)鍵字相關(guān)度的高低展現(xiàn)給你。

千里之行，始于足下，我們從最基礎(chǔ)的開始學(xué)習(xí)如何寫一個網(wǎng)絡(luò)爬蟲，實現(xiàn)語言使用Python。

二、Python如何訪問互聯(lián)網(wǎng)

想要寫網(wǎng)絡(luò)爬蟲，第一步是訪問互聯(lián)網(wǎng)，Python如何訪問互聯(lián)網(wǎng)呢？

在Python中，我們使用urllib包訪問互聯(lián)網(wǎng)。（在Python3中，對這個模塊做了比較大的調(diào)整，以前有urllib和urllib2,在3中對這兩個模塊做了統(tǒng)一合并，稱為urllib包。包下面包含了四個模塊，urllib.request，urllib.error，urllib.parse，urllib.robotparser），目前主要使用的是urllib.request。

我們首先舉一個最簡單的例子，如何獲取獲取網(wǎng)頁的源碼：

import urllib.requestresponse = urllib.request.urlopen(’https://docs.python.org/3/’)html = response.read()print(html.decode(’utf-8’))

三、Python網(wǎng)絡(luò)簡單使用

首先我們用兩個小demo練一下手，一個是使用python代碼下載一張圖片到本地，另一個是調(diào)用有道翻譯寫一個翻譯小軟件。

3.1根據(jù)圖片鏈接下載圖片，代碼如下：

import urllib.requestresponse = urllib.request.urlopen(’http://www.3lian.com/e/ViewImg/index.html?url=http://img16.3lian.com/gif2016/w1/3/d/61.jpg’)image = response.read()with open(’123.jpg’,’wb’) as f: f.write(image)

其中response是一個對象

輸入：response.geturl()->’http://www.3lian.com/e/ViewImg/index.html?url=http://img16.3lian.com/gif2016/w1/3/d/61.jpg’

輸入：response.info()-><http.client.HTTPMessage object at 0x10591c0b8>

輸入：print(response.info())->Content-Type: text/htmlLast-Modified: Mon, 27 Sep 2004 01:23:20 GMTAccept-Ranges: bytesETag: '0f4b59230a4c41:0'Server: Microsoft-IIS/8.0Date: Sun, 14 Aug 2016 07:16:01 GMTConnection: closeContent-Length: 2827

輸入：response.getcode()->200

3.2使用有道詞典實現(xiàn)翻譯功能

我們想實現(xiàn)翻譯功能，我們需要拿到請求鏈接。首先我們需要進(jìn)入有道首頁，點(diǎn)擊翻譯，在翻譯界面輸入要翻譯的內(nèi)容，點(diǎn)擊翻譯按鈕，就會向服務(wù)器發(fā)起一個請求，我們需要做的就是拿到請求地址和請求參數(shù)。

我在此使用谷歌瀏覽器實現(xiàn)拿到請求地址和請求參數(shù)。首先點(diǎn)擊右鍵，點(diǎn)擊檢查（不同瀏覽器點(diǎn)擊的選項可能不同，同一瀏覽器的不同版本也可能不同），進(jìn)入圖一所示，從中我們可以拿到請求請求地址和請求參數(shù)，在Header中的Form Data中我們可以拿到請求參數(shù)。

Python爬蟲之Spider類用法簡單介紹

（圖一）

代碼段如下：

import urllib.requestimport urllib.parseurl = ’http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=dict2.index’data = {}data[’type’] = ’AUTO’data[’i’] = ’i love you’data[’doctype’] = ’json’data[’xmlVersion’] = ’1.8’data[’keyfrom’] = ’fanyi.web’data[’ue’] = ’UTF-8’data[’action’] = ’FY_BY_CLICKBUTTON’data[’typoResult’] = ’true’data = urllib.parse.urlencode(data).encode(’utf-8’)response = urllib.request.urlopen(url,data)html = response.read().decode(’utf-8’)print(html)

上述代碼執(zhí)行如下：

{'type':'EN2ZH_CN','errorCode':0,'elapsedTime':0,'translateResult':[[{'src':'i love you','tgt':'我愛你'}]],'smartResult':{'type':1,'entries':['','我愛你。']}}

對于上述結(jié)果，我們可以看到是一個json串，我們可以對此解析一下，并且對代碼進(jìn)行完善一下：

import urllib.requestimport urllib.parseimport jsonurl = ’http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=dict2.index’data = {}data[’type’] = ’AUTO’data[’i’] = ’i love you’data[’doctype’] = ’json’data[’xmlVersion’] = ’1.8’data[’keyfrom’] = ’fanyi.web’data[’ue’] = ’UTF-8’data[’action’] = ’FY_BY_CLICKBUTTON’data[’typoResult’] = ’true’data = urllib.parse.urlencode(data).encode(’utf-8’)response = urllib.request.urlopen(url,data)html = response.read().decode(’utf-8’)target = json.loads(html)print(target[’translateResult’][0][0][’tgt’])

四、規(guī)避風(fēng)險

服務(wù)器檢測出請求不是來自瀏覽器，可能會屏蔽掉請求，服務(wù)器判斷的依據(jù)是使用‘User-Agent’,我們可以修改改字段的值，來隱藏自己。代碼如下：

import urllib.requestimport urllib.parseimport jsonurl = ’http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=dict2.index’data = {}data[’type’] = ’AUTO’data[’i’] = ’i love you’data[’doctype’] = ’json’data[’xmlVersion’] = ’1.8’data[’keyfrom’] = ’fanyi.web’data[’ue’] = ’UTF-8’data[’action’] = ’FY_BY_CLICKBUTTON’data[’typoResult’] = ’true’data = urllib.parse.urlencode(data).encode(’utf-8’)req = urllib.request.Request(url, data)req.add_header(’User-Agent’,’Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36’)response = urllib.request.urlopen(url, data)html = response.read().decode(’utf-8’)target = json.loads(html)print(target[’translateResult’][0][0][’tgt’])

上述做法雖然可以隱藏自己，但是還有很大問題，例如一個網(wǎng)絡(luò)爬蟲下載圖片軟件，在短時間內(nèi)大量下載圖片，服務(wù)器可以可以根據(jù)IP訪問次數(shù)判斷是否是正常訪問。所有上述做法還有很大的問題。我們可以通過兩種做法解決辦法，一是使用延遲，例如5秒內(nèi)訪問一次。另一種辦法是使用代理。

延遲訪問（休眠5秒，缺點(diǎn)是訪問效率低下）：

import urllib.requestimport urllib.parseimport jsonimport timewhile True: content = input(’please input content(input q exit program):’) if content == ’q’: break; url = ’http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=dict2.index’ data = {} data[’type’] = ’AUTO’ data[’i’] = content data[’doctype’] = ’json’ data[’xmlVersion’] = ’1.8’ data[’keyfrom’] = ’fanyi.web’ data[’ue’] = ’UTF-8’ data[’action’] = ’FY_BY_CLICKBUTTON’ data[’typoResult’] = ’true’ data = urllib.parse.urlencode(data).encode(’utf-8’) req = urllib.request.Request(url, data) req.add_header(’User-Agent’,’Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36’) response = urllib.request.urlopen(url, data) html = response.read().decode(’utf-8’) target = json.loads(html) print(target[’translateResult’][0][0][’tgt’]) time.sleep(5)

代理訪問：讓代理訪問資源，然后講訪問到的資源返回。服務(wù)器看到的是代理的IP地址，不是自己地址，服務(wù)器就沒有辦法對你做限制。

步驟：

1，參數(shù)是一個字典｛’類型’ : ’代理IP：端口號’ ｝ //類型是http,https等proxy_support = urllib.request.ProxyHandler({})

2，定制、創(chuàng)建一個openeropener = urllib.request.build_opener(proxy_support)

3，安裝opener(永久安裝，一勞永逸)urllib.request.install_opener(opener)

4，調(diào)用opener（調(diào)用的時候使用）opener.open(url)

五、批量下載網(wǎng)絡(luò)圖片

圖片下載來源為煎蛋網(wǎng)（http://jandan.net)

圖片下載的關(guān)鍵是找到圖片的規(guī)律，如找到當(dāng)前頁，每一頁的圖片鏈接，然后使用循環(huán)下載圖片。下面是程序代碼（待優(yōu)化,正則表達(dá)式匹配，IP代理）：

import urllib.requestimport osdef url_open(url): req = urllib.request.Request(url) req.add_header(’User-Agent’,’Mozilla/5.0’) response = urllib.request.urlopen(req) html = response.read() return htmldef get_page(url): html = url_open(url).decode(’utf-8’) a = html.find(’current-comment-page’) + 23 b = html.find(’]’,a) return html[a:b]def find_image(url): html = url_open(url).decode(’utf-8’) image_addrs = [] a = html.find(’img src=’) while a != -1: b = html.find(’.jpg’,a,a + 150) if b != -1: image_addrs.append(html[a+9:b+4]) else: b = a + 9 a = html.find(’img src=’,b) for each in image_addrs: print(each) return image_addrsdef save_image(folder,image_addrs): for each in image_addrs: filename = each.split(’/’)[-1] with open(filename,’wb’) as f: img = url_open(each) f.write(img)def download_girls(folder = ’girlimage’,pages = 20): os.mkdir(folder) os.chdir(folder) url = ’http://jandan.net/ooxx/’ page_num = int(get_page(url)) for i in range(pages): page_num -= i page_url = url + ’page-’ + str(page_num) + ’#comments’ image_addrs = find_image(page_url) save_image(folder,image_addrs)if __name__ == ’__main__’: download_girls()

代碼運(yùn)行效果如下：

Python爬蟲之Spider類用法簡單介紹

到此這篇關(guān)于Python爬蟲之Spider類用法簡單介紹的文章就介紹到這了,更多相關(guān)Python爬蟲Spider類內(nèi)容請搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)！

Python 編程

上一條：Python模塊zipfile原理及使用方法詳解下一條：Python連接Impala實現(xiàn)步驟解析

相關(guān)文章：

1. 使用Python webdriver圖書館搶座自動預(yù)約的正確方法2. Python3 json模塊之編碼解碼方法講解3. ASP基礎(chǔ)知識VBScript基本元素講解4. python 使用事件對象asyncio.Event來同步協(xié)程的操作5. Python 合并拼接字符串的方法6. Python字符串到字節(jié)的轉(zhuǎn)換。雙反斜杠問題7. Linux刪除系統(tǒng)自帶版本Python過程詳解8. ASP.NET MVC使用jQuery ui的progressbar實現(xiàn)進(jìn)度條9. Java Long類型對比分析10. Python sublime安裝及配置過程詳解

排行榜

					
					使用Python webdriver圖書館搶座自動預(yù)約的正確方法
Android 簡單的實現(xiàn)滑塊拼圖驗證碼功能
ASP.NET MVC使用jQuery ui的progressbar實現(xiàn)進(jìn)度條
springboot配置Jackson返回統(tǒng)一默認(rèn)值的實現(xiàn)示例
淺談django不使用restframework自定義接口與使用的區(qū)別
樹型結(jié)構(gòu)列出指定目錄里所有文件的PHP類
Linux刪除系統(tǒng)自帶版本Python過程詳解
ASP基礎(chǔ)知識VBScript基本元素講解
Python字符串到字節(jié)的轉(zhuǎn)換。雙反斜杠問題
Python 合并拼接字符串的方法
Java Long類型對比分析