日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術文章
文章詳情頁

python爬蟲實戰之制作屬于自己的一個IP代理模塊

瀏覽:20日期:2022-06-17 16:30:31
目錄一、使用PyChram的正則二、制作一個隨機User-Agent模塊三、最終實踐3.1 爬取快代理上的ip3.2 驗證爬取到的ip是否可用3.3 實戰:利用爬取到的ip訪問CSDN博客網址1000次四、總結一、使用PyChram的正則

首先,小編講的不是爬取ip,而是講了解PyCharm的正則,這里講的正則不是Python的re模塊哈!而是PyCharm的正則功能,我們在PyChram的界面上按上Ctrl+R,可以發現,這里出現兩行輸入框

python爬蟲實戰之制作屬于自己的一個IP代理模塊

現在如果小編想把如下數據轉換成一個字典存儲

python爬蟲實戰之制作屬于自己的一個IP代理模塊

讀者也許會一個一去改,但是小編只需在上述的那兩個輸入框內,輸入一串字符串即可。

python爬蟲實戰之制作屬于自己的一個IP代理模塊

只需在第一個輸入框中,輸入(.*) : (.*)在第二個輸入框中,輸入'$1':'$2',,看看效果如何

python爬蟲實戰之制作屬于自己的一個IP代理模塊

之后再給兩端分別一個花括號和取一個字典名稱即可。

二、制作一個隨機User-Agent模塊

反爬措施中,有這樣一條,就是服務器會檢查請求的user-agent參數值,如果檢查的結果為python,那么服務器就知道這是爬蟲,為了避免被服務器發現這是爬蟲,通常user-agent參數值會設置瀏覽器的值,但是爬取一個網址時,每次都需要查看網址network下面的內容,顯得比較繁瑣,為什么不自定義一個隨機獲取user-agent的值模塊呢?這樣既可以減少查看network帶來的繁瑣,同時還可以避免服務器發現這是同一個user-agent發起多次請求。說了這么多,那么具體怎樣實現呢?

python爬蟲實戰之制作屬于自己的一個IP代理模塊

只需調用隨機模塊random的方法choice()即可,這個方法里面的參數類型時列表類型,具體參考代碼如下:

import randomclass useragent(object): def getUserAgent(self):useragents=[ ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36’, ’Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1’, ’Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0’, ’Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 2.0.50727; SLCC2; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; Tablet PC 2.0; .NET4.0E)’, ’Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)’,]return random.choice(useragents)

這樣我們就可以隨機得到一個user-agent的值了。

三、最終實踐3.1 爬取快代理上的ip

接下來,就是最終實踐了,制作屬于自己的IP代理模塊。

那么,從哪里獲取IP呢?小編用的是快代理這個網址,網址鏈接為:https://www.kuaidaili.com/free/inha/1/。

怎樣提取IP呢?小編用的是xpath語法

python爬蟲實戰之制作屬于自己的一個IP代理模塊

參考代碼如下:

import requestsfrom crawlers.userAgent import useragent # 導入自己自定義的類,主要作用為隨機取user-agent的值from lxml import etreeurl=’https://www.kuaidaili.com/free/inha/1/’headers={’user-agent’:useragent().getUserAgent()}rsp=requests.get(url=url,headers=headers)HTML=etree.HTML(rsp.text)infos=HTML.xpath('//table[@class=’table table-bordered table-striped’]/tbody/tr')for info in infos: print(info.xpath(’./td[1]/text()’)) # ip print(info.xpath(’./td[2]/text()’)) # ip對應的端口 列表類型

怎樣爬取多頁呢?分析快代理那個網址,可以發現https://www.kuaidaili.com/free/inha/{頁數}/ ,花括號里面就是頁數,這個網址總頁數為4038,這里小編只爬取5頁,并且開始頁數取(1,3000)之間的隨機數,但是如果for循環這個過程,運行結果如下:

python爬蟲實戰之制作屬于自己的一個IP代理模塊

原來是請求過快的原因,只需在爬取1頁之后,休眠幾秒鐘即可解決。

3.2 驗證爬取到的ip是否可用

這里直接用百度這個網址作為測試網址,主要代碼為:

url=’https://www.baidu.com’headers={’user-agent’:useragent().getUserAgent()}proxies={} # ip ,這里只是講一下關鍵代碼,沒有給出具體IPrsp=requests.get(url=url,headers=headers,proxies=proxies,time=0.2) # timeout為超時時間

只需判斷rsp的狀態碼為200,如果是,把它添加到一個指定的列表中。

具體參考代碼小編已經上傳到Gitee上,鏈接為:ip代理模塊

當然讀者可用把這個文件保存到pythonLib文件夾下面,這樣就可用隨時隨地導入了。

3.3 實戰:利用爬取到的ip訪問CSDN博客網址1000次

python爬蟲實戰之制作屬于自己的一個IP代理模塊python爬蟲實戰之制作屬于自己的一個IP代理模塊python爬蟲實戰之制作屬于自己的一個IP代理模塊

上述出現那個錯誤,小編上網搜索了一下原因,如下:

python爬蟲實戰之制作屬于自己的一個IP代理模塊

我想應該是第1種原因,ip被封,我這里沒有設置超時時間,應該不會出現程序請求速度過快。

四、總結

上述那個ip代理模塊還有很多的不足點,比如用它去訪問一些網址時,不管運行多少次,輸出的結果狀態碼不會時200,這也正常,畢竟免費的ip并不是每個都能用的。如果要說改進的話,就是多爬取幾個不同ip代理網址,去重,這樣的結果肯定會比上述的那個ip代理模塊要好

到此這篇關于python爬蟲實戰之制作屬于自己的一個IP代理模塊的文章就介紹到這了,更多相關Python IP代理模塊內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網!

標簽: Python 編程
相關文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
国产农村妇女精品一二区| 国产亚洲在线观看| 日本欧美一区| 精品视频一区二区三区在线观看 | 亚洲免费一区二区| 日本亚洲欧美天堂免费| 国产精品视频一区视频二区| 精品一区二区三区免费看 | 91一区二区| 久久精品av| 日韩不卡在线观看日韩不卡视频| zzzwww在线看片免费| 美女黄网久久| 国产一区日韩| 日本欧洲一区二区| 国产高清不卡| 91成人在线网站| 久久在线免费| 福利在线一区| 日韩精品视频在线看| 欧美日韩尤物久久| 国产精品chinese| 91成人超碰| 国产精一区二区| 免费看欧美美女黄的网站| 在线人成日本视频| 777久久精品| 免费视频最近日韩| 国产精品88久久久久久| 美女精品视频在线| 欧美精品影院| 亚洲精品第一| 国产一区日韩欧美| 色婷婷精品视频| 精品深夜福利视频| 欧美日韩中出| 日韩精品一区二区三区中文| 亚洲中午字幕| 国产主播一区| 久久美女精品| 精品捆绑调教一区二区三区| 麻豆精品久久久| 国产欧美日本| 国产精品一级| 三级欧美在线一区| 亚洲一区免费| 亚洲欧美日韩视频二区| 国产精品蜜月aⅴ在线| 欧美中文字幕| 亚洲综合三区| 亚洲主播在线| 天堂av在线一区| 一本色道久久精品| 欧美日韩国产亚洲一区| 91精品精品| 亚洲网站视频| 欧美日韩第一| 红桃视频亚洲| 视频一区欧美精品| 国产视频一区三区| 欧美日韩国产一区二区三区不卡 | 欧美精品一区二区三区精品| 国产日韩电影| 国产91一区| 在线亚洲观看| 日韩精品一级中文字幕精品视频免费观看| 激情婷婷综合| 国产精品日本| 日本电影久久久| 国产欧美日韩精品一区二区免费 | 久久久国产精品网站| 国产一区三区在线播放| 国产成人免费精品| 日韩免费av| 亚洲欧洲一区二区天堂久久| 亚洲午夜91| 日韩精品一区二区三区中文在线 | 福利在线免费视频| 久久久9色精品国产一区二区三区| 成人免费网站www网站高清| 日韩一区二区久久| 日韩精品国产欧美| 日韩综合在线| 另类av一区二区| 国产剧情一区二区在线观看| 狠狠躁少妇一区二区三区| 亚洲v在线看| 欧美午夜三级| 亚洲欧美日韩国产一区二区| 日本精品久久| 久久亚洲黄色| 蜜桃伊人久久| 麻豆国产欧美一区二区三区| 欧美丝袜一区| 国产欧美日韩综合一区在线播放| 91看片一区| 久久狠狠亚洲综合| 尹人成人综合网| 麻豆成人综合网| 视频一区二区三区中文字幕| 国产成人久久精品一区二区三区| 视频一区欧美日韩| 婷婷国产精品| 给我免费播放日韩视频| 四虎在线精品| 亚洲免费在线| 91精品精品| 日韩精彩视频在线观看| 亚洲v在线看| 成人影视亚洲图片在线| 国产精品视频一区二区三区四蜜臂 | 伊人久久大香伊蕉在人线观看热v| 在线看片福利| 成人台湾亚洲精品一区二区| 欧美亚洲综合视频| 免费观看久久久4p| 亚洲激情中文在线| 欧美日韩一二| 久久精品国产99久久| 日韩在线二区| 精品视频自拍| 麻豆精品少妇| 国产精品伦理久久久久久| 免费在线欧美黄色| 久久久久久久久成人| 久久国产精品美女| 国产欧美在线| 精品一区二区三区免费看 | 欧美精品aa| 国产欧美日韩一级| 国产精品日本一区二区不卡视频| 亚欧洲精品视频在线观看| 日韩影院精彩在线| 日韩av字幕| 美女av一区| 日韩电影二区| 在线成人直播| 综合激情一区| 国产精品毛片久久久| 成人污污视频| 999国产精品999久久久久久| 图片区亚洲欧美小说区| 欧美精品一区二区久久| 蜜桃久久av一区| 国产高清亚洲| 亚洲精品成人| 亚洲精品大片| 精品国产麻豆| 91高清一区| 欧美三区不卡| 欧美日韩中文字幕一区二区三区| 亚洲伊人精品酒店| 国产美女高潮在线观看| 在线一区欧美| 免费看一区二区三区| 国产高清久久| 久久97久久97精品免视看秋霞| 精品成人免费一区二区在线播放| 天堂av在线一区| 国产精品成人一区二区不卡| 日韩影院在线观看| 成人在线黄色| 日韩精品一页| 欧美+日本+国产+在线a∨观看| 国产欧美一区二区精品久久久| 精品在线91| 精品欠久久久中文字幕加勒比| 视频在线观看国产精品| 神马午夜久久| 久久一区精品| 欧美日韩一区二区三区四区在线观看 | 蜜臀久久99精品久久一区二区| 国产亚洲高清在线观看| 尤物在线精品| 亚洲v在线看| 波多野结衣久久精品| 国产欧美综合一区二区三区| 久久亚洲色图| 尹人成人综合网| 色婷婷精品视频| 91免费精品| 伊人久久在线| 欧美日韩视频网站| 国产精品不卡| 精品美女视频 | 婷婷色综合网| 999久久久精品国产| 四季av一区二区凹凸精品| 日韩久久99| 国产精品一区二区精品视频观看| 综合激情五月婷婷| 亚洲天堂日韩在线| 99国产一区| 亚洲一区二区三区四区五区午夜| 婷婷六月综合| 蜜桃一区二区三区在线| 免费在线观看成人| 免费在线成人网| 日韩激情综合| 欧美激情视频一区二区三区在线播放|