日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁(yè)技術(shù)文章
文章詳情頁(yè)

python - 為什么在scrapy 的settings.py里啟用了: USER_AGENT 就什么也采不到了? 一關(guān)了就能采集到網(wǎng)頁(yè)

瀏覽:156日期:2022-07-20 17:38:28

問(wèn)題描述

采集的百度貼吧

python 2.7.11

scrapy 1.3.3

只要是在settings.py里啟用了user_agent,不管用下面的哪種方法.都什么也采不到.

而關(guān)了這個(gè)user_agent .都能正常采集.這很奇怪?不知道是什么原因?

USER_AGENT = ’xxxxxxxxxxxxxxxxxxxxxx’

還是寫(xiě)一個(gè)中間件class RotateUserAgentMiddleware(UserAgentMiddleware):

在settings.py里設(shè)置

DOWNLOADER_MIDDLEWARES = {

#’tbtest.middlewares.MyCustomDownloaderMiddleware’: 543,’tbtest.useragent.RotateUserAgentMiddleware’: 400,

}

只要啟用了user_agent 就什么也采不到.運(yùn)行后.輸出下面代碼:

E:pyprotbtest>scrapy crawl tbs2017-05-11 12:20:23 [scrapy.utils.log] INFO: Scrapy 1.3.3 started (bot: tbtest)2017-05-11 12:20:23 [scrapy.utils.log] INFO: Overridden settings: {’NEWSPIDER_MODULE’: ’tbtest.spiders’, ’ROBOTSTXT_OBEY’: True, ’SPIDER_MODULES’: [’tbtest.spiders’], ’BOT_NAME’: ’tbtest’, ’COOKIES_ENABLED’: False, ’DOWNLOAD_DELAY’: 2}2017-05-11 12:20:24 [scrapy.middleware] INFO: Enabled extensions:[’scrapy.extensions.logstats.LogStats’, ’scrapy.extensions.telnet.TelnetConsole’, ’scrapy.extensions.corestats.CoreStats’]2017-05-11 12:20:26 [scrapy.middleware] INFO: Enabled downloader middlewares:[’scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware’, ’scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware’, ’scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware’, ’scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware’, ’tbtest.useragent.RotateUserAgentMiddleware’, ’scrapy.downloadermiddlewares.useragent.UserAgentMiddleware’, ’scrapy.downloadermiddlewares.retry.RetryMiddleware’, ’scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware’, ’scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware’, ’scrapy.downloadermiddlewares.redirect.RedirectMiddleware’, ’scrapy.downloadermiddlewares.stats.DownloaderStats’]2017-05-11 12:20:26 [scrapy.middleware] INFO: Enabled spider middlewares:[’scrapy.spidermiddlewares.httperror.HttpErrorMiddleware’, ’scrapy.spidermiddlewares.offsite.OffsiteMiddleware’, ’scrapy.spidermiddlewares.referer.RefererMiddleware’, ’scrapy.spidermiddlewares.urllength.UrlLengthMiddleware’, ’scrapy.spidermiddlewares.depth.DepthMiddleware’]2017-05-11 12:20:27 [scrapy.middleware] INFO: Enabled item pipelines:[’tbtest.pipelines.TbtestPipeline’]2017-05-11 12:20:27 [scrapy.core.engine] INFO: Spider opened2017-05-11 12:20:27 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)2017-05-11 12:20:27 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023********Current UserAgent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3************2017-05-11 12:20:27 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://tieba.baidu.com/robots.txt> (referer: None)********Current UserAgent:Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5************2017-05-11 12:20:31 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://tieba.baidu.com/f?kw=%E5%B1%B1%E4%B8%9C%E7%90%86%E5%B7%A5%E5%A4%A7%E5%AD%A6&ie=utf-8> (referer: None)2017-05-11 12:20:31 [scrapy.core.engine] INFO: Closing spider (finished)2017-05-11 12:20:31 [scrapy.statscollectors] INFO: Dumping Scrapy stats:{’downloader/request_bytes’: 655, ’downloader/request_count’: 2, ’downloader/request_method_count/GET’: 2, ’downloader/response_bytes’: 87876, ’downloader/response_count’: 2, ’downloader/response_status_count/200’: 2, ’finish_reason’: ’finished’, ’finish_time’: datetime.datetime(2017, 5, 11, 4, 20, 31, 375000), ’log_count/DEBUG’: 3, ’log_count/INFO’: 7, ’response_received_count’: 2, ’scheduler/dequeued’: 1, ’scheduler/dequeued/memory’: 1, ’scheduler/enqueued’: 1, ’scheduler/enqueued/memory’: 1, ’start_time’: datetime.datetime(2017, 5, 11, 4, 20, 27, 250000)}2017-05-11 12:20:31 [scrapy.core.engine] INFO: Spider closed (finished)

# -*- coding:utf-8 -*-import logging##'''避免被ban策略之一:使用useragent池。 使用注意:需在settings.py中進(jìn)行相應(yīng)的設(shè)置。''' import randomfrom scrapy.downloadermiddlewares.useragent import UserAgentMiddlewareclass RotateUserAgentMiddleware(UserAgentMiddleware): def __init__(self, user_agent=’’): self.user_agent = user_agent def process_request(self, request, spider): ua = random.choice(self.user_agent_list) if ua: #顯示當(dāng)前使用的useragent print '********Current UserAgent:%s************' %ua #記錄 ##logging.log(logging.WARNING, ’Current UserAgent: ’+ua)request.headers.setdefault(’User-Agent’, ua) #the default user_agent_list composes chrome,I E,firefox,Mozilla,opera,netscape #for more user agent strings,you can find it in http://www.useragentstring.com/pages/useragentstring.php user_agent_list =['Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)','Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.0.04506)','Mozilla/4.0 (compatible; MSIE 7.0; AOL 9.5; AOLBuild 4337.35; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)','Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)','Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)','Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)','Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)','Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)','Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6','Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1','Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0','Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5','Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.8) Gecko Fedora/1.9.0.8-1.fc10 Kazehakase/0.5.6','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11','Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_3) AppleWebKit/535.20 (KHTML, like Gecko) Chrome/19.0.1036.7 Safari/535.20','Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; fr) Presto/2.9.168 Version/11.52',]

不管用下面的哪種方法.都什么也采不到.

而關(guān)了這個(gè)user_agent .都能正常采集.這很奇怪?不知道是什么原因?

問(wèn)題解答

回答1:

你爬去的網(wǎng)站可能做了一些防爬蟲(chóng)措施

回答2:

反爬了,scrapy會(huì)有自己定義的useragent,啟用后會(huì)加到head里面,不啟用可能是空,或者沒(méi)有被反爬,建議做一個(gè)useragent的池模仿瀏覽器,定期或者隨機(jī)更換,這樣最保險(xiǎn)

回答3:

是User-Agent,不是User_Agent,我以前也有這個(gè)問(wèn)題,之后改了就行了

標(biāo)簽: Python 編程
相關(guān)文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
中文字幕免费精品| 久久亚洲精品伦理| 久久精品av麻豆的观看方式| 亚洲精品极品少妇16p| 婷婷成人基地| 欧美日韩国产综合网| 在线亚洲欧美| 综合一区二区三区| 日韩精品福利一区二区三区| 国产亚洲精aa在线看| 久久av国产紧身裤| 三上亚洲一区二区| av在线日韩| 日韩午夜电影| 天堂精品久久久久| 国产精品2023| 欧美日韩视频免费观看| 久久婷婷久久| 欧美 日韩 国产精品免费观看| 99国产精品久久久久久久成人热| 视频一区二区三区中文字幕| 亚洲精品国产日韩| 欧美一区91| 国产中文欧美日韩在线| 四虎4545www国产精品| 亚洲欧美日韩精品一区二区| 综合色一区二区| 另类小说一区二区三区| 亚洲www啪成人一区二区| 亚洲专区一区| 国产欧美欧美| 91精品亚洲| 伊人久久大香伊蕉在人线观看热v| 亚洲精品系列| 精品三级在线| 国产麻豆综合| 国产精品亚洲综合在线观看| 日韩欧美国产精品综合嫩v| 羞羞答答国产精品www一本| 国产调教精品| 女人av一区| 国产欧美在线| 99久精品视频在线观看视频| 亚洲18在线| 亚洲黄色免费av| 最新亚洲国产| 久草免费在线视频| 亚洲一区有码| 精品国产成人| 日韩视频二区| 麻豆免费精品视频| 宅男噜噜噜66国产日韩在线观看| 国产亚洲久久| 国产二区精品| 欧美激情福利| 亚洲欧美日韩视频二区| 美女久久久精品| 亚洲一区二区三区高清不卡| 精品一区电影| 中文不卡在线| 日韩理论片av| 国产亚洲欧美日韩在线观看一区二区 | 在线免费观看亚洲| 精品视频自拍| 午夜精品影视国产一区在线麻豆| 视频在线不卡免费观看| 一区二区三区四区日韩| 日韩国产在线| 欧美在线看片| 欧美精品激情| 国产精品成久久久久| 亚洲一级大片| av一区二区高清| 91亚洲成人| 国产日韩一区二区三区在线| 老司机精品久久| 亚洲先锋成人| 国产96在线亚洲| 欧美偷窥清纯综合图区| 一区福利视频| 激情国产在线| 久久中文字幕一区二区三区| 色综合视频一区二区三区日韩 | 国产精品亚洲欧美日韩一区在线 | 精品一区二区三区在线观看视频| 免费久久精品视频| 久久国产直播| 精品国产亚洲日本| 国产美女久久| 蜜桃av一区二区| 欧美 日韩 国产一区二区在线视频| 美女性感视频久久| 亚洲人成在线影院| 免费美女久久99| 亚洲精品888| 日韩欧美不卡| 最近高清中文在线字幕在线观看1| 国产美女亚洲精品7777| 婷婷综合福利| 热久久国产精品| 不卡视频在线| 在线日韩一区| 亚洲一本视频| 久久精品国产99久久| 亚洲涩涩在线| 欧美日韩视频网站| 日韩av有码| 在线手机中文字幕| 日本激情一区| 人在线成免费视频| 久久精品毛片| 精品国产成人| 国产在视频一区二区三区吞精| 国产精品一区二区美女视频免费看| 日韩一区二区三免费高清在线观看 | 国产美女精品| 黄色亚洲精品| 亚洲欧美久久| 在线精品亚洲| 日韩精品一区二区三区中文在线| 亚洲毛片网站| 日本一区二区中文字幕| 日本中文字幕一区二区| 亚洲tv在线| 久久黄色影视| 麻豆精品视频在线观看视频| 精品国产成人| 日韩在线高清| 久久要要av| 尤物在线精品| 国产日韩综合| 日韩精品一区第一页| 亚洲精品乱码| 欧美一区二区三区久久| 国产精品xxxav免费视频| 韩国一区二区三区视频| 日韩电影免费网站| 亚洲网站视频| 久久xxxx| 亚洲ab电影| 国产精品欧美三级在线观看| 麻豆一区二区在线| 日本欧美不卡| 国产视频一区在线观看一区免费| 男人的天堂亚洲一区| 日韩视频一二区| 久久av日韩| 91精品一区国产高清在线gif| 久久电影一区| 国产精品日本一区二区三区在线 | 免费精品视频在线| 欧美视频精品全部免费观看| 麻豆国产一区| 91精品一区二区三区综合在线爱| 亚洲制服少妇| 欧美亚洲色图校园春色| 精品一区视频| 精品日韩毛片| 日本一区中文字幕| 精品国产亚洲一区二区三区大结局 | 国产精品a级| 久久婷婷丁香| 亚久久调教视频| 日产午夜精品一线二线三线| 黄色在线一区| 久久99精品久久久野外观看| 青青青免费在线视频| 西西人体一区二区| 国产精品久久久久久久久久久久久久久 | 综合亚洲自拍| 精品中国亚洲| 亚洲欧美日本日韩| 麻豆久久久久久久| 亚洲精华国产欧美| 国产欧美一区二区三区国产幕精品 | 国产精品videossex| 精品日韩视频| 7777精品| 国产综合视频| 国产日韩高清一区二区三区在线| 成人精品久久| 亚洲精品欧洲| 欧美日韩视频免费观看| 天堂av在线一区| 久久精品国产久精国产| 亚洲欧洲一区| 久久亚洲黄色| 日韩精品一卡二卡三卡四卡无卡| 久久久久黄色| 免费人成在线不卡| 不卡专区在线| 日韩高清成人在线| 在线日韩中文| 欧美极品中文字幕| 蜜桃视频在线观看一区二区| 黄毛片在线观看| 国产亚洲一区| 免费日韩视频| 成人片免费看| 国产视频一区二|