日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術(shù)文章
文章詳情頁

python - 為什么我直接用requests爬網(wǎng)頁可以,但用scrapy不行?

瀏覽:189日期:2022-08-01 18:26:46

問題描述

class job51(): def __init__(self):self.headers={ ’Accept’: ’text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8’, ’Accept-Encoding’:’gzip, deflate, sdch’, ’Accept-Language’: ’zh-CN,zh;q=0.8’, ’Cache-Control’: ’max-age=0’, ’User-Agent’:’Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.71 Safari/537.36’, ’Cookie’:’’} def start(self):html=session.get('http://my.51job.com/cv/CResume/CV_CResumeManage.php',headers=self.headers)self.parse(html) def parse(self,response):tree=lxml.etree.HTML(response.text)resume_url=tree.xpath(’//tbody/tr[@class='resumeName']/td[1]/a/@href’)print (resume_url[0]

能爬到我想要的結(jié)果,就是簡歷的url,但是用scrapy,同樣的headers,頁面好像停留在登錄頁面?

class job51(Spider): name = 'job51' #allowed_domains = ['my.51job.com'] start_urls = ['http://my.51job.com/cv/CResume/CV_CResumeManage.php'] headers={ ’Accept’: ’text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8’, ’Accept-Encoding’:’gzip, deflate, sdch’, ’Accept-Language’: ’zh-CN,zh;q=0.8’, ’Cache-Control’: ’max-age=0’, ’User-Agent’:’Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.71 Safari/537.36’, ’Cookie’:’’} def start_requests(self):yield Request(url=self.start_urls[0],headers=self.headers,callback=self.parse) def parse(self,response):#tree=lxml.etree.HTML(text)selector=Selector(response)print ('<<<<<<<<<<<<<<<<<<<<<',response.text)resume_url=selector.xpath(’//tr[@class='resumeName']/td[1]/a/@href’)print ('>>>>>>>>>>>>',resume_url)

輸出的結(jié)果:

scrapy.utils.log] INFO: Overridden settings: {’BOT_NAME’: ’job51’, ’SPIDER_MODULES’: [’job51.spiders’], ’ROBOTSTXT_OBEY’: True, ’NEWSPIDER_MODULE’: ’job51.spiders’}2017-04-11 10:58:31 [scrapy.middleware] INFO: Enabled extensions:[’scrapy.extensions.logstats.LogStats’, ’scrapy.extensions.corestats.CoreStats’, ’scrapy.extensions.telnet.TelnetConsole’]2017-04-11 10:58:32 [scrapy.middleware] INFO: Enabled downloader middlewares:[’scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware’, ’scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware’, ’scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware’, ’scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware’, ’scrapy.downloadermiddlewares.useragent.UserAgentMiddleware’, ’scrapy.downloadermiddlewares.retry.RetryMiddleware’, ’scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware’, ’scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware’, ’scrapy.downloadermiddlewares.redirect.RedirectMiddleware’, ’scrapy.downloadermiddlewares.cookies.CookiesMiddleware’, ’scrapy.downloadermiddlewares.stats.DownloaderStats’]2017-04-11 10:58:32 [scrapy.middleware] INFO: Enabled spider middlewares:[’scrapy.spidermiddlewares.httperror.HttpErrorMiddleware’, ’scrapy.spidermiddlewares.offsite.OffsiteMiddleware’, ’scrapy.spidermiddlewares.referer.RefererMiddleware’, ’scrapy.spidermiddlewares.urllength.UrlLengthMiddleware’, ’scrapy.spidermiddlewares.depth.DepthMiddleware’]2017-04-11 10:58:32 [scrapy.middleware] INFO: Enabled item pipelines:[]2017-04-11 10:58:32 [scrapy.core.engine] INFO: Spider opened2017-04-11 10:58:32 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)2017-04-11 10:58:32 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:60232017-04-11 10:58:33 [scrapy.core.engine] DEBUG: Crawled (404) <GET http://my.51job.com/robots.txt> (referer: None)2017-04-11 10:58:33 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://my.51job.com/cv/CResume/CV_CResumeManage.php> (referer: None)<<<<<<<<<<<<<<<<<<<<< <script>window.location=’https://login.51job.com/login.php?url=http://my.51job.com%2Fcv%2FCResume%2FCV_CResumeManage.php%3F7087’;</script>>>>>>>>>>>>> []2017-04-11 10:58:33 [scrapy.core.scraper] ERROR: Spider error processing <GET http://my.51job.com/cv/CResume/CV_CResumeManage.php> (referer: None)Traceback (most recent call last): File 'd:python35libsite-packagesscrapyutilsdefer.py', line 102, in iter_errback yield next(it) File 'd:python35libsite-packagesscrapyspidermiddlewaresoffsite.py', line 29, in process_spider_output for x in result: File 'd:python35libsite-packagesscrapyspidermiddlewaresreferer.py', line 22, in <genexpr> return (_set_referer(r) for r in result or ()) File 'd:python35libsite-packagesscrapyspidermiddlewaresurllength.py', line 37, in <genexpr> return (r for r in result or () if _filter(r)) File 'd:python35libsite-packagesscrapyspidermiddlewaresdepth.py', line 58, in <genexpr> return (r for r in result or () if _filter(r)) File 'E:WorkGitRespspiderjob51job51spiders51job_resume.py', line 43, in parse yield Request(resume_url[0],headers=self.headers,callback=self.getResume) File 'd:python35libsite-packagesparselselector.py', line 58, in __getitem__ o = super(SelectorList, self).__getitem__(pos)IndexError: list index out of range2017-04-11 10:58:33 [scrapy.core.engine] INFO: Closing spider (finished)2017-04-11 10:58:33 [scrapy.statscollectors] INFO: Dumping Scrapy stats:{’downloader/request_bytes’: 628, ’downloader/request_count’: 2, ’downloader/request_method_count/GET’: 2, ’downloader/response_bytes’: 5743, ’downloader/response_count’: 2, ’downloader/response_status_count/200’: 1, ’downloader/response_status_count/404’: 1, ’finish_reason’: ’finished’, ’finish_time’: datetime.datetime(2017, 4, 11, 2, 58, 33, 275634), ’log_count/DEBUG’: 3, ’log_count/ERROR’: 1, ’log_count/INFO’: 7, ’response_received_count’: 2, ’scheduler/dequeued’: 1, ’scheduler/dequeued/memory’: 1, ’scheduler/enqueued’: 1, ’scheduler/enqueued/memory’: 1, ’spider_exceptions/IndexError’: 1, ’start_time’: datetime.datetime(2017, 4, 11, 2, 58, 32, 731603)}2017-04-11 10:58:33 [scrapy.core.engine] INFO: Spider closed (finished)

問題解答

回答1:

看log是404了,你看看scrapy設(shè)定那里有沒把重定向禁止了。

回答2:

<script>window.location=’https://login.51job.com/login.php?url=http://my.51job.com%2Fcv%2FCResume%2FCV_CResumeManage.php%3F7087’;</script>

從這里可以看到你用scrapy寫的爬蟲被重定向到登陸頁面了。所以會(huì)報(bào)錯(cuò)。建議你在用requests和用scrapy請(qǐng)求的時(shí)候抓一下包,看看它的響應(yīng)內(nèi)容,并且看看它們的request headers是不是完全相同。我懷疑可能是cookie過期了,要么scrapy可能不是這樣傳cookie.我對(duì)scrapy不是特別熟悉,不過看問題應(yīng)該是出在cookie這塊了

回答3:

你用的session請(qǐng)求的,實(shí)際的request header估計(jì)已經(jīng)戴上了cookie了,所以還是像樓上說的對(duì)比請(qǐng)求header吧

標(biāo)簽: Python 編程
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
日韩精品三区四区| 欧美a一区二区| 麻豆免费精品视频| 蜜桃视频在线观看一区二区| 在线观看亚洲精品福利片| 国产精品高清一区二区| 精品国产亚洲一区二区三区大结局| sm久久捆绑调教精品一区| 日韩欧美一区免费| 视频一区视频二区中文| 亚洲深夜av| 欧美日韩亚洲一区二区三区在线| 国产一区二区三区视频在线| 免费不卡中文字幕在线| 欧美在线影院| 久久av国产紧身裤| 精品视频免费| 久久精品主播| 日韩国产91| 欧美久久一区二区三区| 国产精品亚洲人成在99www| 精品在线99| 免费欧美一区| 一区二区国产在线| 欧美亚洲二区| 成人在线视频免费| 黑丝美女一区二区| 亚洲精品一二| 久久视频精品| 欧美另类中文字幕| 久久精品国产999大香线蕉| 日韩成人a**站| 午夜电影一区| 欧美日韩xxxx| 亚洲精品88| 亚洲欧美日韩国产综合精品二区| 国产一区二区三区久久| 麻豆成全视频免费观看在线看| 999国产精品视频| 免费在线观看日韩欧美| 国产亚洲观看| 久久婷婷丁香| 日本亚洲最大的色成网站www| 久久精品国产免费| 欧美日韩在线网站| 日韩有吗在线观看| 亚洲黄色中文字幕| 四虎精品永久免费| 一区二区三区四区日本视频| 亚洲综合小说| 黄毛片在线观看| 石原莉奈在线亚洲二区| 麻豆高清免费国产一区| 亚洲精品网址| 国产精品三级| 自拍日韩欧美| 免费看久久久| 国产视频一区三区| 激情综合五月| 免费观看在线综合色| 国产成人精品一区二区三区免费| 伊人久久成人| 精品一区av| 蜜桃视频在线观看一区| 成人精品高清在线视频| 日本欧美在线看| 亚洲黄色免费av| 国产情侣一区在线| 亚洲女人av| 久久国产欧美| 精品中文字幕一区二区三区四区| 玖玖玖国产精品| 日产精品一区| 精品三级久久久| 国产在线欧美| 精品一区二区三区中文字幕视频| 美女久久一区| 欧美精品高清| 麻豆国产欧美一区二区三区| 一区二区三区网站| 久久国产中文字幕| 蜜桃精品视频| 日韩精品社区| 视频一区二区三区入口| 99视频精品全国免费| 麻豆精品99| 欧美一区影院| 欧美日韩一区二区国产 | 国产精品porn| 亚洲3区在线| 99精品美女| 91亚洲国产成人久久精品| 日韩成人午夜精品| 蜜桃视频在线观看一区| 在线一区视频| 久久中文字幕av一区二区不卡| 国产成人77亚洲精品www| 国产亚洲精品精品国产亚洲综合| 中文精品电影| 久久国产精品久久久久久电车| 99精品视频精品精品视频| 麻豆视频在线观看免费网站黄| 国产欧美一区二区三区国产幕精品| 午夜一级久久| 影音国产精品| 亚洲国产成人精品女人| 日韩成人亚洲| 在线观看精品| 免费看av不卡| 四虎4545www国产精品 | 在线精品亚洲欧美日韩国产| 麻豆成人av在线| 国产精品18| 久久99性xxx老妇胖精品| 国产精品一区二区三区www| 亚洲免费观看高清完整版在线观| 亚洲一区久久| 欧美中文字幕| 视频在线观看一区| 在线免费观看亚洲| 亚洲精品美女91| 日韩精品免费一区二区夜夜嗨 | 亚洲另类av| 蜜臀91精品一区二区三区| 久久国产精品亚洲77777| 欧美特黄一区| 久久av在线| 四虎精品永久免费| 日本成人在线一区| 欧美精品影院| 美女视频黄免费的久久| 日韩av在线播放网址| 久久国产直播| 伊人久久亚洲美女图片| 视频一区视频二区中文| 亚洲深深色噜噜狠狠爱网站| 亚州国产精品| 久久av资源| 天堂√8在线中文| 五月天久久777| 亚洲男女自偷自拍| 欧美日本三区| av高清不卡| 国产精品婷婷| 97久久精品| 久久精品国产福利| 国产91精品对白在线播放| 六月婷婷一区| 国产日韩欧美一区在线| 国产精品不卡| 欧美日韩国产高清| 日本成人精品| 最新中文字幕在线播放| 欧美日韩国产高清| 日本91福利区| 麻豆精品久久久| 久久久久久久久久久9不雅视频| 伊人影院久久| 国产欧美日韩精品一区二区免费| 国产videos久久| 亚洲一卡久久| 国产精品一区亚洲| 亚洲91精品| 日韩在线成人| 在线观看精品| 日韩精品高清不卡| 麻豆mv在线观看| 亚洲毛片在线免费| 中文字幕高清在线播放| 蜜桃视频在线观看一区二区| 国产精品九九| 在线综合亚洲| 久久中文字幕一区二区三区| 91精品在线观看国产| 日本欧美久久久久免费播放网| 首页国产精品| 美国欧美日韩国产在线播放| 久久精品一本| 免费不卡在线观看| 91日韩免费| 亚洲免费毛片| 久久精品国内一区二区三区水蜜桃| 亚洲97av| 国内亚洲精品| 国产精品久久久一区二区| 亚洲精品在线影院| 国产丝袜一区| 日韩视频久久| 国产成人精品一区二区免费看京| 在线国产日韩| 欧美一级精品| 欧美国产另类| 久久国产66| 99久久夜色精品国产亚洲1000部| 国产精品网址| 免费一区二区视频| 美女网站视频一区| 国产精品xxx在线观看| 性色一区二区| 久久婷婷一区|