日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術(shù)文章
文章詳情頁

python - scrapy爬取手機(jī)版微博weibo.cn模擬登錄出先問題

瀏覽:215日期:2022-08-03 14:03:35

問題描述

代碼如下,不知道為什么一直不能成功登錄

># -*- coding: utf-8 -*-import scrapyimport reimport requests#import urllibfrom bs4 import BeautifulSoupfrom scrapy.linkextractors import LinkExtractorfrom scrapy.spiders import CrawlSpider, Rulefrom scrapy.loader import ItemLoaderfrom scrapy.loader.processors import MapCompose, Joinfrom scrapy.http import Request,FormRequestfrom getweibo.items import InformationItem,TweetsItemloginURL = 'https://login.weibo.cn/login/'#獲得驗證碼等信息def get_captchainfo(loginURL): html = requests.get(loginURL).content bs = BeautifulSoup(html,'lxml') #print bs #注意通過bs.select元素尋找對象,返回的是列表對象 password_name = (bs.select(’input[type='password']’))[0].get(’name’) vk = (bs.select(’input[name='vk']’))[0].get(’value’) capId = (bs.select(’input[name='capId']’))[0].get(’value’) #print password_name,vk,capId captcha_img = bs.find('img', src=re.compile(’http://weibo.cn/interface/f/ttt/captcha/’)).get(’src’) print captcha_img #captchaid可以從驗證碼圖片地址中直接截取獲得 #urllib.urlretrieve(captcha_img, ’weibo_spider/image/captcha.jpg’) #print 'captcha download success!' captcha_input = raw_input('please input the captchan>') return (captcha_input,password_name,vk,capId)class WeiboSpider(CrawlSpider): name = ’weibo’ allowed_domains = [’weibo.cn’] start_urls = [’http://weibo.cn/dafendi’]#先暫時確定精分君的微博,之后start_urls可以從文件提取 rules = (Rule(LinkExtractor(restrict_xpaths=’//*[@id='pagelist']/form/p/a’)),Rule(LinkExtractor(restrict_xpaths=’//*[contains(@href,'repost')]’),callback=’parse_item’) ) headers = { 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8', 'Accept-Encoding': 'gzip, deflate, br', 'Accept-Language': 'zh-CN,zh;q=0.8', 'Connection': 'keep-alive', 'Content-Type':' application/x-www-form-urlencoded', 'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36', 'Referer': 'https://login.weibo.cn/login/' } # Start on the welcome page def start_requests(self):return [ Request(loginURL,meta = {’cookiejar’: 1},headers=self.headers,callback=self.parse_login)] # Post welcome page’s first form with the given user/pass def parse_login(self, response):print ’Preparing login’captcha=get_captchainfo(loginURL)print captcha return FormRequest.from_response( response,#from loginURL method='POST', meta = {’cookiejar’ : response.meta[’cookiejar’]},#獲取cookies headers = self.headers, formdata = { 'mobile': '帳號', captcha[1]: '密碼', 'code': captcha[0], 'remember':'on', 'backurl': 'http%3A%2F%2Fweibo.cn', 'backtitle':u’手機(jī)新浪網(wǎng)’, 'tryCount':'', 'vk': captcha[2], 'capId': captcha[3], 'submit': u’登錄’}, callback = self.after_login, dont_filter = True) def after_login(self, response) :for url in self.start_urls : yield self.make_requests_from_url(url) def parse_start_url(self, response):#用來處理初始responsehtml = response.xpath(’/html’).extract()print html # Create the loader using the response l = ItemLoader(item=InformationItem(), response=response) # Load fields using XPath expressionsl.add_xpath(’id_’, ’//title/text()’, MapCompose(lambda i:i[0:len(i)-3])),l.add_xpath(’Info’,’//span[contains(@class,'ctt')][2]/text()’),l.add_xpath(’Num_Tweets’,’//span[contains(@class,'tc')]/text()’,MapCompose(lambda i: i[(i.index('[')+1):(i.index(']'))])),l.add_xpath(’Num_Follows’,’//a[contains(@href,'follow')]/text()’,MapCompose(lambda i: i[(i.index('[')+1):(i.index(']'))])),l.add_xpath(’Num_Fans’,’//a[contains(@href,'fans')]/text()’,MapCompose(lambda i: i[(i.index('[')+1):(i.index(']'))])),return l.load_item() def parse_item(self, response): l = ItemLoader(item=TweetsItem(), response=response) l.add_xpath(’Content’,’//span[contains(@class,'ctt')]/text()’) #l.add_xpath(’’) return l.load_item()

下邊settins.py的內(nèi)容

ROBOTSTXT_OBEY = FalseHTTPERROR_ALLOWED_CODES = [302,]#返回400時按正常的返回對待REDIRECT_ENABLED = False #關(guān)掉重定向,不會重定向到新的地址DOWNLOAD_DELAY = 3COOKIES_ENABLED = TrueCOOKIES_DEBUG = True

下邊是輸出

2017-04-09 15:53:17 [scrapy] DEBUG: Sending cookies to: <POST https://login.weibo.cn/login/?rand=201282002&backURL=http%3A%2F%2Fweibo.cn&backTitle=%E6%89%8B%E6%9C%BA%E6%96%B0%E6%B5%AA%E7%BD%91&vt=4>Cookie: _T_WM=6348fb8a523fe1bc486f14d1304cf0d22017-04-09 15:53:19 [scrapy] DEBUG: Received cookies from: <302 https://login.weibo.cn/login/?rand=201282002&backURL=http%3A%2F%2Fweibo.cn&backTitle=%E6%89%8B%E6%9C%BA%E6%96%B0%E6%B5%AA%E7%BD%91&vt=4>Set-Cookie: WEIBOCN_FROM=deleted; expires=Thu, 01-Jan-1970 00:00:01 GMT; path=/; domain=.weibo.cnSet-Cookie: SUB=_2A2517Zg9DeRhGeVG61ER8yrEwzyIHXVXETh1rDV6PUJbkdAKLRXgkW0wSZc8S6dp1d-NlyAraSqa-1-_0Q..; expires=Tue, 09-May-2017 07:53:17 GMT; path=/; domain=.weibo.cn; httponlySet-Cookie: gsid_CTandWM=4uuCcdef1lRXUEnMtsgL1fXlgec; expires=Tue, 09-May-2017 07:53:19 GMT; path=/; domain=.weibo.cn; httponly2017-04-09 15:53:19 [scrapy] DEBUG: Crawled (302) <POST https://login.weibo.cn/login/?rand=201282002&backURL=http%3A%2F%2Fweibo.cn&backTitle=%E6%89%8B%E6%9C%BA%E6%96%B0%E6%B5%AA%E7%BD%91&vt=4> (referer: https://login.weibo.cn/login/)2017-04-09 15:53:20 [scrapy] DEBUG: Received cookies from: <200 http://weibo.cn/dafendi>Set-Cookie: _T_WM=80e15f38a0dfb65ea7bbcd00ebcaf1c0; expires=Tue, 09-May-2017 07:53:19 GMT; path=/; domain=.weibo.cn; httponlySet-Cookie: WEIBOCN_FROM=deleted; expires=Thu, 01-Jan-1970 00:00:01 GMT; path=/; domain=.weibo.cn2017-04-09 15:53:20 [scrapy] DEBUG: Crawled (200) <GET http://weibo.cn/dafendi> (referer: https://login.weibo.cn/login/?rand=201282002&backURL=http%3A%2F%2Fweibo.cn&backTitle=%E6%89%8B%E6%9C%BA%E6%96%B0%E6%B5%AA%E7%BD%91&vt=4)2017-04-09 15:53:20 [scrapy] DEBUG: Scraped from <200 http://weibo.cn/dafendi>{’Info’: [u’u8ba4u8bc1uff1au77e5u540du5e7du9ed8u535au4e3b u5faeu535au7b7eu7ea6u81eau5a92u4f53’], ’Num_Fans’: [u’2055326’], ’Num_Follows’: [u’891’], ’Num_Tweets’: [u’1958’], ’id_’: [u’u7cbeu5206u541b’]}2017-04-09 15:53:20 [scrapy] DEBUG: Sending cookies to: <GET http://weibo.cn/repost/EDsDTFqfJ?rl=0&uid=2626948743>Cookie: _T_WM=80e15f38a0dfb65ea7bbcd00ebcaf1c02017-04-09 15:53:20 [scrapy] DEBUG: Sending cookies to: <GET http://weibo.cn/repost/EDxAwrBrG?rl=0&uid=2626948743>Cookie: _T_WM=80e15f38a0dfb65ea7bbcd00ebcaf1c02017-04-09 15:53:20 [scrapy] DEBUG: Sending cookies to: <GET http://weibo.cn/repost/EDBmajRBl?rl=0&uid=2626948743>Cookie: _T_WM=80e15f38a0dfb65ea7bbcd00ebcaf1c02017-04-09 15:53:20 [scrapy] DEBUG: Sending cookies to: <GET http://weibo.cn/repost/CsN9LnQiG?rl=0&uid=2626948743>Cookie: _T_WM=80e15f38a0dfb65ea7bbcd00ebcaf1c02017-04-09 15:53:24 [scrapy] DEBUG: Received cookies from: <200 http://weibo.cn/repost/EDsDTFqfJ?rl=0&uid=2626948743>Set-Cookie: WEIBOCN_FROM=deleted; expires=Thu, 01-Jan-1970 00:00:01 GMT; path=/; domain=.weibo.cn2017-04-09 15:53:24 [scrapy] DEBUG: Crawled (200) <GET http://weibo.cn/repost/EDsDTFqfJ?rl=0&uid=2626948743> (referer: http://weibo.cn/dafendi)2017-04-09 15:53:24 [scrapy] DEBUG: Scraped from <200 http://weibo.cn/repost/EDsDTFqfJ?rl=0&uid=2626948743>{’Content’: [u’:’, u’ u5047u5982u4efbu4f55u4e8bu90fdu80fdu6210u4e3au804cu4e1auff0cu4f60u4f1au9009u62e9u4ec0u4e48u4f5cu4e3au804cu4e1auff1f u200bu200bu200b’]}2017-04-09 15:53:28 [scrapy] DEBUG: Received cookies from: <200 http://weibo.cn/repost/EDxAwrBrG?rl=0&uid=2626948743>Set-Cookie: WEIBOCN_FROM=deleted; expires=Thu, 01-Jan-1970 00:00:01 GMT; path=/; domain=.weibo.cn2017-04-09 15:53:28 [scrapy] DEBUG: Crawled (200) <GET http://weibo.cn/repost/EDxAwrBrG?rl=0&uid=2626948743> (referer: http://weibo.cn/dafendi)2017-04-09 15:53:28 [scrapy] DEBUG: Scraped from <200 http://weibo.cn/repost/EDxAwrBrG?rl=0&uid=2626948743>{’Content’: [u’u7279u522bu7684u751fu65e5u793cu7269u3002 u200bu200bu200b’]}2017-04-09 15:53:32 [scrapy] DEBUG: Received cookies from: <200 http://weibo.cn/repost/EDBmajRBl?rl=0&uid=2626948743>Set-Cookie: WEIBOCN_FROM=deleted; expires=Thu, 01-Jan-1970 00:00:01 GMT; path=/; domain=.weibo.cn2017-04-09 15:53:32 [scrapy] DEBUG: Crawled (200) <GET http://weibo.cn/repost/EDBmajRBl?rl=0&uid=2626948743> (referer: http://weibo.cn/dafendi)2017-04-09 15:53:32 [scrapy] DEBUG: Scraped from <200 http://weibo.cn/repost/EDBmajRBl?rl=0&uid=2626948743>{’Content’: [u’u7231u7b11u7684u5973u5b69u5b50uff0cu8fd0u6c14u4e00u5b9au4e0du4f1au592au597du2026u2026’, u’ u200bu200bu200b’]}2017-04-09 15:53:36 [scrapy] DEBUG: Received cookies from: <200 http://weibo.cn/repost/CsN9LnQiG?rl=0&uid=2626948743>Set-Cookie: WEIBOCN_FROM=deleted; expires=Thu, 01-Jan-1970 00:00:01 GMT; path=/; domain=.weibo.cn2017-04-09 15:53:36 [scrapy] DEBUG: Crawled (200) <GET http://weibo.cn/repost/CsN9LnQiG?rl=0&uid=2626948743> (referer: http://weibo.cn/dafendi)2017-04-09 15:53:36 [scrapy] DEBUG: Scraped from <200 http://weibo.cn/repost/CsN9LnQiG?rl=0&uid=2626948743>{’Content’: [u’:u4e00u4e2au957fu5faeu535au5408u96c6uff0cu5927u5bb6u65e0u804au53c8u6ca1u770bu8fc7u7684u8bddu53efu4ee5u770bu770b[u7f9eu55d2u55d2] u200bu200bu200b’]}2017-04-09 15:53:36 [scrapy] INFO: Closing spider (finished)2017-04-09 15:53:36 [scrapy] INFO: Stored json feed (5 items) in: wanghongmingdan.json2017-04-09 15:53:36 [scrapy] INFO: Dumping Scrapy stats:{’downloader/request_bytes’: 3029, ’downloader/request_count’: 7, ’downloader/request_method_count/GET’: 6, ’downloader/request_method_count/POST’: 1, ’downloader/response_bytes’: 22746, ’downloader/response_count’: 7, ’downloader/response_status_count/200’: 6, ’downloader/response_status_count/302’: 1, ’finish_reason’: ’finished’, ’finish_time’: datetime.datetime(2017, 4, 9, 7, 53, 36, 596076), ’item_scraped_count’: 5, ’log_count/DEBUG’: 27, ’log_count/INFO’: 8, ’log_count/WARNING’: 2, ’request_depth_max’: 3, ’response_received_count’: 7, ’scheduler/dequeued’: 7, ’scheduler/dequeued/memory’: 7, ’scheduler/enqueued’: 7, ’scheduler/enqueued/memory’: 7, ’start_time’: datetime.datetime(2017, 4, 9, 7, 53, 2, 180831)}2017-04-09 15:53:36 [scrapy] INFO: Spider closed (finished)2017-04-09 20:11:50 [scrapy] DEBUG: Redirecting (302) to <GET http://weibo.cn/crossDomain/?g=4uegcdef1d93rkj4S3ZomfXlgec&t=1491739909&m=9144&r=&u=http%3A%2F%2Fweibo.cn%3Fgsid%3D4uegcdef1d93rkj4S3ZomfXlgec%26PHPSESSID%3D%26vt%3D4&cross=1&st=ST-MzgwMzAzNDg4MA==-1491739909-tc-27ED8C8D7528C9185E75F7986B8050B7-1,ST-MzgwMzAzNDg4MA==-1491739909-tc-BED83CC16AC311D2BBA234E8F08BBD39-1> from <POST https://login.weibo.cn/login/?rand=842328789&backURL=http%3A%2F%2Fweibo.cn&backTitle=%E6%89%8B%E6%9C%BA%E6%96%B0%E6%B5%AA%E7%BD%91&vt=4>2017-04-09 20:11:50 [scrapy] DEBUG: Redirecting (meta refresh) to <GET http://weibo.cn/> from <GET http://weibo.cn/crossDomain/?g=4uegcdef1d93rkj4S3ZomfXlgec&t=1491739909&m=9144&r=&u=http%3A%2F%2Fweibo.cn%3Fgsid%3D4uegcdef1d93rkj4S3ZomfXlgec%26PHPSESSID%3D%26vt%3D4&cross=1&st=ST-MzgwMzAzNDg4MA==-1491739909-tc-27ED8C8D7528C9185E75F7986B8050B7-1,ST-MzgwMzAzNDg4MA==-1491739909-tc-BED83CC16AC311D2BBA234E8F08BBD39-1>

問題解答

回答1:

建議你在做模擬登陸的時候,打開抓包軟件抓包,進(jìn)行調(diào)試,這樣你才能知道通過程序請求目標(biāo)服務(wù)器返回的內(nèi)容和你手動請求服務(wù)器返回的內(nèi)容是否有差異。對于微博數(shù)據(jù)采集我也有一定的經(jīng)驗,我剛看了你的代碼,發(fā)現(xiàn)和我以前寫的模擬登陸微博有一定的差異,這是我的代碼,我剛檢查了還能用。我又去對比了一下我兩代碼的差異,發(fā)現(xiàn)你雖然是抓的wap版微博,但是你的UA用的是PC端的UA,所以會彈出驗證碼,提交的參數(shù)也不相同。你的代碼出錯應(yīng)該是有一步跳轉(zhuǎn)需要手動訪問,你沒有進(jìn)行訪問,這個你可以抓包看看。感覺現(xiàn)在微博wap端的反爬也開始重視起來了啊。如果想更好的理解模擬登陸微博,可以看看我的這篇文章。截至現(xiàn)在,該方法都可用

標(biāo)簽: 微博 Python
相關(guān)文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
在线日韩电影| 久久一区二区三区喷水| 亚洲二区三区不卡| 亚洲天堂1区| 日韩中文影院| 亚洲欧美日韩高清在线| 日韩欧美精品综合| 久久天堂精品| 99成人在线| 国产日产精品_国产精品毛片| 清纯唯美亚洲综合一区| 国产精品一区二区中文字幕| 国产精品99久久免费观看| 美女久久久久久| 91精品一区二区三区综合| 欧美一区三区| 蜜臀av亚洲一区中文字幕| 亚洲aa在线| 精品视频一区二区三区在线观看| 亚洲伊人av| aⅴ色国产欧美| 视频一区中文字幕国产| 国产亚洲精品美女久久| 国产一区调教| 美女网站一区| 欧美亚洲综合视频| 欧洲一区二区三区精品| 蜜臀av在线播放一区二区三区| 麻豆91在线播放| 欧美精品自拍| 精品视频自拍| 综合一区二区三区| 三级精品视频| 国产伦理一区| 老司机精品久久| caoporn视频在线| 中文字幕日本一区二区| 成午夜精品一区二区三区软件| 男人天堂欧美日韩| 福利一区在线| 青青草精品视频| 久热精品在线| re久久精品视频| 97人人精品| 美女久久99| 国产精品欧美在线观看| 婷婷成人av| 婷婷综合亚洲| av中文字幕在线观看第一页| 欧美伊人久久| 青草国产精品| 亚洲香蕉久久| 免费av一区| 精品亚洲美女网站| av中文资源在线资源免费观看| 国产精品嫩草影院在线看| 免费成人在线视频观看| 午夜日韩福利| 免费在线欧美视频| 亚洲三级网站| 日韩国产精品久久久久久亚洲| 亚洲免费影视| 午夜在线精品| 综合色就爱涩涩涩综合婷婷| 中文字幕一区二区三区在线视频| 亚洲少妇在线| 日韩视频二区| 国产精品美女| 中文字幕成人| 久久精品超碰| 国产欧美日韩免费观看| 国产精品亚洲综合色区韩国| 国产区精品区| 国产一区二区三区网| 日韩黄色大片| 91久久久精品国产| 亚洲乱亚洲高清| 国产精品伊人| 在线亚洲人成| 在线一区免费观看| 欧美一区自拍| 国产精品伦理久久久久久| 国产一二在线播放| 亚洲激情另类| 麻豆精品国产91久久久久久| 日本欧美国产| 久久午夜视频| 高清av一区| 视频一区国产视频| 久久三级中文| 亚洲免费在线| 国产精选在线| 亚洲我射av| 日韩欧美国产精品综合嫩v| 久久国产福利| а√天堂8资源中文在线| 亚洲激情另类| 久久97视频| 亚洲人成毛片在线播放女女| 成人午夜毛片| 日本不卡不码高清免费观看| 日韩免费福利视频| 国产精选久久| 亚洲日产国产精品| 精品一区亚洲| 三上亚洲一区二区| 青青伊人久久| 亚洲影院天堂中文av色| 成人日韩在线观看| 国产精品xxxav免费视频| 免费视频久久| 欧美色图一区| 日本一二区不卡| 欧美精品国产一区| 日韩区一区二| 亚州国产精品| 亚洲免费毛片| 亚洲精品日本| 视频一区二区三区中文字幕| 国产综合精品| 亚洲午夜一级| 久久精品国产www456c0m| 加勒比视频一区| 九九九精品视频| 久久99性xxx老妇胖精品| 久久激情综合网| 天堂久久av| 亚洲综合小说| 日韩av一级片| 国产欧美一区二区三区国产幕精品 | 欧美69视频| 亚洲成人精品| 久久久久久自在自线| 丁香婷婷久久| 国产美女一区| 99日韩精品| 免费人成在线不卡| 日本精品国产| 亚洲精品麻豆| 国产精品66| 日韩在线看片| 夜久久久久久| 国产极品模特精品一二| 国产精品久久| 日韩精品诱惑一区?区三区| 国产一区久久| 天海翼亚洲一区二区三区| 91嫩草精品| 亚洲h色精品| 99在线观看免费视频精品观看| 日韩欧美中文字幕在线视频| 国产精品免费不| 日韩精品一区二区三区免费观影 | 中文字幕一区二区三区在线视频| 日本欧美一区二区| 国产精品视频一区二区三区四蜜臂 | 人在线成免费视频| 亚洲激情中文在线| 日韩亚洲精品在线观看| 国产精品一区二区三区www| 91日韩免费| 热久久免费视频| 首页国产精品| 视频在线观看一区| 国产91在线播放精品| 91久久亚洲| 六月婷婷一区| 精品视频高潮| 亚洲深爱激情| 国产专区精品| 在线综合亚洲| 日韩一区亚洲二区| 中文字幕日韩亚洲| 国产高潮在线| 日本午夜精品视频在线观看| 黑人精品一区| 日韩av中文字幕一区二区| 久久精品123| 国产精品一二| 日韩中文字幕区一区有砖一区| 精品免费在线| 国产视频一区在线观看一区免费| 欧美亚洲免费| 久久免费大视频| 久久99久久久精品欧美| 国产精品日韩久久久| 国产不卡人人| 国产精品hd| 日韩精品一卡二卡三卡四卡无卡| 天堂av在线| 麻豆国产精品一区二区三区| 亚洲婷婷丁香| 国产模特精品视频久久久久| 丝袜美腿诱惑一区二区三区| 欧美国产不卡| 国产精品一区二区美女视频免费看 | 午夜av成人| 国产精品久久久久蜜臀 | 欧美精品日日操| 成人国产综合|