日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術(shù)文章
文章詳情頁

Python爬蟲實(shí)戰(zhàn)之使用Scrapy爬取豆瓣圖片

瀏覽:245日期:2022-06-14 16:32:24
使用Scrapy爬取豆瓣某影星的所有個(gè)人圖片

以莫妮卡·貝魯奇為例

Python爬蟲實(shí)戰(zhàn)之使用Scrapy爬取豆瓣圖片

1.首先我們?cè)诿钚羞M(jìn)入到我們要?jiǎng)?chuàng)建的目錄,輸入 scrapy startproject banciyuan 創(chuàng)建scrapy項(xiàng)目

創(chuàng)建的項(xiàng)目結(jié)構(gòu)如下

Python爬蟲實(shí)戰(zhàn)之使用Scrapy爬取豆瓣圖片

2.為了方便使用pycharm執(zhí)行scrapy項(xiàng)目,新建main.py

from scrapy import cmdlinecmdline.execute('scrapy crawl banciyuan'.split())

再edit configuration

Python爬蟲實(shí)戰(zhàn)之使用Scrapy爬取豆瓣圖片

然后進(jìn)行如下設(shè)置,設(shè)置后之后就能通過運(yùn)行main.py運(yùn)行scrapy項(xiàng)目了

Python爬蟲實(shí)戰(zhàn)之使用Scrapy爬取豆瓣圖片

3.分析該HTML頁面,創(chuàng)建對(duì)應(yīng)spider

Python爬蟲實(shí)戰(zhàn)之使用Scrapy爬取豆瓣圖片

from scrapy import Spiderimport scrapyfrom banciyuan.items import BanciyuanItemclass BanciyuanSpider(Spider): name = ’banciyuan’ allowed_domains = [’movie.douban.com’] start_urls = ['https://movie.douban.com/celebrity/1025156/photos/'] url = 'https://movie.douban.com/celebrity/1025156/photos/' def parse(self, response):num = response.xpath(’//div[@class='paginator']/a[last()]/text()’).extract_first(’’)print(num)for i in range(int(num)): suffix = ’?type=C&start=’ + str(i * 30) + ’&sortby=like&size=a&subtype=a’ yield scrapy.Request(url=self.url + suffix, callback=self.get_page) def get_page(self, response):href_list = response.xpath(’//div[@class='article']//div[@class='cover']/a/@href’).extract()# print(href_list)for href in href_list: yield scrapy.Request(url=href, callback=self.get_info) def get_info(self, response):src = response.xpath( ’//div[@class='article']//div[@class='photo-show']//div[@class='photo-wp']/a[1]/img/@src’).extract_first(’’)title = response.xpath(’//div[@id='content']/h1/text()’).extract_first(’’)# print(response.body)item = BanciyuanItem()item[’title’] = titleitem[’src’] = [src]yield item

4.items.py

# Define here the models for your scraped items## See documentation in:# https://docs.scrapy.org/en/latest/topics/items.htmlimport scrapyclass BanciyuanItem(scrapy.Item): # define the fields for your item here like: src = scrapy.Field() title = scrapy.Field()

pipelines.py

# Define your item pipelines here## Don’t forget to add your pipeline to the ITEM_PIPELINES setting# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html# useful for handling different item types with a single interfacefrom itemadapter import ItemAdapterfrom scrapy.pipelines.images import ImagesPipelineimport scrapyclass BanciyuanPipeline(ImagesPipeline): def get_media_requests(self, item, info):yield scrapy.Request(url=item[’src’][0], meta={’item’: item}) def file_path(self, request, response=None, info=None, *, item=None):item = request.meta[’item’]image_name = item[’src’][0].split(’/’)[-1]# image_name.replace(’.webp’, ’.jpg’)path = ’%s/%s’ % (item[’title’].split(’ ’)[0], image_name)return path

settings.py

# Scrapy settings for banciyuan project## For simplicity, this file contains only settings considered important or# commonly used. You can find more settings consulting the documentation:## https://docs.scrapy.org/en/latest/topics/settings.html# https://docs.scrapy.org/en/latest/topics/downloader-middleware.html# https://docs.scrapy.org/en/latest/topics/spider-middleware.htmlBOT_NAME = ’banciyuan’SPIDER_MODULES = [’banciyuan.spiders’]NEWSPIDER_MODULE = ’banciyuan.spiders’# Crawl responsibly by identifying yourself (and your website) on the user-agentUSER_AGENT = {’User-Agent’:’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.80 Safari/537.36’}# Obey robots.txt rulesROBOTSTXT_OBEY = False# Configure maximum concurrent requests performed by Scrapy (default: 16)#CONCURRENT_REQUESTS = 32# Configure a delay for requests for the same website (default: 0)# See https://docs.scrapy.org/en/latest/topics/settings.html#download-delay# See also autothrottle settings and docs#DOWNLOAD_DELAY = 3# The download delay setting will honor only one of:#CONCURRENT_REQUESTS_PER_DOMAIN = 16#CONCURRENT_REQUESTS_PER_IP = 16# Disable cookies (enabled by default)#COOKIES_ENABLED = False# Disable Telnet Console (enabled by default)#TELNETCONSOLE_ENABLED = False# Override the default request headers:#DEFAULT_REQUEST_HEADERS = {# ’Accept’: ’text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8’,# ’Accept-Language’: ’en’,#}# Enable or disable spider middlewares# See https://docs.scrapy.org/en/latest/topics/spider-middleware.html#SPIDER_MIDDLEWARES = {# ’banciyuan.middlewares.BanciyuanSpiderMiddleware’: 543,#}# Enable or disable downloader middlewares# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html#DOWNLOADER_MIDDLEWARES = {# ’banciyuan.middlewares.BanciyuanDownloaderMiddleware’: 543,#}# Enable or disable extensions# See https://docs.scrapy.org/en/latest/topics/extensions.html#EXTENSIONS = {# ’scrapy.extensions.telnet.TelnetConsole’: None,#}# Configure item pipelines# See https://docs.scrapy.org/en/latest/topics/item-pipeline.htmlITEM_PIPELINES = { ’banciyuan.pipelines.BanciyuanPipeline’: 1,}IMAGES_STORE = ’./images’# Enable and configure the AutoThrottle extension (disabled by default)# See https://docs.scrapy.org/en/latest/topics/autothrottle.html#AUTOTHROTTLE_ENABLED = True# The initial download delay#AUTOTHROTTLE_START_DELAY = 5# The maximum download delay to be set in case of high latencies#AUTOTHROTTLE_MAX_DELAY = 60# The average number of requests Scrapy should be sending in parallel to# each remote server#AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0# Enable showing throttling stats for every response received:#AUTOTHROTTLE_DEBUG = False# Enable and configure HTTP caching (disabled by default)# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings#HTTPCACHE_ENABLED = True#HTTPCACHE_EXPIRATION_SECS = 0#HTTPCACHE_DIR = ’httpcache’#HTTPCACHE_IGNORE_HTTP_CODES = []#HTTPCACHE_STORAGE = ’scrapy.extensions.httpcache.FilesystemCacheStorage’

5.爬取結(jié)果

Python爬蟲實(shí)戰(zhàn)之使用Scrapy爬取豆瓣圖片

reference

源碼

到此這篇關(guān)于Python爬蟲實(shí)戰(zhàn)之使用Scrapy爬取豆瓣圖片的文章就介紹到這了,更多相關(guān)Scrapy爬取豆瓣圖片內(nèi)容請(qǐng)搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)!

標(biāo)簽: 豆瓣 Python 編程語言
相關(guān)文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
国产在线成人| 欧美激情亚洲| 日韩精品2区| 美女尤物国产一区| 国产精品a级| 精品久久久久久久| 福利一区二区三区视频在线观看| 久久午夜影院| 国产成人免费视频网站视频社区| 欧美视频久久| 欧美国产日韩电影| 日韩国产精品久久久久久亚洲| 午夜久久av| 欧美在线首页| 久久精品国产99国产精品| 成人国产精选| 99久久99久久精品国产片果冰 | 好吊日精品视频| 中文精品在线| 亚洲精品精选| 国产精品日本一区二区三区在线| 精品亚洲二区| 国产99久久| 亚洲一二三区视频| 欧美国产极品| 日韩在线短视频| 91久久午夜| 日韩不卡手机在线v区| 久久一区国产| 亚洲香蕉网站| 婷婷久久免费视频| 麻豆91精品视频| 成人看片网站| 综合亚洲视频| 久久亚洲人体| 亚洲女同一区| 久久激五月天综合精品| a国产在线视频| 午夜电影亚洲| 欧美一级网址| 97se综合| 亚洲精品一二| 三级在线看中文字幕完整版| 最新日韩av| 久久久久97| 黄色日韩精品| 国产精品一区二区三区四区在线观看 | 国产精选在线| 精品国产aⅴ| 日韩视频免费| 国产精品v一区二区三区| 日韩黄色大片| 日韩精品免费一区二区夜夜嗨| 日韩av免费大片| 久久精品观看| 国产精品一站二站| 亚洲在线电影| 国产一区二区三区久久久久久久久| 激情久久五月| 国产精品久久久网站| 亚洲精品2区| 激情综合五月| 亚洲另类黄色| 久久人人精品| 国产日韩在线观看视频| 国产99久久| 美女高潮久久久| 男女男精品视频网| 日韩啪啪电影网| 国产一卡不卡| 国产美女精品| 国产精品亚洲一区二区三区在线观看| 日韩不卡在线观看日韩不卡视频| 婷婷成人综合| 九九九精品视频| 亚洲精品在线二区| 欧美 日韩 国产精品免费观看| 国产精品毛片视频| 亚洲一二av| 欧美亚洲国产一区| 欧美肉体xxxx裸体137大胆| 国产精品久一| 亚洲人亚洲人色久| 一区视频在线| 秋霞影视一区二区三区| 美女在线视频一区| 日韩av不卡在线观看| 中日韩男男gay无套| 美女av在线免费看| 男人的天堂亚洲一区| 尤物tv在线精品| 给我免费播放日韩视频| 日韩高清在线观看一区二区| 欧美日韩国产传媒| 国产精品videossex| 综合日韩在线| 久久成人精品| 狠狠色综合网| 91成人精品| 亚洲二区在线| 亚洲精品国产嫩草在线观看 | 色一区二区三区| 国产无遮挡裸体免费久久| 亚洲人成精品久久久| 合欧美一区二区三区| 久久亚洲国产| 91精品精品| 国产精品成人a在线观看| 日韩国产91| 亚洲ab电影| 一区二区精品| 在线午夜精品| 日韩制服丝袜先锋影音| 亚洲专区在线| 日韩在线卡一卡二| 巨乳诱惑日韩免费av| 久久久国产亚洲精品| 高清av不卡| 亚洲精品在线影院| 日韩另类视频| 午夜av不卡| 久久国产主播| 自由日本语亚洲人高潮| 99久久精品网站| 国产91精品对白在线播放| 亚洲国产专区| 天堂网在线观看国产精品| 欧美 日韩 国产精品免费观看| 欧美日韩激情| 国产免费成人| 亚洲精品三级| 欧美日韩一区二区三区不卡视频| 欧美日韩 国产精品| 国产欧美欧美| 精品视频网站| se01亚洲视频| 红桃视频国产精品| 亚洲精品动态| 日韩av一区二区三区| 国产剧情一区二区在线观看| 麻豆一区二区99久久久久| a国产在线视频| 精品一区三区| 日韩在线麻豆| 久久精品一区二区国产| 日韩久久精品| 欧美日韩国产综合网| 欧美日韩国产综合网| 中文字幕av亚洲精品一部二部| 日本h片久久| 水蜜桃久久夜色精品一区| 91精品在线观看国产| 国产精品老牛| 亚洲tv在线| 久久影院资源站| 久久人人88| 视频一区视频二区中文字幕| 日本va欧美va精品发布| 国产成人精品一区二区三区在线| 久久久久美女| 亚洲精选av| 精品视频一区二区三区在线观看| 欧美不卡高清一区二区三区| 免费观看在线综合| 美女视频一区在线观看| 欧美成a人国产精品高清乱码在线观看片在线观看久 | av在线资源| 国产精品婷婷| 国产欧美在线| 99精品视频精品精品视频| 中文字幕视频精品一区二区三区 | 国产农村妇女精品一二区| 日韩一区二区三区高清在线观看| 久久精品国产99国产| 午夜久久tv| 久久黄色影视| 日韩一区二区三区在线免费观看| 日韩精品一级二级| 国产精品香蕉| 久久久91麻豆精品国产一区| 国产韩日影视精品| 国产精品丝袜在线播放| 99久久www免费| 国产亚洲一区二区三区啪| 久久青草久久| 欧美精品三级在线| 激情婷婷亚洲| 国产欧美日韩在线一区二区| 欧美日韩精品在线一区| 欧美一区成人| 亚洲第一精品影视| 免费看一区二区三区| 香蕉成人久久| 另类欧美日韩国产在线| 亚洲一卡久久| 国产白浆在线免费观看| 日韩精品一级| 香蕉久久99| 精品一区不卡| 日韩中文字幕无砖|