日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術文章
文章詳情頁

python實現Scrapy爬取網易新聞

瀏覽:234日期:2022-06-24 13:40:11
1. 新建項目

在命令行窗口下輸入scrapy startproject scrapytest, 如下

python實現Scrapy爬取網易新聞

然后就自動創建了相應的文件,如下

python實現Scrapy爬取網易新聞

2. 修改itmes.py文件

打開scrapy框架自動創建的items.py文件,如下

# Define here the models for your scraped items## See documentation in:# https://docs.scrapy.org/en/latest/topics/items.htmlimport scrapyclass ScrapytestItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() pass

編寫里面的代碼,確定我要獲取的信息,比如新聞標題,url,時間,來源,來源的url,新聞的內容等

class ScrapytestItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() title = scrapy.Field() timestamp = scrapy.Field() category = scrapy.Field() content = scrapy.Field() url = scrapy.Field() pass3. 定義spider,創建一個爬蟲模板3.1 創建crawl爬蟲模板

在命令行窗口下面 創建一個crawl爬蟲模板(注意在文件的根目錄下面,指令檢查別輸入錯誤,-t 表示使用后面的crawl模板),會在spider文件夾生成一個news163.py文件

scrapy genspider -t crawl codingce news.163.com

然后看一下這個‘crawl’模板和一般的模板有什么區別,多了鏈接提取器還有一些爬蟲規則,這樣就有利于我們做一些深度信息的爬取

import scrapyfrom scrapy.linkextractors import LinkExtractorfrom scrapy.spiders import CrawlSpider, Ruleclass CodingceSpider(CrawlSpider): name = ’codingce’ allowed_domains = [’163.com’] start_urls = [’http://news.163.com/’] rules = ( Rule(LinkExtractor(allow=r’Items/’), callback=’parse_item’, follow=True), ) def parse_item(self, response): item = {} #item[’domain_id’] = response.xpath(’//input[@id='sid']/@value’).get() #item[’name’] = response.xpath(’//div[@id='name']’).get() #item[’description’] = response.xpath(’//div[@id='description']’).get() return item3.2 補充知識:selectors選擇器

支持xpath和css,xpath語法如下

/html/head/title/html/head/title/text()//td (深度提取的話就是兩個/)//div[@class=‘mine’]3.3. 分析網頁內容

在谷歌chrome瀏覽器下,打在網頁新聞的網站,選擇查看源代碼,確認我們可以獲取到itmes.py文件的內容(其實那里面的要獲取的就是查看了網頁源代碼之后確定可以獲取的)

確認標題、時間、url、來源url和內容可以通過檢查和標簽對應上,比如正文部分

主體

python實現Scrapy爬取網易新聞

標題

python實現Scrapy爬取網易新聞

時間

python實現Scrapy爬取網易新聞

分類

python實現Scrapy爬取網易新聞

4. 修改spider下創建的爬蟲文件4.1 導入包

打開創建的爬蟲模板,進行代碼的編寫,除了導入系統自動創建的三個庫,我們還需要導入news.items(這里就涉及到了包的概念了,最開始說的?init?.py文件存在說明這個文件夾就是一個包可以直接導入,不需要安裝)

注意:使用的類ExampleSpider一定要繼承自CrawlSpider,因為最開始我們創建的就是一個‘crawl’的爬蟲模板,對應上

import scrapyfrom scrapy.linkextractors import LinkExtractorfrom scrapy.spiders import CrawlSpider, Rulefrom scrapytest.items import ScrapytestItemclass CodingceSpider(CrawlSpider): name = ’codingce’ allowed_domains = [’163.com’] start_urls = [’http://news.163.com/’] rules = ( Rule(LinkExtractor(allow=r’.*.163.com/d{2}/d{4}/d{2}/.*.html’), callback=’parse’, follow=True), ) def parse(self, response): item = {} content = ’<br>’.join(response.css(’.post_content p::text’).getall()) if len(content) < 100: return return item

Rule(LinkExtractor(allow=r’..163.com/d{2}/d{4}/d{2}/..html’), callback=‘parse’, follow=True), 其中第一個allow里面是書寫正則表達式的(也是我們核心要輸入的內容),第二個是回調函數,第三個表示是否允許深入

最終代碼

from datetime import datetimeimport reimport scrapyfrom scrapy.linkextractors import LinkExtractorfrom scrapy.spiders import CrawlSpider, Rulefrom scrapytest.items import ScrapytestItemclass CodingceSpider(CrawlSpider): name = ’codingce’ allowed_domains = [’163.com’] start_urls = [’http://news.163.com/’] rules = ( Rule(LinkExtractor(allow=r’.*.163.com/d{2}/d{4}/d{2}/.*.html’), callback=’parse’, follow=True), ) def parse(self, response): item = {} content = ’<br>’.join(response.css(’.post_content p::text’).getall()) if len(content) < 100: return title = response.css(’h1::text’).get() category = response.css(’.post_crumb a::text’).getall()[-1] print(category, '=======category') time_text = response.css(’.post_info::text’).get() timestamp_text = re.search(r’d{4}-d{2}-d{2} d{2}:d{2}:d{2}’, time_text).group() timestamp = datetime.fromisoformat(timestamp_text) print(title, '=========title') print(content, '===============content') print(timestamp, '==============timestamp') print(response.url) return item

python實現Scrapy爬取網易新聞

到此這篇關于python實現Scrapy爬取網易新聞的文章就介紹到這了,更多相關python Scrapy爬取網易新聞內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網!

標簽: Python 編程
相關文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
久久精品理论片| 亚洲精品888| 日韩午夜黄色| 嫩草伊人久久精品少妇av杨幂| 99热精品在线| 午夜精品免费| 蜜桃av在线播放| 日本欧美不卡| 1000部精品久久久久久久久| 久久精品国产99久久| 中文另类视频| 激情欧美日韩一区| 欧美日韩国产精品一区二区亚洲| 精品中文字幕一区二区三区av| 神马午夜久久| 欧美天堂亚洲电影院在线观看| 好吊一区二区三区| 视频一区二区三区入口| 日本在线视频一区二区| 国产精品一区二区三区美女| 欧美激情麻豆| 久久99蜜桃| 正在播放日韩精品| 婷婷色综合网| 日韩影片在线观看| 欧美1区2区3| 色爱av综合网| 亚洲免费在线| 91伊人久久| 国际精品欧美精品| 欧美一区三区| 亚洲精品免费观看| 国产精品亚洲欧美一级在线| 成人国产精品一区二区免费麻豆| 日韩精品首页| 亚洲精品麻豆| 欧美亚洲三区| 伊人久久视频| 中文精品视频| 国产精品一区二区av交换| 91免费精品| 久久国产66| 久久福利在线| 99精品小视频| 日韩国产欧美在线播放| 精品一区二区三区免费看 | 日韩在线观看| 久久xxxx| 牛牛精品成人免费视频| 999国产精品| 日本aⅴ精品一区二区三区| 国产suv精品一区二区四区视频| 91国语精品自产拍| 国产毛片精品| av不卡在线| 精品免费在线| 麻豆精品91| 91亚洲成人| 亚洲+小说+欧美+激情+另类| 日本蜜桃在线观看视频| 在线精品视频在线观看高清| 国产三级精品三级在线观看国产| 亚洲天堂免费电影| 日本 国产 欧美色综合| 大香伊人久久精品一区二区| 夜夜精品视频| 国产一区二区三区四区五区传媒 | 国产欧美一区| 在线视频精品| 日韩欧美网址| 欧美亚洲tv| 女同性一区二区三区人了人一| 久久成人高清| 亚洲精品影院在线观看| 日韩精品一卡| 国产伦理一区| 三级一区在线视频先锋| 中文av在线全新| 欧美中文一区| 视频一区在线播放| 日韩欧美另类一区二区| 欧美在线看片| 午夜在线一区二区| 亚洲欧洲日韩精品在线| 天堂日韩电影| 国产精品主播| 热久久久久久久| 亚洲黄色免费av| 国产精品日韩精品在线播放| 日韩精品视频网| 国产一区二区三区日韩精品| 视频在线观看91| 亚洲福利久久| 高清av不卡| 成人在线免费观看91| 欧美日本精品| 香蕉久久国产| 成人久久一区| 国产精品精品国产一区二区| 国产精品尤物| 日韩激情av在线| 伊人久久大香伊蕉在人线观看热v| 99精品在线| 婷婷综合六月| 午夜av不卡| 国产不卡精品| 精品视频在线你懂得| 国产欧美另类| 欧美日一区二区在线观看| 婷婷亚洲成人| 亚洲欧洲免费| 一区二区三区四区日韩| 91精品观看| 91久久久精品国产| 婷婷激情综合| 在线一区视频| 国产视频一区三区| 亚洲在线一区| 亚洲欧洲一区二区天堂久久| 欧美中文字幕一区二区| 国产精品成人a在线观看| 国产亚洲字幕| 911精品国产| 91精品在线免费视频| 日本在线一区二区三区| 好看不卡的中文字幕| 亚洲免费黄色| 欧美特黄视频| 尤物网精品视频| 999久久久精品国产| 成人精品亚洲| 婷婷亚洲五月| 亚洲欧美日本国产专区一区| 亚洲中字黄色| 亚洲色图网站| 日韩在线观看中文字幕| 欧美亚洲tv| 国产精品日本一区二区不卡视频 | 亚洲欧美日韩精品一区二区| 亚洲一级网站| 在线视频观看日韩| 免费毛片在线不卡| 尹人成人综合网| 午夜亚洲福利在线老司机| 日韩视频一区二区三区在线播放免费观看 | 一级欧洲+日本+国产| 激情综合自拍| 99精品电影| 国产中文一区| 伊人久久亚洲影院| 三级欧美在线一区| 日韩福利视频导航| 国产精品一区二区精品视频观看 | 久久影院一区二区三区| 精品中国亚洲| 三上悠亚国产精品一区二区三区 | 欧美69视频| 国产精品人人爽人人做我的可爱| 亚洲综合不卡| 日本天堂一区| 麻豆成人在线观看| 波多视频一区| 免费成人在线影院| 91av一区| а√天堂8资源中文在线| 色婷婷精品视频| 妖精视频成人观看www| 亚洲丝袜啪啪| 国产欧美日韩亚洲一区二区三区| 国内自拍视频一区二区三区| 91精品国产乱码久久久久久久| 中文精品在线| 欧美影院视频| 在线中文字幕播放| 蜜臀av亚洲一区中文字幕| 国产欧美日韩综合一区在线播放| 四虎国产精品免费观看| 91久久国产| 欧美日韩1区2区3区| 国产中文在线播放| 免费久久精品视频| 精品三级国产| 天堂av在线一区| 好看的av在线不卡观看| 蜜桃一区二区三区在线| 国产福利亚洲| 亚洲手机视频| 欧美日韩一区二区三区在线电影| 国产一二在线播放| 蜜臀久久久99精品久久久久久| 国产高清日韩| 丝袜脚交一区二区| 精品精品久久| 石原莉奈在线亚洲二区| 成人在线视频免费| 亚洲免费专区| 亚洲播播91| 国产美女久久| 欧美成人综合| 国产精品传媒麻豆hd|