日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術文章
文章詳情頁

springboot+WebMagic+MyBatis爬蟲框架的使用

瀏覽:125日期:2023-02-18 18:25:39
目錄1.添加maven依賴2.項目配置文件 application.properties3.數據庫表結構4.實體類5.mapper接口6.CrawlerMapper.xml文件7.知乎頁面內容處理類ZhihuPageProcessor8.知乎數據處理類ZhihuPipeline9.知乎爬蟲任務類ZhihuTask10.Spring boot程序啟動類

WebMagic是一個開源的java爬蟲框架。WebMagic框架的使用并不是本文的重點,具體如何使用請參考官方文檔:http://webmagic.io/docs/。

本文是對spring boot+WebMagic+MyBatis做了整合,使用WebMagic爬取數據,然后通過MyBatis持久化爬取的數據到mysql數據庫。本文提供的源代碼可以作為java爬蟲項目的腳手架。

springboot+WebMagic+MyBatis爬蟲框架的使用

1.添加maven依賴

<?xml version='1.0' encoding='UTF-8'?><project xmlns='http://maven.apache.org/POM/4.0.0' xmlns:xsi='http://www.w3.org/2001/XMLSchema-instance' xsi:schemaLocation='http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd'> <modelVersion>4.0.0</modelVersion> <groupId>hyzx</groupId> <artifactId>qbasic-crawler</artifactId> <version>1.0.0</version> <parent><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-parent</artifactId><version>1.5.21.RELEASE</version><relativePath/> <!-- lookup parent from repository --> </parent> <properties><project.build.sourceEncoding>UTF-8</project.build.sourceEncoding><maven.test.skip>true</maven.test.skip><java.version>1.8</java.version><maven.compiler.plugin.version>3.8.1</maven.compiler.plugin.version><maven.resources.plugin.version>3.1.0</maven.resources.plugin.version><mysql.connector.version>5.1.47</mysql.connector.version><druid.spring.boot.starter.version>1.1.17</druid.spring.boot.starter.version><mybatis.spring.boot.starter.version>1.3.4</mybatis.spring.boot.starter.version><fastjson.version>1.2.58</fastjson.version><commons.lang3.version>3.9</commons.lang3.version><joda.time.version>2.10.2</joda.time.version><webmagic.core.version>0.7.3</webmagic.core.version> </properties> <dependencies><dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-devtools</artifactId> <scope>runtime</scope> <optional>true</optional></dependency><dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-test</artifactId> <scope>test</scope></dependency><dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-configuration-processor</artifactId> <optional>true</optional></dependency><dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>${mysql.connector.version}</version></dependency><dependency> <groupId>com.alibaba</groupId> <artifactId>druid-spring-boot-starter</artifactId> <version>${druid.spring.boot.starter.version}</version></dependency><dependency> <groupId>org.mybatis.spring.boot</groupId> <artifactId>mybatis-spring-boot-starter</artifactId> <version>${mybatis.spring.boot.starter.version}</version></dependency><dependency> <groupId>com.alibaba</groupId> <artifactId>fastjson</artifactId> <version>${fastjson.version}</version></dependency><dependency> <groupId>org.apache.commons</groupId> <artifactId>commons-lang3</artifactId> <version>${commons.lang3.version}</version></dependency><dependency> <groupId>joda-time</groupId> <artifactId>joda-time</artifactId> <version>${joda.time.version}</version></dependency><dependency> <groupId>us.codecraft</groupId> <artifactId>webmagic-core</artifactId> <version>${webmagic.core.version}</version> <exclusions><exclusion> <groupId>org.slf4j</groupId> <artifactId>slf4j-log4j12</artifactId></exclusion> </exclusions></dependency> </dependencies> <build><plugins> <plugin><groupId>org.apache.maven.plugins</groupId><artifactId>maven-compiler-plugin</artifactId><version>${maven.compiler.plugin.version}</version><configuration> <source>${java.version}</source> <target>${java.version}</target> <encoding>${project.build.sourceEncoding}</encoding></configuration> </plugin> <plugin><groupId>org.apache.maven.plugins</groupId><artifactId>maven-resources-plugin</artifactId><version>${maven.resources.plugin.version}</version><configuration> <encoding>${project.build.sourceEncoding}</encoding></configuration> </plugin> <plugin><groupId>org.springframework.boot</groupId><artifactId>spring-boot-maven-plugin</artifactId><configuration> <fork>true</fork> <addResources>true</addResources></configuration><executions> <execution><goals> <goal>repackage</goal></goals> </execution></executions> </plugin></plugins> </build> <repositories><repository> <id>public</id> <name>aliyun nexus</name> <url>http://maven.aliyun.com/nexus/content/groups/public/</url> <releases><enabled>true</enabled> </releases></repository> </repositories> <pluginRepositories><pluginRepository> <id>public</id> <name>aliyun nexus</name> <url>http://maven.aliyun.com/nexus/content/groups/public/</url> <releases><enabled>true</enabled> </releases> <snapshots><enabled>false</enabled> </snapshots></pluginRepository> </pluginRepositories></project>2.項目配置文件 application.properties

配置mysql數據源,druid數據庫連接池以及MyBatis的mapper文件的位置。

# mysql數據源配置spring.datasource.name=mysqlspring.datasource.type=com.alibaba.druid.pool.DruidDataSourcespring.datasource.driver-class-name=com.mysql.jdbc.Driverspring.datasource.url=jdbc:mysql://192.168.0.63:3306/gjhzjl?useUnicode=true&characterEncoding=utf8&useSSL=false&allowMultiQueries=truespring.datasource.username=rootspring.datasource.password=root# druid數據庫連接池配置spring.datasource.druid.initial-size=5spring.datasource.druid.min-idle=5spring.datasource.druid.max-active=10spring.datasource.druid.max-wait=60000spring.datasource.druid.validation-query=SELECT 1 FROM DUALspring.datasource.druid.test-on-borrow=falsespring.datasource.druid.test-on-return=falsespring.datasource.druid.test-while-idle=truespring.datasource.druid.time-between-eviction-runs-millis=60000spring.datasource.druid.min-evictable-idle-time-millis=300000spring.datasource.druid.max-evictable-idle-time-millis=600000# mybatis配置mybatis.mapperLocations=classpath:mapper/**/*.xml3.數據庫表結構

CREATE TABLE `cms_content` ( `contentId` varchar(40) NOT NULL COMMENT ’內容ID’, `title` varchar(150) NOT NULL COMMENT ’標題’, `content` longtext COMMENT ’文章內容’, `releaseDate` datetime NOT NULL COMMENT ’發布日期’, PRIMARY KEY (`contentId`)) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT=’CMS內容表’;4.實體類

import java.util.Date;public class CmsContentPO { private String contentId; private String title; private String content; private Date releaseDate; public String getContentId() {return contentId; } public void setContentId(String contentId) {this.contentId = contentId; } public String getTitle() {return title; } public void setTitle(String title) {this.title = title; } public String getContent() {return content; } public void setContent(String content) {this.content = content; } public Date getReleaseDate() {return releaseDate; } public void setReleaseDate(Date releaseDate) {this.releaseDate = releaseDate; }}5.mapper接口

public interface CrawlerMapper { int addCmsContent(CmsContentPO record);}6.CrawlerMapper.xml文件

<?xml version='1.0' encoding='UTF-8'?><!DOCTYPE mapper PUBLIC '-//mybatis.org//DTD Mapper 3.0//EN' 'http://mybatis.org/dtd/mybatis-3-mapper.dtd'><mapper namespace='com.hyzx.qbasic.dao.CrawlerMapper'> <insert parameterType='com.hyzx.qbasic.model.CmsContentPO'>insert into cms_content (contentId, title, releaseDate, content)values (#{contentId,jdbcType=VARCHAR},#{title,jdbcType=VARCHAR},#{releaseDate,jdbcType=TIMESTAMP},#{content,jdbcType=LONGVARCHAR}) </insert></mapper>7.知乎頁面內容處理類ZhihuPageProcessor

主要用于解析爬取到的知乎html頁面。

@Componentpublic class ZhihuPageProcessor implements PageProcessor { private Site site = Site.me().setRetryTimes(3).setSleepTime(1000); @Override public void process(Page page) {page.addTargetRequests(page.getHtml().links().regex('https://www.zhihu.com/question/d+/answer/d+.*').all());page.putField('title', page.getHtml().xpath('//h1[@class=’QuestionHeader-title’]/text()').toString());page.putField('answer', page.getHtml().xpath('//div[@class=’QuestionAnswer-content’]/tidyText()').toString());if (page.getResultItems().get('title') == null) { // 如果是列表頁,跳過此頁,pipeline不進行后續處理 page.setSkip(true);} } @Override public Site getSite() {return site; }}8.知乎數據處理類ZhihuPipeline

主要用于將知乎html頁面解析出的數據存儲到mysql數據庫。

@Componentpublic class ZhihuPipeline implements Pipeline { private static final Logger LOGGER = LoggerFactory.getLogger(ZhihuPipeline.class); @Autowired private CrawlerMapper crawlerMapper; public void process(ResultItems resultItems, Task task) {String title = resultItems.get('title');String answer = resultItems.get('answer');CmsContentPO contentPO = new CmsContentPO();contentPO.setContentId(UUID.randomUUID().toString());contentPO.setTitle(title);contentPO.setReleaseDate(new Date());contentPO.setContent(answer);try { boolean success = crawlerMapper.addCmsContent(contentPO) > 0; LOGGER.info('保存知乎文章成功:{}', title);} catch (Exception ex) { LOGGER.error('保存知乎文章失敗', ex);} }}9.知乎爬蟲任務類ZhihuTask

每十分鐘啟動一次爬蟲。

@Componentpublic class ZhihuTask { private static final Logger LOGGER = LoggerFactory.getLogger(ZhihuPipeline.class); @Autowired private ZhihuPipeline zhihuPipeline; @Autowired private ZhihuPageProcessor zhihuPageProcessor; private ScheduledExecutorService timer = Executors.newSingleThreadScheduledExecutor(); public void crawl() {// 定時任務,每10分鐘爬取一次timer.scheduleWithFixedDelay(() -> { Thread.currentThread().setName('zhihuCrawlerThread'); try {Spider.create(zhihuPageProcessor)// 從https://www.zhihu.com/explore開始抓.addUrl('https://www.zhihu.com/explore')// 抓取到的數據存數據庫.addPipeline(zhihuPipeline)// 開啟2個線程抓取.thread(2)// 異步啟動爬蟲.start(); } catch (Exception ex) {LOGGER.error('定時抓取知乎數據線程執行異常', ex); }}, 0, 10, TimeUnit.MINUTES); }}10.Spring boot程序啟動類

@SpringBootApplication@MapperScan(basePackages = 'com.hyzx.qbasic.dao')public class Application implements CommandLineRunner { @Autowired private ZhihuTask zhihuTask; public static void main(String[] args) throws IOException {SpringApplication.run(Application.class, args); } @Override public void run(String... strings) throws Exception {// 爬取知乎數據zhihuTask.crawl(); }}

到此這篇關于springboot+WebMagic+MyBatis爬蟲框架的使用的文章就介紹到這了,更多相關springboot+WebMagic+MyBatis爬蟲內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網!

標簽: Spring
相關文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
欧美特黄一级| 欧美国产精品| 在线天堂资源www在线污| 国产精品美女久久久久久不卡| 中文不卡在线| 日韩在线观看一区二区| 国产精品老牛| 免费精品国产的网站免费观看| 久久黄色影院| 成人亚洲一区| 国产不卡精品| 国产美女高潮在线观看| 久久久久久久欧美精品| 激情婷婷亚洲| 国产精品一在线观看| 日本免费在线视频不卡一不卡二| 久久国产精品毛片| 伊人久久一区| 国产精品一区2区3区| 久久伊人国产| 麻豆极品一区二区三区| 电影91久久久| 国产一区二区三区日韩精品| 精品三级在线观看视频| 日本色综合中文字幕| 日本不卡视频在线观看| 日本麻豆一区二区三区视频| 亚洲精品影院在线观看| 日韩精品视频在线看| 国产欧美日韩影院| 免费一区二区三区在线视频| 国产精品igao视频网网址不卡日韩 | 久久精品网址| 午夜欧美巨大性欧美巨大| 国产夫妻在线| 婷婷成人基地| 亚洲精选av| 青青草国产精品亚洲专区无| 欧美日本一区| 日韩欧美不卡| 只有精品亚洲| 国产高清精品二区| 视频二区不卡| 天堂成人免费av电影一区 | 麻豆国产欧美一区二区三区 | 1024精品一区二区三区| 奶水喷射视频一区| 久久福利在线| 亚洲二区视频| 国产日韩欧美一区二区三区在线观看 | 视频一区二区三区中文字幕| 日韩av成人高清| 99久久99久久精品国产片果冰| 激情欧美一区二区三区| 国产欧美日韩亚洲一区二区三区| 日本欧美韩国一区三区| 国产精品久久久久蜜臀| 国产视频亚洲| 亚洲97av| 免费久久精品视频| 国产精品精品国产一区二区| 欧美日韩精品一区二区视频| 亚洲免费在线| 精品久久不卡| 亚洲乱亚洲高清| 精品欧美日韩精品| 亚洲一区欧美二区| 日韩欧美一区二区三区免费看| 在线精品小视频| 日韩成人a**站| 国产精品片aa在线观看| 久久午夜精品| 久久久久91| 日韩精品一区二区三区中文在线| 久久久久久色| 国产精品美女午夜爽爽| 丝袜亚洲另类欧美| 精品久久久网| 欧美日一区二区三区在线观看国产免| 国产精品一区二区中文字幕| 影院欧美亚洲| а√天堂中文在线资源8| 国产伦精品一区二区三区视频| 香蕉精品视频在线观看| 精品一区二区三区免费看| 亚洲精选91| 久久国产中文字幕| 日韩av影院| 久久久国产亚洲精品| 免费亚洲一区| 日本亚洲视频在线| 久久国产精品久久久久久电车| 中文在线资源| 精品视频在线一区二区在线| 日韩高清不卡在线| 玖玖玖国产精品| 清纯唯美亚洲综合一区| 在线人成日本视频| 日韩福利视频导航| av在线日韩| 日韩av一二三| 久久久久欧美精品| 欧美天堂视频| 久久久成人网| 国产精品视区| 亚洲精品黄色| 国产一区日韩| 亚洲在线电影| 亚洲电影有码| 香蕉久久国产| 国产精品中文字幕制服诱惑| 嫩呦国产一区二区三区av| 日韩国产欧美在线播放| 欧美成人午夜| 国产视频一区欧美| 日韩精品社区| 福利一区二区免费视频| 日本在线精品| 精品丝袜在线| 色吊丝一区二区| 免费成人在线影院| 色综合视频一区二区三区日韩| 国产精品国码视频| 免费在线小视频| 午夜一级久久| 久久久久久色| 精品成av人一区二区三区| 国产aa精品| 三级欧美在线一区| 国产精品日本一区二区不卡视频| 免费久久99精品国产自在现线| 91精品在线免费视频| 成人影视亚洲图片在线| 91精品蜜臀一区二区三区在线 | 午夜在线播放视频欧美| 国产美女久久| 免费毛片在线不卡| 欧美日韩xxxx| 国产综合欧美| 麻豆国产精品| 麻豆9191精品国产| 福利一区和二区| 蜜臀a∨国产成人精品| 欧美偷窥清纯综合图区| 久热综合在线亚洲精品| 国产精品久久久久蜜臀| 日韩国产成人精品| 天堂av在线| 九一国产精品| 欧美亚洲免费| 国产精品成人自拍| 久久久久99| 欧美日本不卡高清| 亚洲成人一区在线观看| 亚洲三级毛片| 18国产精品| zzzwww在线看片免费| 日韩一区二区三区在线免费观看| 亚洲激情二区| 免费在线播放第一区高清av| 亚洲精品中文字幕99999| 欧美激情综合| 欧美日韩亚洲一区| 国产精品亚洲欧美| 91精品国产经典在线观看| 蜜桃视频一区二区| 一区二区三区国产在线| 日韩高清中文字幕一区| 国产精品国产三级在线观看| 精品国产精品国产偷麻豆| 久久99国产精品视频| 日韩精品第二页| 精品少妇av| 红桃视频亚洲| 亚洲另类av| 亚洲视频国产精品| 国产精品地址| 久久只有精品| 久久精品二区亚洲w码| 久久久久久久久丰满| 中国女人久久久| 午夜电影一区| 中文在线а√天堂| 视频一区欧美日韩| 日本h片久久| 精品一区二区男人吃奶| 九九精品调教| 国产精品老牛| 免费在线日韩av| 午夜欧美理论片| 深夜福利亚洲| 日韩精品社区| 99精品电影| 成午夜精品一区二区三区软件| 日本不卡一区二区| 视频一区欧美精品| 久久国产精品毛片| 日韩精品一区第一页| 先锋亚洲精品| 另类av一区二区|