Java爬虫——Webmagic爬虫框架+Hibernate持久化存储

前言

最近想学点数据分析的知识，于是想到先用爬虫爬点数据下来，后面能够利用数据做些分析处理。由于之前没有做过爬虫的相关项目，调查后了解到除了主流Python外，Java爬取数据也是挺方便的，可以利用Webmagic框架进行爬取。

项目简介

因为要把数据存下来，虽然利用Webmagic框架的一些自带的Pipeline如JsonFilePipeline可以很容易的将数据存到本地，但这里为了更好地学习这个框架，我选择了自己编写定制一个操作数据库的Pipeline进行数据持久化存储。对于这种小项目，操作数据库实际用Statement编写插入语句等就行。但由于我没怎么用过Hibernate，平时用Mybatis比较多，想借此练练手，同时考虑到可能要进行一些拓展，所以就用了Hibernate来进行数据操作存储。因此项目框架选型就定为Webmagic框架+Hibernate框架。主要内容包括：实现Webmagic的PageProcessor，定制Pipeline，Scheduler。

Webmagic简介

按照Webmagic官网介绍，该框架有四大组件：PageProcessor、Scheduler、Downloader和Pipeline。分别对应爬虫生命周期中的下载、处理、管理和持久化等功能。整体架构图如下：

Webmagic架构图.png

实际上我们需要操作的只是实现PageProcessor，其他三个Scheduler、Downloader和Pipeline都有提供现成的实现类给我们选择。而Spider是一个控制引擎，在我们编写好PageProcessor、Scheduler、Downloader和Pipeline之后，就可以用Spider来启动爬数据了。在本项目中，我将实现一个PageProcessor，定制下载图片和存储数据到数据库的Pipeline，以及定制一个Scheduler。

利用Hibernate插入数据

1、引入依赖

在使用Hibernate之前，需要先引入依赖，下面这几个是比较重要的依赖，包括了Webmagic框架需要引入的依赖，在pom文件中添加，将相应的包引入到项目中。

        <dependency>
            <groupId>us.codecraft</groupId>
            <artifactId>webmagic-core</artifactId>
            <version>0.7.3</version>
        </dependency>
        <dependency>
            <groupId>us.codecraft</groupId>
            <artifactId>webmagic-extension</artifactId>
            <version>0.7.3</version>
        </dependency>
        <dependency>
            <groupId>org.hibernate</groupId>
            <artifactId>hibernate-entitymanager</artifactId>
            <version>5.0.12.Final</version>
        </dependency>
        <dependency>
            <groupId>mysql</groupId>
            <artifactId>mysql-connector-java</artifactId>
            <version>5.1.43</version>
        </dependency>

2、设置配置文件

接下来需要在resources/META-INF中添加一个persistence.xml，用于数据库的一些配置。文件内容如下：

<!--?xml version="1.0" encoding="UTF-8"?-->
<persistence xmlns="http://java.sun.com/xml/ns/persistence" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
             xsi:schemaLocation="http://java.sun.com/xml/ns/persistence http://java.sun.com/xml/ns/persistence/persistence_2_0.xsd" version="2.0">
    <persistence-unit name="persistenceUnit" transaction-type="RESOURCE_LOCAL">
        <properties>
            <property name="hibernate.dialect" value="org.hibernate.dialect.MySQL5InnoDBDialect"/>
            <property name="hibernate.hbm2ddl.auto" value="update"/>
            <property name="hibernate.connection.driver_class" value="com.mysql.jdbc.Driver"/>
            <property name="hibernate.connection.username" value="root"/>
<!--            <property name="hibernate.connection.password" value=""/>-->
            <property name="hibernate.connection.url" value="jdbc:mysql://localhost:3306/test?useSSL=false&amp;characterEncoding=UTF-8"/>
            <property name="hibernate.show_sql" value="true"/>
        </properties>
    </persistence-unit>
</persistence>

3、构建实体类

完成配置之后，需要创建实体类与数据库表相映射。这里我将爬简书数据，所以建了一张t_simple_book表，并且先简单地只设计了三个字段：id、title、user，分别对应主键、文章标题、用户名。所以对应的实体类对象如下：

@Data
@Entity
@Table(name = "t_simple_book")
public class SimpleBook {
    @Id
    @GeneratedValue(strategy = GenerationType.IDENTITY)
    private Integer id;

    @Column(name = "title")
    private String title;

    @Column(name = "user")
    private String user;
}

并定义了一个插入数据的静态方法：

public static <T> void insertOneData(T data) {
        EntityManagerFactory factory = Persistence.createEntityManagerFactory("persistenceUnit");
        EntityManager entityManager = factory.createEntityManager();
        entityManager.getTransaction().begin();
        entityManager.persist(data);
        entityManager.getTransaction().commit();
        entityManager.close();
        factory.close();
    }

到此为止，就可以往数据库里插入数据了。当然，这样做会不断地创建及关闭连接对象，影响性能。先不管，后面做连接池处理就行。

实现PageProcessor

接下来就可以实现PageProcessor，做一些爬取数据的相关工作了。简书的首页即是列表页，每次重新请求就能够重新刷出新的文章列表。所以当我们不断把首页网址加入到请求中，就能一直不断地刷出新的文章列表。而Page.addTargetRequests()方法会将请求加入到Page内部的List中，并且会不断地加入到Scheduler内部的队列中，再通过队列poll()出来进而发起请求。因此，可以采取的思路就是，爬取每一页的列表的URL加入到请求中，再把首页网址也加入，这样就能一直不断地爬取新内容了。当进入到文章详情页后，就可以对页面元素进行分析，提取需要的内容出来了。这里我只提取了文章标题、作者、以及文章中所有出现的图片的URL。

定制Pipeline

我写了两个Pipeline，一个用于下载图片，另外一个用于将文章的一些数据写入到数据库中。Pipeline实际上就是对PageProcessor的再加工处理。所以实际上你在Pipeline中完成的工作，在PageProcessor中都可以完成。但由于两者是对应爬虫的不同阶段，分开来好一些。正如，我所写的两个Pipeline实际上用一个Pipeline处理就可以，但我认为它们完成的是不同的工作，分开写结构会比较清晰。于是我就采取了分别写两个Pipeline的方式。

定制Scheduler

Scheduler在爬虫阶段主要的工作是能够不断把请求添加到队列中，再不断把队列中的请求poll出来。在写项目的时候，有时候为了测试一些结果，需要启动程序，但启动之后就会不断地爬取下去，除非终止程序。那么我就想能不能做到让程序自己达到一定条件后就自动停止。所以我查看了源码，而要知道程序最终是怎么停止的，就需要看下Spider.run()方法。源码如下：

    public void run() {
        this.checkRunningStat();
        this.initComponent();
        this.logger.info("Spider {} started!", this.getUUID());

        while(!Thread.currentThread().isInterrupted() && this.stat.get() == 1) {
            final Request request = this.scheduler.poll(this);
            if (request == null) {
                if (this.threadPool.getThreadAlive() == 0 && this.exitWhenComplete) {
                    break;
                }

                this.waitNewUrl();
            } else {
                this.threadPool.execute(new Runnable() {
                    public void run() {
                        try {
                            Spider.this.processRequest(request);
                            Spider.this.onSuccess(request);
                        } catch (Exception var5) {
                            Spider.this.onError(request);
                            Spider.this.logger.error("process request " + request + " error", var5);
                        } finally {
                            Spider.this.pageCount.incrementAndGet();
                            Spider.this.signalNewUrl();
                        }

                    }
                });
            }
        }

        this.stat.set(2);
        if (this.destroyWhenExit) {
            this.close();
        }

        this.logger.info("Spider {} closed! {} pages downloaded.", this.getUUID(), this.pageCount.get());
    }

可以看到，在while循环里面，通过Scheduler不断地poll出request，当request不为null时，就会启动线程去执行它。而当request一直为null时，活跃线程执行完任务后就能够退出循环了。所以我想到了写一个计数的Scheduler，可以统计下载的页面，当达到指定值时，poll方法就一直返回null，这样就能退出了。这样我就能指定只下载一定量的页面就行了。同样的思路，也可以写一个计时的Scheduler，给定一个时间段，当达到条件就退出。下面代码即是我实现的计数Scheduler，仿照的是自带的QueueScheduler进行实现。

@ThreadSafe
public class CountableScheduler extends DuplicateRemovedScheduler implements MonitorableScheduler {

    private BlockingQueue<Request> queue = new LinkedBlockingQueue();

    private int count = -1;

    public CountableScheduler() {
    }

    public void pushWhenNoDuplicate(Request request, Task task) {
        this.queue.add(request);
    }

    @Override
    public Request poll(Task task) {
        if (count == -1) {
            return (Request)this.queue.poll();
        }
        if (count > 0) {
            count--;
            return (Request)this.queue.poll();
        }else {
            this.queue.clear();
            return null;
        }
//        return (Request)this.queue.poll();
    }

    @Override
    public int getLeftRequestsCount(Task task) {
        return this.queue.size();
    }

    @Override
    public int getTotalRequestsCount(Task task) {
        return this.getDuplicateRemover().getTotalRequestsCount(task);
    }

    public CountableScheduler setCount(int count) {
        if(count <= 0) {
            return this;
        }
        this.count = count + 1;
        return this;
    }
}

后语

本次的爬虫经历就介绍到这里，简单地记录下我自己对这个框架的一个浅显的学习，后面我想利用Elasticsearch+Webmagic做一个对大量数据做分析处理的项目。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 211,884评论 6赞 492
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,347评论 3赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 157,435评论 0赞 348
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,509评论 1赞 284
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,611评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,837评论 1赞 290
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,987评论 3赞 408
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,730评论 0赞 267
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,194评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,525评论 2赞 327
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,664评论 1赞 340
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,334评论 4赞 330
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,944评论 3赞 313
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,764评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,997评论 1赞 266
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,389评论 2赞 360
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,554评论 2赞 349