Java爬虫入门简介（二） —— Jsoup解析HTML页面

Java爬虫入门简介（二） —— Jsoup解析HTML页面原文链接：http://blog.csdn.net/df19900725/article/details/77587318

上一节我们获取了 http://www.datalearner.com/blog_list 页面的HTML源码，但是这些源码是提供给浏览器解析用的，我们需要的数据其实是页面上博客的标题、作者、简介、发布日期等。我们需要通过一种方式来从HTML源码中解析出这类信息并提取，然后存到文本或者数据库之中。在这篇博客中，我们将介绍使用Jsoup包帮助我们解析页面，提取数据。
Jsoup是一款Java的HTML解析器，可以直接解析某个URL地址，也可以解析HTML内容。其主要的功能包括解析HTML页面，通过DOM或者CSS选择器来查找、提取数据，可以更改HTML内容。Jsoup的使用方式也很简单，使用Jsoup.parse(String str)方法将之前我们获取到的HTML内容进行解析得到一个Documend类，剩下的工作就是从Document中选择我们需要的数据了。举个例子，假设我们有个HTML页面的内容如下：

<html>
<div id="blog_list">
    <div class="blog_title">
        <a href="url1">第一篇博客</a>
    </div>
    <div class="blog_title">
        <a href="url2">第二篇博客</a>
    </div>
    <div class="blog_title">
        <a href="url3">第三篇博客</a>
    </div>
</div>
</html>

通过Jsoup我们可以把上面的三篇博客的标题提取到一个List中。使用方法如下：

首先，我们通过maven把Jsoup引入进来

<!-- https://mvnrepository.com/artifact/org.jsoup/jsoup -->
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.10.3</version>
</dependency>

然后编写Java进行解析。

package org.hfutec.example;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.util.ArrayList;
import java.util.List;

/*******
 * created by DuFei at 2017.08.25 21:00
 * web crawler example
 * ******/

public class DataLearnerCrawler {

  public static void main(String[] args) {

    List<String> titles = new ArrayList<String>();
    List<String> urls = new ArrayList<String>();

    //假设我们获取的HTML的字符内容如下
    String html = "<html><div id=\"blog_list\"><div class=\"blog_title\"><a href=\"url1\">第一篇博客</a></div><div class=\"blog_title\"><a href=\"url2\">第二篇博客</a></div><div class=\"blog_title\"><a href=\"url3\">第三篇博客</a></div></div></html>";

    //第一步，将字符内容解析成一个Document类
    Document doc = Jsoup.parse(html);

    //第二步，根据我们需要得到的标签，选择提取相应标签的内容
    Elements elements = doc.select("div[id=blog_list]").select("div[class=blog_title]");
    for( Element element : elements ){
      String title = element.text();
      titles.add(title);
      urls.add(element.select("a").attr("href"));
    }

    //输出测试
    for( String title : titles ){
      System.out.println(title);
    }

    for( String url : urls ){
      System.out.println(url);
    }

  }
}

我们简单说明一下Jsoup的解析过程。首先第一步都是调用parse()方法将字符对象变成一个Document对象，然后我们对这个对象进行操作。一般提取数据就是根据标签选择数据，使用select()方法语法格式和 JavaScript/css 选择器都是一样的。一般都是提取某个标签，其属性值为指定内容。得到的结果是一个Element的集合，为Elements（因为符合条件的标签可能很多，所以结果是一个集合）。select()方法可以一直进行下去，直到选择到我们想要的标签集合为止（注意，我们并不一定要按照标签层级一级一级往下选，可以直接写select()方法到我们需要的标签的上一级，比如这里的示例代码可以直接写成 Elements elements = doc.select(“div[class=blog_title]”); 其效果是一样的）。对于选择到的Elements的集合，我们可以通过循环的方式提取每一个需要的数据，比如，我们需要拿到标签的文本信息，就可以使用text()方法，如果我们需要拿到对应的HTML属性信息，我们可以使用attr()方法。我们可以看到上述方法的输出结果如下：

e39b4f52-98fc-4ed5-9c43-15b1dc04f823.jpg

更多的Jsoup解析的操作可以参考如下： 1、https://www.ibm.com/developerworks/cn/java/j-lo-jsouphtml/index.html 2、https://jsoup.org/
一个实例
我们接着上一个爬取数据学习官方网站博客列表的例子讲解一个实例。我们已经知道可以使用Jsoup来解析爬取到的HTML页面内容。那么如何查看我们需要的内容对应的标签呢？以Chrome浏览器为例，我们需要爬取http://www.datalearner.com/blog_list 这个页面的的博客，首先用Chrome浏览器打开这个网址，然后鼠标右键单击博客的标题，点击“检查”就可以得到HTML页面了。如下图所示。

94f6bf06-312a-4781-97c8-99d2b9d57884.jpg

d810463f-c23d-4dae-98cc-08764fbbef85.jpg

d310a4ae-c2e0-45f1-8637-9f8b390baa3b.jpg

图4 确认当前博客的HTML代码的一致性

通过上述操作之后，我们已经可以看到，所有的博客的标题等信息都存在class=card的div里面了。于是，我们只要关注这个标签里面的内容是如何组织的，就可以了。如下图所示，我们需要的信息所属的标签，通过点击小三角展开就能得到了。

7e161a6f-bbff-44e3-a422-08d18102cbb3.jpg

因此，解析博客列表的代码可以写成如下形式了。

package org.hfutec.example;

import org.apache.http.HttpEntity;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;

/*******
 * created by DuFei at 2017.08.25 21:00
 * web crawler example
 * ******/

public class DataLearnerCrawler {

  public static void main(String[] args) {

String url = "http://www.datalearner.com/blog_list";
String rawHTML = null;
try {
  rawHTML = getHTMLContent(url);
} catch (IOException e) {
  e.printStackTrace();
}

//将当前页面转换成Jsoup的Document对象
Document doc = Jsoup.parse(rawHTML);

//获取所有的博客列表集合
Elements blogList = doc.select("div[class=card]");

//针对每个博客内容进行解析，并输出
for( Element element : blogList ){

  String title = element.select("h4[class=card-title]").text();
  String introduction = element.select("p[class=card-text]").text();
  String author = element.select("span[class=fa fa-user]").text();

  System.out.println("Title:\t"+title);
  System.out.println("introduction:\t"+introduction);
  System.out.println("Author:\t"+author);
  System.out.println("--------------------------");

}

  }

  //根据url地址获取对应页面的HTML内容，我们将上一节中的内容打包成了一个方法，方便调用
  private static String getHTMLContent( String url ) throws IOException {

//建立一个新的请求客户端
CloseableHttpClient httpClient = HttpClients.createDefault();

//使用HttpGet方式请求网址
HttpGet httpGet = new HttpGet(url);

//获取网址的返回结果
CloseableHttpResponse response = httpClient.execute(httpGet);

//获取返回结果中的实体
HttpEntity entity = response.getEntity();

String content = EntityUtils.toString(entity);

//关闭HttpEntity流
EntityUtils.consume(entity);

return content;

  }

}

e248e590-b1c7-4df3-b9ab-074fb86095ec.jpg

最后编辑于：2017.12.04 15:55:14

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 211,265评论 6赞 490
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,078评论 2赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 156,852评论 0赞 347
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,408评论 1赞 283
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,445评论 5赞 384
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,772评论 1赞 290
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,921评论 3赞 406
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,688评论 0赞 266
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,130评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,467评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,617评论 1赞 340
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,276评论 4赞 329
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,882评论 3赞 312
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,740评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,967评论 1赞 265
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,315评论 2赞 360
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,486评论 2赞 348

Java爬虫入门简介（二） —— Jsoup解析HTML页面

推荐阅读更多精彩内容