JsoupXPath是基于Jsoup的拓展,使用路径的形式解析XML和HTML文档。核心类为JXDocument。JsoupXPath的节点对象JXNode不仅可以获取标签节点,还可以获取属性节点。
引入Jsoup依赖之后引入JsoupXpath依赖
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.17.2</version>
</dependency>
<dependency>
<groupId>cn.wanghaomiao</groupId>
<artifactId>JsoupXpath</artifactId>
<version>2.5.3</version>
</dependency>
创建JXDocument的方法:
- 使用Jsoup的Document对象创建JXDocument
JXDocument jxDocument = JXDocument.create(Document document);
- 使用Jsoup的Elements对象创建JXDocument
JXDocument jxDocument = new JXDocument(Elements elements);
- 使用HTML文本创建JXDocument
String html = "<h1>标题</h1>";
JXDocument jxDocument = JXDocument.create(html);
常用方法
//找到路径返回所有满足的节点对象集合,类似Document的select()方法
List<JXNode> selN(String xpath)
//找到路径返回的第一个满足的节点对象,类似Document的selectFirst()方法
JXNode selNOne(String xpath)
JXNode可以调用getElement或asElement()获得Jsoup的Element对象
public static void main(String[] args) throws IOException {
try {
Document document = Jsoup.connect("//www.greatytc.com/u/4e7fb1399ebe").get();
JXDocument jxDocument = JXDocument.create(document);
List<JXNode> jxNodes = jxDocument.selN("//*[@id=[\"list-container\"]/ul/li[*]/div/a");
for(JXNode jxNode : jxNodes){
Element element = jxNode.asElement();
System.out.println(element.text());
}
} catch (IOException e) {
e.printStackTrace();
}
}