详解Java爬虫利器Jsoup

 更新时间:2023年06月16日 08:39:45   作者:蜀山剑客李沐白  
Jsoup是一款Java语言开发的HTML解析器,用于解析HTML文档以及对HTML文档进行操作,处理等,本文就将详细给大家介绍一下Java中的爬虫利器Jsoup,感兴趣的同学可以参考一下

Jsoup的概述

Jsoup是一款Java语言开发的HTML解析器,用于解析HTML文档以及对HTML文档进行操作,处理等。它提供了类似于jQuery的DOM操作方法,以及用于HTML元素遍历、迭代、查询以及修改等操作的API,同时还支持CSS选择器和正则表达式的解析。

Jsoup的特点

  • 可以从URL中直接获取网页的内容并进行解析。
  • 支持CSS选择器和正则表达式。
  • 采用DOM结构,直观简单。
  • 支持流畅的链式操作风格。
  • 支持属性查找和修改。
  • 支持XML解析。

Jsoup的优点

  • 简单、方便、易学易用。
  • Jsoup的相对性能比较高,特别是在处理大型HTML文件时。
  • 支持CSS选择器及正则表达式等复杂操作。
  • Jsoup对HTML进行清理,可以特别有效地防止XSS脚本攻击。
  • 能够与Java内部的文档模型(DOM)结合,符合Java的运行环境。

Jsoup的核心类

以下是Jsoup中最重要的几个核心类:

  • Document:代表整个HTML或XML文档。可以通过该类来获取所需的元素、属性等。
  • Element:代表HTML中的一个元素。例如, ,

    等。

  • Elements:代表多个元素组成的集合,即一个数组。
  • Node:代表一个节点,可以是文本、注释或者其他类型的节点。
  • TextNode:代表文本节点,主要用于获取标签之间的文本内容。
  • Attribute:代表HTML元素中的属性。

Jsoup的用法

这里我将从以下方面介绍Jsoup的用法:

1.导入Jsoup到项目中

在使用Jsoup前,需要将它添加到项目的依赖中。如果使用Maven,只需要在pom.xml文件中添加下面的代码即可:

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.14.3</version>
</dependency>

2.解析HTML文档

解析HTML的第一步是将HTML文档加载到Jsoup的Document对象中,以便进行后续操作。可以通过以下方式实现:

String html = "<html><head><title>Jsoup Example</title></head>"
        + "<body><p>Hello world!</p></body></html>";
Document doc = Jsoup.parse(html);

其中,Jsoup.parse(html)可以将字符串转换为Document对象,而html则是需要解析的HTML。

3.从URL加载HTML

除了直接解析HTML字符串,Jsoup还支持从URL地址获取HTML内容并进行解析。可以使用以下代码:

String url = "http://www.example.com/";
Document doc = Jsoup.connect(url).get();

其中,Jsoup.connect(url).get()可以从指定的url地址获取HTML内容并解析成Document对象。

4.使用选择器查找元素

Jsoup支持类似于jQuery的CSS选择器语法,可以用非常简单的方式查找HTML元素。例如,查找所有的p标签,可以使用如下代码:

Elements paragraphs = doc.select("p");

select()方法会返回匹配选择器的元素的集合。

更进一步来说,选择器可以根据标签名、属性、样式等多种条件筛选元素。例如,以下代码会查找所有带有href属性的链接:

Elements links = doc.select("a[href]");

如果要查找指定class的元素,可以使用类似于CSS的“.classname”语法:

Elements elementsByClass = doc.select(".classname");

同样地,也支持按属性值进行查找:

Elements links = doc.select("a[href=\"#\"]");

这些选择器可以非常灵活地精准定位到需要的HTML元素。

5.获取元素的属性和内容

在定位到所需的HTML元素后,可以使用Jsoup提供的方法获取元素的属性和内容。例如,以下代码可以获取a标签的href属性和显示的文本内容:

Element link = doc.select("a").first();
String href = link.attr("href");
String text = link.text();

attr()方法可以获取指定属性的值,而text()方法可以获取标签之间的文本内容。

6.修改HTML文档

Jsoup不仅可以解析HTML文档,还可以修改文档中的元素、属性等内容。可以使用以下代码:

Element link = doc.select("a").first();
link.attr("href", "http://www.newsite.com/");
link.text("New Site");

这些方法可以非常方便地修改HTML文档中的元素和属性。

7.处理HTML中的正文

有时候我们只需要解析HTML中的正文部分而不是全文,这种情况下可以使用Jsoup提供的方法实现。例如,以下代码可以提取HTML中的所有正文段落:

Document doc = Jsoup.parse(html);
Elements paragraphs = doc.select("p");
String text = paragraphs.text();

上面代码中,Jsoup首先解析HTML文档并查找所有的p标签,然后使用text()方法提取正文内容。

Jsoup的高级用法

了解了基本用法后,我们可以进一步了解Jsoup的高级用法,例如:

1.从HTML中提取图片

可以使用以下代码提取出HTML文档中的所有图片:

Document doc = Jsoup.connect(url).get();
Elements images = doc.select("img[src~=(?i)\\.(png|jpe?g|gif)]");

这里的正则表达式可以过滤掉非图片类型的元素。

2.从HTML中提取所有链接

可以使用以下代码提取出HTML中的所有链接:

Document doc = Jsoup.connect(url).get();
Elements links = doc.select("a[href]");

然后遍历links集合,即可获取每个链接的href属性和文本内容。

3.自定义User-Agent和超时时间

可以通过以下方式指定Jsoup连接的User-Agent和超时时间:

String url = "http://www.example.com/";
Connection conn = Jsoup.connect(url);
conn.userAgent("Mozilla/5.0 (Windows NT 6.1; WOW64; rv:29.0) Gecko/20100101 Firefox/29.0");
conn.timeout(5000);
Document doc = conn.get();

其中userAgent()方法可以设置User-Agent,timeout()方法可以设置超时时间,单位是毫秒。

4.处理HTML中的中文编码问题

当解析包含中文字符的HTML文档时,可能会出现乱码等问题。可以通过以下方式解决:

Document doc = Jsoup.parse(html, "UTF-8");
String title = doc.title();
String text = doc.text();

这里的"UTF-8"指定了HTML文档的字符集,以解决编码问题。

5.处理HTML中的表格

可以使用以下代码提取表格中的数据:

Document doc = Jsoup.connect(url).get();
Elements tableRows = doc.select("table tr");
for (Element row : tableRows) {
    Elements cells = row.select("td");
    for (Element cell : cells) {
        String cellText = cell.text();
    }
}

这里先通过选择器查找所有的tr标签,然后对每个tr标签内的td标签进行遍历,获取单元格的内容。

6.处理HTML中的特殊字符

有些HTML文档中包含特殊字符,例如©、™等符号,这些符号可能会导致解析错误。可以使用以下方式解决:

Document doc = Jsoup.parse(html);
doc.outputSettings().escapeMode(EscapeMode.base);
String text = doc.text();

这里的escapeMode()方法可以指定转义字符的模式,base模式表示只转义基本的字符,其他的字符不做转义。

7.使用代理连接网站

有些网站可能会禁止爬虫访问,可以使用代理服务器连接到网站。可以使用以下代码设置代理:

String url = "http://www.example.com/";
Proxy proxy = new Proxy(Proxy.Type.HTTP, new InetSocketAddress("proxyhost", 8080));
Connection conn = Jsoup.connect(url).proxy(proxy);
Document doc = conn.get();

其中proxy()方法可以设置代理服务器的地址和端口号。

8.处理HTML中的连接

可以使用以下代码将相对路径转换为绝对路径:

String url = "http://www.example.com/";
Document doc = Jsoup.connect(url).get();
Elements links = doc.select("a[href]");
for (Element link : links) {
    String absLink = link.attr("abs:href");
}

这里的abs()方法可以将相对路径转换为绝对路径,从而能够正确地访问链接。

9.使用Jsoup处理XML

除了HTML,Jsoup还能够处理XML文档。可以使用以下代码解析XML文档:

String xml = "<root><item>1</item><item>2</item><item>3</item></root>";
Document doc = Jsoup.parse(xml, "", Parser.xmlParser());
Elements items = doc.select("item");

这里的xmlParser()方法将Jsoup的解析器设置为XML模式,然后就可以使用CSS选择器查找XML元素了。

10.处理HTML中的图片

有时候我们需要将HTML中的图片下载到本地使用。可以使用以下代码实现:

String imageUrl = "http://www.example.com/image.jpg";
Connection.Response resultImageResponse = Jsoup.connect(imageUrl).ignoreContentType(true).maxBodySize(0).execute();
byte[] imageBytes = resultImageResponse.bodyAsBytes();

这里的ignoreContentType()方法可以忽略ContentType的检查,maxBodySize()方法可以设置请求的最大字节数。然后可以将结果写入文件或者流中,以保存图片内容。

以上就是详解Java爬虫利器Jsoup的用法的详细内容,更多关于Java爬虫利器Jsoup的资料请关注脚本之家其它相关文章!

相关文章

  • 如何基于LoadingCache实现Java本地缓存

    如何基于LoadingCache实现Java本地缓存

    这篇文章主要介绍了如何基于LoadingCache实现Java本地缓存,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-12-12
  • 浅谈JAVA工作流的优雅实现方式

    浅谈JAVA工作流的优雅实现方式

    这篇文章主要介绍了浅谈JAVA工作流的优雅实现方式,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2018-11-11
  • Spring Boot中的JdbcTemplate是什么及用法小结

    Spring Boot中的JdbcTemplate是什么及用法小结

    Spring Boot中的JdbcTemplate是一个强大的数据库访问工具,它简化了数据库操作的过程,在本文中,我们了解了JdbcTemplate的基本概念,并演示了如何在Spring Boot应用程序中使用它,感兴趣的朋友跟随小编一起看看吧
    2023-10-10
  • 基于Ajax用户名验证、服务条款加载、验证码生成的实现方法

    基于Ajax用户名验证、服务条款加载、验证码生成的实现方法

    本篇文章对Ajax用户名验证、服务条款加载、验证码生成的实现方法,进行了详细的分析介绍。需要的朋友参考下
    2013-05-05
  • 详解Java的JDBC中Statement与PreparedStatement对象

    详解Java的JDBC中Statement与PreparedStatement对象

    这篇文章主要介绍了详解Java的JDBC中Statement与PreparedStatement对象,PreparedStatement一般来说比使用Statement效率更高,需要的朋友可以参考下
    2015-12-12
  • 使用java获取指定链接的网页内容

    使用java获取指定链接的网页内容

    Java提供了许多用于网络通信的库,其中最常用的是HttpURLConnection和HttpClient,本文将使用HttpURLConnection进行爬取指定链接的网页内容,感兴趣的可以了解下
    2023-09-09
  • Ajax实现省市区三级联动

    Ajax实现省市区三级联动

    这篇文章主要为大家详细介绍了jQuery ajax实现省市县三级联动的相关资料,具有一定的参考价值,感兴趣的小伙伴们可以参考一下,希望能帮助到你
    2021-07-07
  • Java mail 发送邮件的具体实例

    Java mail 发送邮件的具体实例

    这篇文章主要介绍了Java mail 发送邮件的具体实例,需要的朋友可以参考下
    2014-02-02
  • shade解决mybatis包冲突问题及项目引用的方法

    shade解决mybatis包冲突问题及项目引用的方法

    这篇文章主要介绍了shade解决mybatis包冲突问题及项目引用的方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-08-08
  • java并发编程实例分析

    java并发编程实例分析

    在本文里我们给大家分享了关于java并发编程实例分析以及相关知识点,需要的朋友们学习下。
    2019-03-03

最新评论