关于Jsoup将相对路径转为绝对路径的方法

 更新时间:2023年04月26日 10:00:54   作者:CrazyDragon_King  
这篇文章主要介绍了关于Jsoup将相对路径转为绝对路径的方法,jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容,需要的朋友可以参考下

自从使用 HttpClient 和 Jsoup 配合编写了几个简单的入门爬虫之后,发现对于绝对路径的需求是很频繁的,因为大部分的网页都写相对路径,这样是有好处的,但是爬虫还是需要获取绝对的路径的。 通常我的处理方式是在获取的相对路径路径前面,拼接一个根路径。当是,这种方法只能适用于,相对路径是相对于当前路径的,如果相对路径是相对于当前路径的上一级或更上一级,那就不好处理了。

正好我昨天我碰到了这种相对路径。我无意间发现原来 Jsoup 本身就提供了这个功能,但是我发现很多其他人的博客,虽然介绍了 Jsoup 通过相对路径获取绝对路径的方法,但是都没有介绍完全,为此我也是走了几个坑,特意在此说明一下。

通过Jsoup将相对路径转为绝对路径的方法

如果想要通过 attr 方法获取到绝对路径,必须同时使用这两个方法。

Document org.jsoup.Jsoup.parse(String html, String baseUri);
String org.jsoup.nodes.Node.attr(String attributeKey);

必须使用Jsoup 带有 baseUri 参数的重载方法,如果只是用具有第一个参数的 方法,那么通过attr取绝对路径时,获取的内容为空!这是一个坑,但是其它人的博客都没有介绍这一点。

Parameters:
html HTML to parse
baseUri The URL where the HTML was
retrieved from. Used to resolve relative URLs to absolute URLs, that
occurbefore the HTML declares a <base href> tag.

这里列出参数的注释,第一个参数是需要解析的html文档,第二个参数是这个html的url。用于将相对url解析为绝对url,即在HTML声明标记之前发生。

注意: 这里的 baseUri 并不是网站的根路径,它是指当前的html路径。即当前相对路径所在的html文档的路径,是相对路径相对的那个路径。 所以,如果填写的是当前根路径,那么最后获取的绝对路径也是有问题的。(也许是可以使用的,但是格式可能有问题。) 下面第二点,依赖于当前这个给定的 baseUri 参数。

attr 方法里面的一句话:

To get an absolute URL from an attribute that may be a relative URL, prefix the key with abs,which is a shortcut to the absUrl method.
E.g.: String url = a.attr(“abs:href”);
这句话的意思是从一个相对路径种获取一个绝对路径,使用 abs 前缀,这是absUrl方法的快捷方式。
并且给了一个示例:

String url = a.attr("abs:href");

所以,如果想要获取到绝对路径的话,需要在参数前面加上 abs: 。 这里 abs 就是 absolute 的缩写,它的意思就是绝对的。

但是,如果不去使用带有上面第一点提到的那个重载的 parse 方法的话,这种方法是取不到绝对路径的,甚至是取不到路径。我在这里踩了一个坑。

示例

这里以一个简单的例子说明: 代码:

package ahnu.news;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;

public class JsoupPathTest {
	public static void main(String[] args) {
		String html = "<html>"
				+ "<head></head>"
				+ "<body>"
				+ "<a href=\"../dragon/love/you\"></a>"
				+ "</body>"
				+ "</html>";
		
		System.out.println("正确的用法");
		Document doc = Jsoup.parse(html, "http://example/index/loveyou/");
		Element aTag = doc.getElementsByTag("a").first();   //获取 a 标签,只有一个,取第一个即可。
		System.out.println(aTag);
		String relativePath = aTag.attr("href");      //获取相对路径
		String absolutePath = aTag.attr("abs:href");  //获取绝对路径
		System.out.println("相对路径:" + relativePath);
		System.out.println("绝对路径:" + absolutePath);
		
		System.out.println("---------------------分割线---------------------");
		
		System.out.println("错误的用法");
		doc = Jsoup.parse(html);
		aTag = doc.getElementsByTag("a").first();   //获取 a 标签,只有一个,取第一个即可。
		System.out.println(aTag);
		relativePath = aTag.attr("href");      //获取相对路径
		absolutePath = aTag.attr("abs:href");  //获取绝对路径
		System.out.println("相对路径:" + relativePath);
		System.out.println("绝对路径:" + absolutePath);
	}
}

运行结果:

在这里插入图片描述

注意: 1.在解析html的时候,必须添加 baseUri 参数,否则获取绝对路径时,反而什么都得不到,这是一个坑,注意防范。 2.希望其他人贴方法的时候,可以附带代码的执行结果,或者如果是转载的别人的博客,也可以运行一下代码,不然如果他错了,你也转载,那就是在传播错误了。 3.英语还是很重要的,关键时候可以帮助自己理解api的正确用法。

到此这篇关于关于Jsoup将相对路径转为绝对路径的方法的文章就介绍到这了,更多相关Jsoup获取绝对路径内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Java并发工具类Future使用示例

    Java并发工具类Future使用示例

    这篇文章主要介绍了Java并发工具类Future使用示例,本文需要注意future.get()方法是阻塞式的,如果调用该方法的时候任务尚未执行完成,则会一直等待下去,直到任务执行结束,本文通过示例代码给大家介绍的非常详细,需要的朋友参考下吧
    2022-06-06
  • 深入了解MyBatis参数

    深入了解MyBatis参数

    今天小编就为大家分享一篇关于深入了解MyBatis参数,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧
    2018-12-12
  • Spring Boot实现分布式锁的自动释放的示例代码

    Spring Boot实现分布式锁的自动释放的示例代码

    在实际开发中,我们可以使用 Redis、Zookeeper 等分布式系统来实现分布式锁,本文将介绍如何使用 Spring Boot 来实现分布式锁的自动释放,感兴趣的朋友跟随小编一起看看吧
    2023-06-06
  • BlockingQueue队列处理高并发下的日志

    BlockingQueue队列处理高并发下的日志

    这篇文章主要介绍了BlockingQueue队列处理高并发下的日志示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步
    2022-03-03
  • springboot整合mqtt客户端示例分享

    springboot整合mqtt客户端示例分享

    这篇文章主要介绍了springboot整合mqtt客户端示例分享的相关资料,需要的朋友可以参考下
    2023-07-07
  • Java中的split使用方法详解

    Java中的split使用方法详解

    这篇文章主要介绍了Java中的split使用方法详解,Java 中 String 的 split 方法可以将字符串根据指定的间隔进行切割,经过切割后得到的返回值是一个字符串数组,需要的朋友可以参考下
    2023-10-10
  • 一文详解如何在Java中自定义异常类

    一文详解如何在Java中自定义异常类

    这篇文章主要介绍了如何在Java中自定义异常类的相关资料,在Java编程中开发者可以通过继承Exception类或其子类创建自定义异常,文中通过代码介绍的非常详细,需要的朋友可以参考下
    2024-10-10
  • 如何在Netty中注解使用Service或者Mapper

    如何在Netty中注解使用Service或者Mapper

    这篇文章主要介绍了如何在Netty中注解使用Service或者Mapper,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-02-02
  • Java MD5加密工具类的方法(支持多参数输入)

    Java MD5加密工具类的方法(支持多参数输入)

    在实际开发过程中,MD5加密是一种常见的数据安全处理手段,常用于密码存储、数据完整性校验等场景,这篇文章主要介绍了Java MD5加密工具类(支持多参数输入),需要的朋友可以参考下
    2024-05-05
  • Java反射之通过反射获取一个对象的方法信息(实例代码)

    Java反射之通过反射获取一个对象的方法信息(实例代码)

    下面小编就为大家带来一篇Java反射之通过反射获取一个对象的方法信息(实例代码)。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2016-10-10

最新评论