Java使用Jsoup实现将浏览器书签HTML转换为JSON

 更新时间:2026年01月18日 08:59:19   作者:weixin_46244623  
这篇文章主要介绍了如何使用Jsoup和Fastjson2将浏览器导出的书签HTML文件解析为层级化的JSON结构,文中的示例代码讲解详细,具有一定的借鉴价值,有需要的小伙伴可以了解下

一、背景说明

浏览器(Chrome / Edge / Firefox)导出的书签文件,通常是 Netscape Bookmark HTML 格式
在实际开发中,我们可能会遇到以下需求:

  • 将浏览器书签导入到自己的系统
  • 对书签进行结构化存储(如数据库、JSON)
  • 做书签导航站、搜索、同步工具等

本文通过 Jsoup + Fastjson2,演示如何将书签 HTML 解析为层级 JSON 结构,并支持 递归子目录

二、书签 HTML 格式说明

浏览器导出的书签文件大致结构如下:

<DL>
  <DT><H3>文件夹</H3>
  <DL>
    <DT><A href="https://www.baidu.com/" rel="external nofollow" >百度</A>
    <DT><H3>子文件夹</H3>
    <DL>
      <DT><A href="https://map.baidu.com/" rel="external nofollow" >百度地图</A>
    </DL>
  </DL>
</DL>

关键点:

  • <H3>:表示一个文件夹
  • <A>:表示一个书签链接
  • <DL>:表示当前文件夹的内容
  • 文件夹与其内容是 H3 → 紧跟的 DL

三、技术选型

技术作用
Jsoup解析 HTML DOM
Fastjson2构建 JSON 数据
JUnit + SpringBootTest测试运行

四、完整示例代码

下面给出 完整可运行代码,包括导入、类定义和递归方法:

package com.nav.test;

import com.alibaba.fastjson2.JSONArray;
import com.alibaba.fastjson2.JSONObject;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import org.junit.Test;
import org.junit.runner.RunWith;
import org.springframework.boot.test.context.SpringBootTest;
import org.springframework.test.context.junit4.SpringRunner;

@SpringBootTest
@RunWith(SpringRunner.class)
public class Bookmark {

    @Test
    public void main() {
        // 模拟浏览器导出的书签 HTML 内容
        String bookmarkContent = "<!DOCTYPE NETSCAPE-Bookmark-file-1>\n" +
                "<!-- This is an automatically generated file. -->\n" +
                "<META HTTP-EQUIV=\"Content-Type\" CONTENT=\"text/html; charset=UTF-8\">\n" +
                "<TITLE>Bookmarks</TITLE>\n" +
                "<H1>Bookmarks</H1>\n" +
                "<DL><p>\n" +
                "    <DT><H3 ADD_DATE=\"1632971641\" LAST_MODIFIED=\"1689686797\" PERSONAL_TOOLBAR_FOLDER=\"true\">书签栏</H3>\n" +
                "    <DL><p>\n" +
                "        <DT><A HREF=\"https://www.baidu.com/\" ADD_DATE=\"1689686710\">百度一下,你就知道</A>\n" +
                "        <DT><H3 ADD_DATE=\"1689686747\" LAST_MODIFIED=\"1689686798\">子书签</H3>\n" +
                "        <DL><p>\n" +
                "            <DT><A HREF=\"https://map.baidu.com/\" ADD_DATE=\"1689686769\">百度地图</A>\n" +
                "        </DL><p>\n" +
                "    </DL><p>\n" +
                "</DL><p>";

        // 使用 Jsoup 解析 HTML
        Document doc = Jsoup.parse(bookmarkContent);

        // 找到书签栏(Chrome 的 PERSONAL_TOOLBAR_FOLDER)
        Element mainFolder = doc.select("h3[personal_toolbar_folder]").first();

        // 递归处理
        JSONObject result = processFolder(mainFolder);

        // 输出 JSON
        System.out.println(result.toJSONString());
    }

    /**
     * 递归处理文件夹
     *
     * @param folderElement 文件夹对应的 H3 元素
     * @return JSONObject 结构 {name, links, subFolders}
     */
    private static JSONObject processFolder(Element folderElement) {
        JSONObject folderJson = new JSONObject();

        // 文件夹名称
        folderJson.put("name", folderElement.text());

        // 当前文件夹对应的 <DL>
        Element dl = folderElement.nextElementSibling();

        // 当前目录下的链接
        JSONArray links = new JSONArray();
        for (Element a : dl.select("> dt > a")) {
            JSONObject linkJson = new JSONObject();
            linkJson.put("name", a.text());
            linkJson.put("url", a.attr("href"));
            links.add(linkJson);
        }
        folderJson.put("links", links);

        // 子文件夹
        JSONArray subFolders = new JSONArray();
        for (Element h3 : dl.select("> dt > h3")) {
            subFolders.add(processFolder(h3));
        }
        folderJson.put("subFolders", subFolders);

        return folderJson;
    }
}

五、输出 JSON 示例

运行上面的代码,控制台输出类似:

{
  "name": "书签栏",
  "links": [
    {
      "name": "百度一下,你就知道",
      "url": "https://www.baidu.com/"
    }
  ],
  "subFolders": [
    {
      "name": "子书签",
      "links": [
        {
          "name": "百度地图",
          "url": "https://map.baidu.com/"
        }
      ],
      "subFolders": []
    }
  ]
}

六、实现思路总结

  • H3 表示文件夹
  • H3 后面的 DL 是内容
  • 使用 nextElementSibling() 关联目录
  • 递归解析子文件夹
  • 通过 > dt > a> dt > h3 选择器分别获取当前目录的书签和子文件夹

到此这篇关于Java使用Jsoup实现将浏览器书签HTML转换为JSON的文章就介绍到这了,更多相关Java浏览器书签HTML转JSON内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • springboot2如何禁用自带tomcat的session功能

    springboot2如何禁用自带tomcat的session功能

    这篇文章主要介绍了springboot2如何禁用自带tomcat的session功能,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2021-11-11
  • mybatis 遍历foreach中or拼接的操作

    mybatis 遍历foreach中or拼接的操作

    这篇文章主要介绍了mybatis 遍历foreach中or拼接的操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-02-02
  • 在Intellij IDEA中使用Debug(图文教程)

    在Intellij IDEA中使用Debug(图文教程)

    下面小编就为大家带来一篇在Intellij IDEA中使用Debug(图文教程)。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-09-09
  • SpringBoot+Hibernate实现自定义数据验证及异常处理

    SpringBoot+Hibernate实现自定义数据验证及异常处理

    这篇文章主要为大家介绍了SpringBoot如何整合Hibernate自定义数据验证及多种方式异常处理,文中的示例代码讲解详细,感兴趣的可以了解一下
    2022-04-04
  • Java递归算法经典实例(经典兔子问题)

    Java递归算法经典实例(经典兔子问题)

    本文主要对经典的兔子案例分析,来进一步更好的理解和学习java递归算法,具有很好的参考价值,需要的朋友一起来看下吧
    2016-12-12
  • 关于@DS注解切换数据源失败的原因实战记录

    关于@DS注解切换数据源失败的原因实战记录

    项目配置了多个数据源,需要使用@DS注解来切换数据源,但是却遇到了问题,下面这篇文章主要给大家介绍了关于@DS注解切换数据源失败原因的相关资料,需要的朋友可以参考下
    2023-05-05
  • Spring4如何自定义@Value功能详解

    Spring4如何自定义@Value功能详解

    这篇文章主要给大家介绍了关于Spring4如何自定义@Value功能的相关资料,文中通过示例代码介绍的非常详细,对大家学习或者使用spring4具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧。
    2017-09-09
  • Nacos客户端配置中心缓存动态更新实现源码

    Nacos客户端配置中心缓存动态更新实现源码

    这篇文章主要为大家介绍了Nacos客户端配置中心缓存动态更新实现源码,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步早日升职加薪
    2022-03-03
  • Spring Boot 中的自动配置autoconfigure详解

    Spring Boot 中的自动配置autoconfigure详解

    这篇文章主要介绍了Spring Boot 中的自动配置autoconfigure详解,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧
    2024-01-01
  • IDEA连接mysql保姆级教学教程

    IDEA连接mysql保姆级教学教程

    学习使用IDEA的时候,需要连接Database,下面这篇文章主要给大家介绍了关于IDEA连接mysql的保姆级教学教程,文中通过图文介绍的非常详细,需要的朋友可以参考下
    2023-03-03

最新评论