使用maven实现有关Jsoup简单爬虫的步骤

 更新时间:2021年09月15日 16:59:00   作者:DrLai  
这篇文章主要介绍了使用maven实现有关Jsoup简单爬虫的步骤,文中附含详细示例代码,有需要的朋友可以借鉴参考下,希望能够有所帮助

一、Jsoup的简介

jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据

二、我们可以利用Jsoup做什么

2.1从URL,文件或字符串中刮取并解析HTML查找和提取数据,

2.2使用DOM遍历或CSS选择器操纵HTML元素,属性和文本

2.3从而使我们输出我们想要的整洁文本

三、利用Jsoup爬取某东示例

可以从图中看到,成功爬取某东的女装热门销量从高到低的标题,从而可以分析到销量高(或者是综合排序)在前列的标题名称。从而可以剖析出热门商品的命名规范。

四、Jsoup用法

4.1先创建maven工程,在maven工程上注入依赖

4.2注入依赖后需要导入依赖,否则在程序中使用Jsoup会全部报错。

4.3利用JSP的知识找出目标元素

如在某东界面我们发现, 控制目标页面的ID为"plist",则我们使用

getElementById("plist");方法去获取到他的ID

接着获取目标标题,可以由上图分析得,标题是由<em>标签所控制,因此我们需要用到

getElementsByTag("em");去捕捉到em的部分

最后循环输出他的部分即可。

五、总结

Jsoup只能应用于简单的页面捕捉,在实际开发中许多网站采用Ajax技术等使得模块在动态变化抑或是有反爬虫技术,因此本技术有局限性。熟悉前端jsp技术的同学应该会游刃有余。

最后附上所有代码

以上就是使用maven实现有关Jsoup简单爬虫的步骤的详细内容,更多关于maven实现Jsoup爬虫的资料请关注脚本之家其它相关文章!

相关文章

  • 浅谈Java中Properties类的详细使用

    浅谈Java中Properties类的详细使用

    properties类继承自hashtable,通常和io流结合使用。它最突出的特点是将key/value作为配置属性写入到配置文件中以实现配置持久化,或从配置文件中读取这些属性。它的这些配置文件的规范后缀名为".properties"。表示了一个持久的属性集
    2021-06-06
  • Java运行Jar包内存配置的操作

    Java运行Jar包内存配置的操作

    这篇文章主要介绍了Java运行Jar包内存配置的操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-01-01
  • Java之Spring AOP 实现用户权限验证

    Java之Spring AOP 实现用户权限验证

    本篇文章主要介绍了Java之Spring AOP 实现用户权限验证,用户登录、权限管理这些是必不可少的业务逻辑,具有一定的参考价值,有兴趣的可以了解一下。
    2017-02-02
  • Spring Bean生命周期之Bean元信息的配置与解析阶段详解

    Spring Bean生命周期之Bean元信息的配置与解析阶段详解

    这篇文章主要为大家详细介绍了Spring Bean生命周期之Bean元信息的配置与解析阶段,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下,希望能够给你带来帮助
    2022-03-03
  • Java技巧:快速获取图片拍摄时间

    Java技巧:快速获取图片拍摄时间

    想知道如何用Java读取图片的拍摄时间吗?在这篇指南中,我将向你展示如何利用Java编程语言轻松获取图像的拍摄时间信息,不要错过这个简单而有用的技巧!
    2023-12-12
  • Java+Redis撤销重做功能实现

    Java+Redis撤销重做功能实现

    这篇文章主要介绍了Java+Redis实现撤销重做功能,需要考虑撤销的最大步数,撤销之后穿插着其他操作则不能再重做,所以引入分布式锁Redisson进行加锁处理,防止对图表的操作有并发请求导致处理撤销逻辑混乱,感兴趣的朋友跟随小编一起看看吧
    2023-05-05
  • java异步方式实现登录

    java异步方式实现登录

    这篇文章主要为大家详细介绍了java异步方式实现登录的相关资料,感兴趣的朋友可以参考一下
    2016-05-05
  • java实现从网络下载多个文件

    java实现从网络下载多个文件

    这篇文章主要为大家详细介绍了java实现从网络下载多个文件,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-07-07
  • Mybatis把返回结果封装成map类型的实现

    Mybatis把返回结果封装成map类型的实现

    本文主要介绍了Mybatis把返回结果封装成map类型的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-03-03
  • fastJson泛型如何转换的实现

    fastJson泛型如何转换的实现

    这篇文章主要介绍了fastJson泛型如何转换的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-11-11

最新评论