Java 使用maven实现Jsoup简单爬虫案例详解

 更新时间:2021年09月14日 08:28:37   作者:DrLai  
这篇文章主要介绍了Java 使用maven实现Jsoup简单爬虫案例详解,本篇文章通过简要的案例,讲解了该项技术的了解与使用,以下就是详细内容,需要的朋友可以参考下

一、Jsoup的简介

        jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据

二、我们可以利用Jsoup做什么

        2.1从URL,文件或字符串中刮取并解析HTML查找和提取数据,

        2.2使用DOM遍历或CSS选择器操纵HTML元素,属性和文本

        2.3从而使我们输出我们想要的整洁文本

三、利用Jsoup爬取某东示例

        可以从图中看到,成功爬取某东的女装热门销量从高到低的标题,从而可以分析到销量高(或者是综合排序)在前列的标题名称。从而可以剖析出热门商品的命名规范。

四、Jsoup用法

4.1先创建maven工程,在maven工程上注入依赖

4.2 注入依赖后需要导入依赖,否则在程序中使用Jsoup会全部报错。

4.3利用JSP的知识找出目标元素

如在某东界面我们发现, 控制目标页面的ID为"plist",则我们使用

getElementById("plist");方法去获取到他的ID

接着获取目标标题,可以由上图分析得,标题是由<em>标签所控制,因此我们需要用到

getElementsByTag("em");去捕捉到em的部分

最后循环输出他的部分即可。

五、总结

Jsoup只能应用于简单的页面捕捉,在实际开发中许多网站采用Ajax技术等使得模块在动态变化抑或是有反爬虫技术,因此本技术有局限性。熟悉前端jsp技术的同学应该会游刃有余。

最后附上所有代码

到此这篇关于Java 使用maven实现Jsoup简单爬虫案例详解的文章就介绍到这了,更多相关Java 使用maven实现Jsoup简单爬虫内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • SpringCloud使用Feign实现远程调用流程详细介绍

    SpringCloud使用Feign实现远程调用流程详细介绍

    OpenFeign源于Netflix的Feign,是http通信的客户端。屏蔽了网络通信的细节,直接面向接口的方式开发,让开发者感知不到网络通信细节。所有远程调用,都像调用本地方法一样完成
    2023-02-02
  • 简单了解JAVA NIO

    简单了解JAVA NIO

    这篇文章主要介绍了JAVA NIO的的相关资料,文中讲解非常细致,帮助大家更好的理解和学习,感兴趣的朋友可以了解下
    2020-07-07
  • Java实现截取视频第一帧的示例详解

    Java实现截取视频第一帧的示例详解

    在实际项目中,会遇到上传视频后,需要截取视频的首帧或指定帧为图片,作为展示使用的需求,下面小编就来为大家介绍一下如何使用Java实现截取视频第一帧吧
    2025-03-03
  • java设计模式之单例模式

    java设计模式之单例模式

    这篇文章主要为大家详细介绍了java设计模式之单例模式,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-10-10
  • 两万字详解Java Sring String的常见操作以及StringBuffer StringBuilder的区别

    两万字详解Java Sring String的常见操作以及StringBuffer StringBuilder的区别

    本篇文章带你认识Sring、String的常见操作和StringBuffer 与StringBuilder的区别(字符串详解),对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2021-09-09
  • Java中的CompletableFuture使用解析

    Java中的CompletableFuture使用解析

    这篇文章主要介绍了Java中的CompletableFuture使用解析,为什么CompletableFuture要定制化线程池,因为默认的线程池是ForkJoinPool,这个线程池的最大线程数默认是你的电脑的线程数数减1,假如我线程电脑是4核8线程的,ForkJoinPool的最大线程数就是7,需要的朋友可以参考下
    2024-01-01
  • 测试环境频繁Full GC问题的解决思路分析

    测试环境频繁Full GC问题的解决思路分析

    全文介绍了作者通过与调用方交互,发现welink-front服务不可用的问题,通过jmap-heap和jstat-gccause命令,作者找到了问题的原因是元数据区内存使用率过高,触发了FullGC,作者通过分析GC日志和堆内存使用情况,确定了问题的根本原因
    2025-01-01
  • java基于线程池和反射机制实现定时任务完整实例

    java基于线程池和反射机制实现定时任务完整实例

    这篇文章主要介绍了java基于线程池和反射机制实现定时任务的方法,以完整实例形式较为详细的分析了Java定时任务的功能原理与实现技巧,具有一定参考借鉴价值,需要的朋友可以参考下
    2015-11-11
  • 微信随机生成红包金额算法java版

    微信随机生成红包金额算法java版

    这篇文章主要为大家详细介绍了java和php版的微信随机生成红包金额算法,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2016-07-07
  • RabbitMQ实现消费端限流的步骤

    RabbitMQ实现消费端限流的步骤

    消费者端限流的主要目的是控制消费者每次从 RabbitMQ 中获取的消息数量,从而实现消息处理的流量控制,这篇文章主要介绍了RabbitMQ如何实现消费端限流,需要的朋友可以参考下
    2024-03-03

最新评论