java编程实现简单的网络爬虫示例过程

更新时间：2021年10月15日 08:52:07 作者：spring小杨

这篇文章主要为大家介绍了如何使用java编程实现一个简单的网络爬虫示例，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步

本项目中需要用到两个第三方jar包，分别为 jsoup 和 commons-io。

jsoup的作用是为了解析网页， commons-io 是为了把数据保存到本地。

1.爬取贴吧

第一步，打开eclipse，新建一个java项目，名字就叫做 pachong：

然后，新建一个类，作为我们程序的入口。

这个作为入口类，里面就写一个main方法即可。

public class StartUp {
	public static void main(String[] args) {
		
	}
}

第二步，导入我们的依赖，两个jar包：

右键jar包，Build path , add to Build path

接着，我们试着搜索一下动漫吧的数据：

https://tieba.baidu.com/f?kw=%B6%AF%C2%FE&tpl=5

public class StartUp {

	public static void main(String[] args) {
		String url = "https://tieba.baidu.com/f?kw=%B6%AF%C2%FE&tpl=5";
		Connection connect = Jsoup.connect(url);
		System.out.println(connect);
	}
}

如果能够成功打印出来链接，说明我们的连接测试是成功的！

然后，我们调用connect的get方法，获取链接到的数据：

Document document = connect.get();

这边需要抛出一个异常，而且是强制性的，因为有可能会获取失败。这边我们直接抛出去，不去捕获。

public class StartUp {

	public static void main(String[] args) throws IOException {
		String url = "https://tieba.baidu.com/f?kw=%B6%AF%C2%FE&tpl=5";
		Connection connect = Jsoup.connect(url);
		System.out.println(connect);
		
		Document document = connect.get(); 
		System.out.println(document);
	}
}

打印出来的结果：

可见，document对象装的就是一个完整HTML页面。

在这里，我们想要拿到的第一个数据，就是所有帖子的标题：

我们发现，每一个标题都是一个a连接，class为j_th_tit 。

下一步我们就考虑获取所有class为 j_th_tit 的元素。

我们发现，document对象给我们提供了 getElementsByClass 的方法，顾名思义，就是获取class为 XXX 的元素。

Elements titles = document.getElementsByClass("j_th_tit");

接着，遍历titles，打印出每一个标题的名称：

for (int i = 0; i < titles.size(); i++) {
	System.out.println(titles.get(i).attr("title"));
}

当前代码：

import java.io.IOException;
import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
public class StartUp {
	public static void main(String[] args) throws IOException {
		String url = "https://tieba.baidu.com/f?kw=%B6%AF%C2%FE&tpl=5";
		Connection connect = Jsoup.connect(url);		
		Document document = connect.get(); 		
		Elements titles = document.getElementsByClass("j_th_tit");		
		for (int i = 0; i < titles.size(); i++) {
			System.out.println(titles.get(i).attr("title"));
		}		
	}
}

以上就是java编程实现简单的网络爬虫示例过程的详细内容，更多关于java实现网络爬虫的资料请关注脚本之家其它相关文章！

您可能感兴趣的文章:

java
爬虫

SpringBoot可视化接口开发工具magic-api的简单使用教程
作为Java后端开发，平时开发API接口的时候经常需要定义Controller、Service、Dao、Mapper、XML、VO等Java对象。有没有什么办法可以让我们不写这些代码，直接操作数据库生成API接口呢？今天给大家推荐一款工具magic-api，来帮我们实现这个小目标！
2021-06-06
SpringCloud Zuul基本使用方法汇总
这篇文章主要介绍了SpringCloud Zuul基本使用方法汇总,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-09-09
Spring Cloud @EnableFeignClients注解的属性字段basePacka详解
这篇文章主要介绍了Spring Cloud @EnableFeignClients注解的属性字段basePacka详解，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2021-09-09
基于javamelody监控springboot项目过程详解
这篇文章主要介绍了基于javamelody监控springboot项目过程详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-11-11
Spring AOP 自定义注解的实现代码
本篇文章主要介绍了Spring AOP 自定义注解的实现代码，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2017-04-04
详解BeanUtils.copyProperties()方法如何使用
这篇文章主要为大家介绍了详解BeanUtils.copyProperties()方法如何使用，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2023-07-07
java 调用wsdl协议接口简单实用方法最新推荐
文章介绍了如何使用POM导入依赖,并编写一个测试类来调用不同的Web服务接口,通过访问接口地址,我们可以获取请求和返回的body,并进一步解析返回的JSON结果,感兴趣的朋友一起看看吧
2025-03-03
Graphics2D 写图片中文乱码问题及解决
这篇文章主要介绍了Graphics2D 写图片中文乱码问题及解决方案，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2021-11-11
PageHelper在springboot+mybatis框架中的使用步骤及原理解析
这篇文章主要介绍了PageHelper在springboot+mybatis框架中的使用步骤及原理解析,本文通过实例代码给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2023-03-03
用递归查找有序二维数组的方法详解
本篇文章是对用递归查找有序二维数组的方法进行了详细的分析介绍，需要的朋友参考下
2013-06-06

java编程实现简单的网络爬虫示例过程

1.爬取贴吧

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具