Java获取网页数据步骤方法详解
在很多行业当中,我们需要对行业进行分析,就需要对这个行业的数据进行分类,汇总,及时分析行业的数据,对于公司未来的发展,有很好的参照和横向对比。面前通过网络进行数据获取是一个很有效而且快捷的方式。
首先我们来简单的介绍一下,利用java对网页数据进行抓取的一些步骤,有不足的地方,还望指正,哈哈。屁话不多说了。
其实一般分为以下步骤:
1:通过HttpClient请求到达某网页的url访问地址(特别需要注意的是请求方式)
2:获取网页源码
3:查看源码是否有我们需要提取的数据
4:对源码进行拆解,一般使用分割,正则或者第三方jar包
5:获取需要的数据对自己创建的对象赋值
6:数据提取保存
下面简单的说一下在提取数据中的部分源码,以及用途:
/**
* 向指定URL发送GET方法的请求
*
* @param url
* 发送请求的URL
* @param param
* 请求参数,请求参数应该是 name1=value1&name2=value2 的形式。
* @return URL 所代表远程资源的响应结果
*/
public static String sendGet(String url, String param) {
String result = "";
BufferedReader in = null;
try {
String urlNameString = url;
URL realUrl = new URL(urlNameString);
// 打开和URL之间的连接
URLConnection connection = realUrl.openConnection();
// 设置通用的请求属性
connection.setRequestProperty("accept", "*/*");
connection.setRequestProperty("connection", "Keep-Alive");
connection.setRequestProperty("user-agent",
"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1;SV1)");
// 建立实际的连接
connection.connect();
// 获取所有响应头字段
Map<String, List<String>> map = connection.getHeaderFields();
// 定义 BufferedReader输入流来读取URL的响应
in = new BufferedReader(new InputStreamReader(
connection.getInputStream())); //这里如果出现乱码,请使用带编码的InputStreamReader构造方法,将需要的编码设置进去
String line;
while ((line = in.readLine()) != null) {
result += line;
}
} catch (Exception e) {
System.out.println("发送GET请求出现异常!" + e);
e.printStackTrace();
}
// 使用finally块来关闭输入流
finally {
try {
if (in != null) {
in.close();
}
} catch (Exception e2) {
e2.printStackTrace();
}
}
return result;
}
解析存储数据
public Bid getData(String html) throws Exception {
//获取的数据,存放在到Bid的对象中,自己可以重新建立一个对象存储
Bid bid = new Bid();
//采用Jsoup解析
Document doc = Jsoup.parse(html);
// System.out.println("doc内容" + doc.text());
//获取html标签中的内容tr
Elements elements = doc.select("tr");
System.out.println(elements.size() + "****条");
//循环遍历数据
for (Element element : elements) {
if (element.select("td").first() == null){
continue;
}
Elements tdes = element.select("td");
for(int i = 0; i < tdes.size(); i++){
this.relation(tdes,tdes.get(i).text(),bid,i+1);
}
}
return bid;
}
得到的数据
Bid {
h2 = '详见内容',
itemName = '诉讼服务中心设备采购',
item = '货物/办公消耗用品及类似物品/其他办公消耗用品及类似物品',
itemUnit = '详见内容',
areaName = '港北区',
noticeTime = '2018年10月22日 18:41',
itemNoticeTime = 'null',
itemTime = 'null',
kaibiaoTime = '2018年10月26日 09:00',
winTime = 'null',
kaibiaoDiDian = 'null',
yusuanMoney = '¥67.00元(人民币)',
allMoney = 'null',
money = 'null',
text = ''
}
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。
相关文章
解决@Test注解在Maven工程的Test.class类中无法使用的问题
这篇文章主要介绍了解决@Test注解在Maven工程的Test.class类中无法使用的问题,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教2022-03-03
一文告诉你为什么要重写hashCode()方法和equals()方法
本篇文章带大家了解一下为什么重写hashCode()方法和equals()方法,文中有非常详细的说明以及代码示例,对正在学习java的小伙伴们很有帮助,需要的朋友可以参考下2021-05-05
详解Spring Cloud Consul 实现服务注册和发现
这篇文章主要介绍了Spring Cloud Consul 实现服务注册和发现,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧2018-03-03


最新评论