java 爬虫详解及简单实例

 更新时间:2017年05月24日 08:29:46   作者:饭饭_fan  
这篇文章主要介绍了java 爬虫详解及简单实例的相关资料,需要的朋友可以参考下

Java爬虫

一、代码

爬虫的实质就是打开网页源代码进行匹配查找,然后获取查找到的结果。

打开网页:

URL url = new URL(http://www.cnblogs.com/Renyi-Fan/p/6896901.html);

读取网页内容:

BufferedReader bufr = new BufferedReader(new InputStreamReader(url.openStream()));

正则表达式进行匹配:

tring mail_regex = "\\w+@\\w+(\\.\\w+)+";

储存结果:

List<String> list = new ArrayList<String>();

/*
* 获取
* 将正则规则进行对象的封装。
* Pattern p = Pattern.compile("a*b");
* //通过正则对象的matcher方法字符串相关联。获取要对字符串操作的匹配器对象Matcher .
* Matcher m = p.matcher("aaaaab");
* //通过Matcher匹配器对象的方法对字符串进行操作。
* boolean b = m.matches();
*/

import java.io.BufferedReader;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URL;
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class Spider {

  public static void main(String[] args) throws IOException {
//    List<String> list = getMails();
//    for(String mail : list){
//      System.out.println(mail);
//    }
  
    List<String> list = getMailsByWeb();
    for(String mail : list){
      System.out.println(mail);
    }
  }

  public static List<String> getMailsByWeb() throws IOException{
    //1,读取源文件。
    //URL url = new URL("http://192.168.1.100:8080/myweb/mail.html");
    //URL url = new URL("http://localhost:8080/SecondWeb/index.jsp");
    URL url = new URL("http://www.cnblogs.com/Renyi-Fan/p/6896901.html");

    BufferedReader bufr = new BufferedReader(new InputStreamReader(url.openStream()));


    //2,对读取的数据进行规则的匹配。从中获取符合规则的数据.
    String mail_regex = "\\w+@\\w+(\\.\\w+)+";

    List<String> list = new ArrayList<String>();

    Pattern p = Pattern.compile(mail_regex);
    String line = null;

    while((line=bufr.readLine())!=null){

      Matcher m = p.matcher(line);
      while(m.find()){
        //3,将符合规则的数据存储到集合中。
        list.add(m.group());
      }

    }
    return list;
  }

  public static List<String> getMails() throws IOException{
    //1,读取源文件。
    BufferedReader bufr = new BufferedReader(new FileReader("c:\\mail.html"));


    //2,对读取的数据进行规则的匹配。从中获取符合规则的数据.
    String mail_regex = "\\w+@\\w+(\\.\\w+)+";

    List<String> list = new ArrayList<String>();

    Pattern p = Pattern.compile(mail_regex);
    String line = null;

    while((line=bufr.readLine())!=null){

      Matcher m = p.matcher(line);
      while(m.find()){
        //3,将符合规则的数据存储到集合中。
        list.add(m.group());
      }

    }
    return list;
  }
}

二、运行结果

abc1@sina.com.cn
1@1.1

感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!

相关文章

  • Java Arrays.AsList原理及用法实例

    Java Arrays.AsList原理及用法实例

    这篇文章主要介绍了Java Arrays.AsList原理及用法实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-11-11
  • MyBatis动态创建表的实例代码

    MyBatis动态创建表的实例代码

    在项目需求中,我们经常会遇到动态操作数据表的需求,常见的我们会把日志、设备实时位置信息等存入数据表,并且以一定时间段生成一个表来存储。接下来通过本文给大家介绍MyBatis动态创建表的方法,感兴趣的朋友一起看看吧
    2018-07-07
  • Spring MVC Interceptor 实现性能监控的功能代码

    Spring MVC Interceptor 实现性能监控的功能代码

    本篇文章主要介绍了Spring MVC Interceptor 实现性能监控的功能代码,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-09-09
  • java接口使用默认方法的讲解

    java接口使用默认方法的讲解

    在本篇文章里小编给大家整理了一篇关于java接口使用默认方法的讲解内容,有需要的朋友们可以学习下。
    2021-04-04
  • 不可不知道的10个java谎言

    不可不知道的10个java谎言

    这篇文章主要为大家详细介绍了不可不知道的10个java谎言,大家一定要谨慎,需要了解的朋友可以参考一下
    2016-09-09
  • springboot @Value实现获取计算机中绝对路径文件的内容

    springboot @Value实现获取计算机中绝对路径文件的内容

    这篇文章主要介绍了springboot @Value实现获取计算机中绝对路径文件的内容,具有很好的参考价值,希望对大家有所帮助。
    2021-09-09
  • SpringBoot之QueryDsl嵌套子查询问题

    SpringBoot之QueryDsl嵌套子查询问题

    这篇文章主要介绍了SpringBoot之QueryDsl嵌套子查询问题,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-03-03
  • Springboot 配置线程池创建线程及配置 @Async 异步操作线程池详解

    Springboot 配置线程池创建线程及配置 @Async 异步操作线程池详解

    这篇文章主要介绍了Springboot 配置线程池创建线程及配置 @Async 异步操作线程池详解,文章围绕主题展开详细的内容介绍,具有一定的参考价值,需要的小伙伴可以参考一下
    2022-09-09
  • java读取excel图片导入代码示例(亲测有效)

    java读取excel图片导入代码示例(亲测有效)

    在日常工作中,我们经常要将一些照片插入到Excel表格中,这篇文章主要给大家介绍了关于java读取excel图片导入的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参考下
    2023-10-10
  • springboot集成es插入和查询的简单使用示例详解

    springboot集成es插入和查询的简单使用示例详解

    这篇文章主要介绍了springboot集成es 插入和查询的简单使用,本文分步骤结合示例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2023-08-08

最新评论