java正则表达式匹配网页所有网址和链接文字的示例

 更新时间:2014年03月21日 14:53:21   作者:  
这篇文章主要介绍了java正则表达式匹配网页所有网址和链接文字java正则表达式匹配,需要的朋友可以参考下

复制代码 代码如下:

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import java.net.*;
import java.io.*;
import java.util.regex.*;

/*
根据指定的规则,通过构造正则表达式获取网址
*/

public class Urls
{
    private String startUrl;                                         //开始采集网址
    String  urlContent;
    String ContentArea;
    private String strAreaBegin ,strAreaEnd ;            //采集区域开始采集字符串和结束采集字符串
    private String stringInUrl,stringNotInUrl;       
    String strContent;//获得的采集内容
    String[] allUrls;                                                            //采集到的所有网址
    private String  regex;                                                 //采集规则

    UrlAndTitle   urlAndTitle=new UrlAndTitle();    //存储网址和标题                   

   
    public static void main(String[] args)
    {
         Urls myurl=new Urls("<body","/body>");
         myurl.getStartUrl("http://www.zuzwn.com/");
         myurl.getUrlContent();
         myurl.getContentArea();
         myurl.getStartUrl("http://www.zuzwn.com/");
         myurl.getStringNotInUrl("google");
         myurl.Urls();

        //System.out.println("startUrl:"+myurl.startUrl);
        //System.out.println("urlcontent:"+myurl.urlContent);
        //System.out.println("ContentArea:"+myurl.ContentArea);

    }

   
    //初始化构造函数 strAreaBegin 和strAreaEnd

    public Urls (String strAreaBegin,String strAreaEnd)
    {
        this.strAreaBegin=strAreaBegin;
        this.strAreaEnd=strAreaEnd;
  }

  //
    public void Urls()
    {
        int i=0;
        //String regex ="<a href="?'?http://[a-zA-Z0-9]+/.[a-zA-Z0-9]+/.[a-zA-Z]+/?[/.?[/S|/s]]+[a>]$";
        String regex ="<a.*?/a>";
         //String regex ="http://.*?>";
        Pattern pt=Pattern.compile(regex);
        Matcher mt=pt.matcher(ContentArea);
        while(mt.find())
         {
                 System.out.println(mt.group());
                 i++;

                 //获取标题
                 Matcher title=Pattern.compile(">.*?</a>").matcher(mt.group());
                 while(title.find())
                 {
                      System.out.println("标题:"+title.group().replaceAll(">|</a>",""));
                 }

                 //获取网址
                 Matcher myurl=Pattern.compile("href=.*?>").matcher(mt.group());
                 while(myurl.find())
                 {
                      System.out.println("网址:"+myurl.group().replaceAll("href=|>",""));
                 }

                 System.out.println();

                
         }

        System.out.println("共有"+i+"个符合结果");

    }   

    //获得开始采集网址
    public void getStartUrl(String startUrl)
    {
        this.startUrl=startUrl;
    }

    //获得网址所在内容;
    public void getUrlContent()
    {

        StringBuffer is=new StringBuffer();
        try
        {
            URL myUrl=new URL(startUrl);
            BufferedReader br= new BufferedReader(
                                                        new InputStreamReader(myUrl.openStream()));

            String s;                                               
            while((s=br.readLine())!=null)
            {
                is.append(s);
            }                                           
            urlContent=is.toString();
        }
    catch(Exception e)

    {
        System.out.println("网址文件未能输出");
        e.printStackTrace();
    }

       
    }

   
    //获得网址所在的匹配区域部分
    public void getContentArea()
    {
         int pos1=0,pos2=0;
         pos1= urlContent.indexOf(strAreaBegin)+strAreaBegin.length();
         pos2=urlContent.indexOf(strAreaEnd,pos1);
         ContentArea=urlContent.substring(pos1,pos2);
    }

    //以下两个函数获得网址应该要包含的关键字及不能包含的关键字
    //这里只做初步的实验。后期,保护的关键字及不能包含的关键字应该是不只一个的。
    public void getStringInUrl(String stringInUrl)
    {
         this.stringInUrl=stringInUrl;       

    }

    public void getStringNotInUrl(String stringNotInUrl)
    {
        this.stringNotInUrl=stringNotInUrl;
    }

    //获取采集规则

    //获取url网址
    public void getUrl()
    {

    }

    public String getRegex()
    {
        return regex;

    }

    class UrlAndTitle
    {
        String myURL;
        String title;
    }
}

相关文章

  • SpringBoot实现动态控制定时任务支持多参数功能

    SpringBoot实现动态控制定时任务支持多参数功能

    这篇文章主要介绍了SpringBoot实现动态控制定时任务-支持多参数功能,本文通过实例代码给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-05-05
  • springboot2.0整合logback日志的详细代码

    springboot2.0整合logback日志的详细代码

    这篇文章主要介绍了springboot2.0整合logback日志的应用场景分析,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-02-02
  • Java通过MySQL的加解密函数实现敏感字段存储

    Java通过MySQL的加解密函数实现敏感字段存储

    这篇文章主要介绍了如何在Java中MySQL的加解密函数实现敏感字段存储,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下
    2022-03-03
  • java多线程中的生产者和消费者队列详解

    java多线程中的生产者和消费者队列详解

    这篇文章主要介绍了java多线程中的生产者和消费者队列详解,队列,是一种数据结构,除了优先级队列和LIFO队列外,队列都是以FIFO(先进先出)的方式对各个元素进行排序的,需要的朋友可以参考下
    2024-01-01
  • Java中的堆排序详解

    Java中的堆排序详解

    这篇文章主要介绍了Java中的堆排序详解,堆排序的重点,在于排序的方式,堆排序,就是以堆的形式去排序,毫无疑问,了解堆很重要,文中提供了图解与部分代码,需要的朋友可以参考下
    2023-08-08
  • Spring自带的校验框架Validation的使用实例

    Spring自带的校验框架Validation的使用实例

    今天小编就为大家分享一篇关于Spring自带的校验框架Validation的使用实例,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧
    2019-03-03
  • SpringMVC中控制器返回JSON数据的实现

    SpringMVC中控制器返回JSON数据的实现

    本文主要介绍了SpringMVC中控制器返回JSON数据的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-07-07
  • SpringBoot+Vue+JWT的前后端分离登录认证详细步骤

    SpringBoot+Vue+JWT的前后端分离登录认证详细步骤

    这篇文章主要介绍了SpringBoot+Vue+JWT的前后端分离登录认证,其实创建后端springboot工程也很简单,本文安装idea步骤一步步给大家详细介绍,需要的朋友可以参考下
    2021-09-09
  • Elasticsearch(ES)多种查询方式案例

    Elasticsearch(ES)多种查询方式案例

    Elasticsearch是一个分布式的RESTful搜索和分析引擎,可让您轻松地大规模存储,搜索和分析,这篇文章主要给大家介绍了关于Elasticsearch(ES)多种查询方式的相关资料,需要的朋友可以参考下
    2023-09-09
  • springboot ehcache 配置使用方法代码详解

    springboot ehcache 配置使用方法代码详解

    EhCache是一个比较成熟的Java缓存框架,Springboot对ehcache的使用非常支持,所以在Springboot中只需做些配置就可使用,且使用方式也简易,今天给大家分享springboot ehcache 配置使用教程,一起看看吧
    2021-06-06

最新评论