java正则表达式匹配网页所有网址和链接文字的示例

更新时间：2014年03月21日 14:53:21 作者：

这篇文章主要介绍了java正则表达式匹配网页所有网址和链接文字java正则表达式匹配,需要的朋友可以参考下

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import java.net.*;
import java.io.*;
import java.util.regex.*;

/*
根据指定的规则，通过构造正则表达式获取网址
*/

public class Urls
{
    private String startUrl;                                         //开始采集网址
    String urlContent;
    String ContentArea;
    private String strAreaBegin ,strAreaEnd ;            //采集区域开始采集字符串和结束采集字符串
    private String stringInUrl,stringNotInUrl;
    String strContent;//获得的采集内容
    String[] allUrls;                                                            //采集到的所有网址
    private String regex;                                                 //采集规则

    UrlAndTitle   urlAndTitle=new UrlAndTitle();    //存储网址和标题


    public static void main(String[] args)
    {
         Urls myurl=new Urls("<body","/body>");
         myurl.getStartUrl("http://www.zuzwn.com/");
         myurl.getUrlContent();
         myurl.getContentArea();
         myurl.getStartUrl("http://www.zuzwn.com/");
         myurl.getStringNotInUrl("google");
         myurl.Urls();

        //System.out.println("startUrl:"+myurl.startUrl);
        //System.out.println("urlcontent:"+myurl.urlContent);
        //System.out.println("ContentArea:"+myurl.ContentArea);

    }


    //初始化构造函数 strAreaBegin 和strAreaEnd

    public Urls (String strAreaBegin,String strAreaEnd)
    {
        this.strAreaBegin=strAreaBegin;
        this.strAreaEnd=strAreaEnd;
}

//
    public void Urls()
    {
        int i=0;
        //String regex ="<a href="?'?http://[a-zA-Z0-9]+/.[a-zA-Z0-9]+/.[a-zA-Z]+/?[/.?[/S|/s]]+[a>]$";
        String regex ="<a.*?/a>";
         //String regex ="http://.*?>";
        Pattern pt=Pattern.compile(regex);
        Matcher mt=pt.matcher(ContentArea);
        while(mt.find())
         {
                 System.out.println(mt.group());
                 i++;

                 //获取标题
                 Matcher title=Pattern.compile(">.*?</a>").matcher(mt.group());
                 while(title.find())
                 {
                      System.out.println("标题:"+title.group().replaceAll(">|</a>",""));
                 }

                 //获取网址
                 Matcher myurl=Pattern.compile("href=.*?>").matcher(mt.group());
                 while(myurl.find())
                 {
                      System.out.println("网址:"+myurl.group().replaceAll("href=|>",""));
                 }

                 System.out.println();


         }

        System.out.println("共有"+i+"个符合结果");

    }

    //获得开始采集网址
    public void getStartUrl(String startUrl)
    {
        this.startUrl=startUrl;
    }

    //获得网址所在内容;
    public void getUrlContent()
    {

        StringBuffer is=new StringBuffer();
        try
        {
            URL myUrl=new URL(startUrl);
            BufferedReader br= new BufferedReader(
                                                        new InputStreamReader(myUrl.openStream()));

            String s;
            while((s=br.readLine())!=null)
            {
                is.append(s);
            }
            urlContent=is.toString();
        }
    catch(Exception e)

    {
        System.out.println("网址文件未能输出");
        e.printStackTrace();
    }


    }


    //获得网址所在的匹配区域部分
    public void getContentArea()
    {
         int pos1=0,pos2=0;
         pos1= urlContent.indexOf(strAreaBegin)+strAreaBegin.length();
         pos2=urlContent.indexOf(strAreaEnd,pos1);
         ContentArea=urlContent.substring(pos1,pos2);
    }

    //以下两个函数获得网址应该要包含的关键字及不能包含的关键字
    //这里只做初步的实验。后期，保护的关键字及不能包含的关键字应该是不只一个的。
    public void getStringInUrl(String stringInUrl)
    {
         this.stringInUrl=stringInUrl;

    }

    public void getStringNotInUrl(String stringNotInUrl)
    {
        this.stringNotInUrl=stringNotInUrl;
    }

    //获取采集规则

    //获取url网址
    public void getUrl()
    {

    }

    public String getRegex()
    {
        return regex;

    }

    class UrlAndTitle
    {
        String myURL;
        String title;
    }
}

您可能感兴趣的文章:

Mybatis优化检索的方法详解
MyBatis是一款优秀的基于Java的持久层框架,它可以将 SQL 语句和数据库中的记录映射成为 Java 对象,并且支持灵活的 SQL 查询语句,在Mybatis中,可以使用动态SQL来灵活构造SQL语句,从而满足各种不同的检索需求,本文介绍Mybatis如何优化检索,需要的朋友可以参考下
2024-05-05
解读String字符串拼接的原理
这篇文章主要介绍了关于String字符串拼接的原理,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2023-07-07
spring data jpa @Query注解中delete语句报错的解决
这篇文章主要介绍了spring data jpa @Query注解中delete语句报错的解决，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2021-12-12
Hadoop源码分析三启动及脚本剖析
本篇是Hadoop源码分析系列文章第三篇，主要介绍Hadoop启动以及脚本的剖析，后续本系列文章会持续更新，有需要的朋友可以借鉴参考下
2021-09-09
java中Arrays.sort()排序方法举例详解
这篇文章主要给大家介绍了关于java中Arrays.sort()排序方法举例详解的相关资料,Java Arrays.sort()方法对数组进行排序,通常情况下直接传入数组,默认升序排序,文中通过代码介绍的非常详细,需要的朋友可以参考下
2023-11-11
@Scheduled在springboot中的使用方式
这篇文章主要介绍了@Scheduled在springboot中的使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2024-08-08
IDEA中的JFormDesigner使用小结
JFormDesigner是一款用于设计和创建图形用户界面的插件,本文主要介绍了IDEA中的JFormDesigner使用小结,具有一定的参考价值,感兴趣的可以了解一下
2024-01-01
java自动装箱拆箱深入剖析
基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。java语言规范中说道：在许多情况下包装与解包装是由编译器自行完成的（在这种情况下包装成为装箱，解包装称为拆箱）
2012-11-11
SpringBoot使用validation做参数校验的实现步骤
这篇文章主要介绍了SpringBoot使用validation做参数校验的实现步骤，帮助大家更好的理解和学习使用SpringBoot，感兴趣的朋友可以了解下
2021-05-05
SpringBoot2.0 整合 Dubbo框架实现RPC服务远程调用方法
这篇文章主要介绍了SpringBoot2.0 整合 Dubbo框架实现RPC服务远程调用 ,本文给大家介绍的非常详细，具有一定的参考借鉴价值，需要的朋友可以参考下
2019-07-07

java正则表达式匹配网页所有网址和链接文字的示例

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具