Java精确抽取网页发布时间

 更新时间:2016年06月08日 14:47:24   投稿:lijiao  
这篇文章主要为大家详细介绍了Java精确抽取网页发布时间的相关资料,尽量做到精确无误,感兴趣的小伙伴们可以参考一下

对网页中各种不同格式的发布时间进行抽取,将发布时间以规整的“yyyy-MM-dd HH:mm:ss”格式表示出来,只能尽量追求精确,但是因为网络发布时间的格式十分灵活,所以做不到百分百地正确抽取

package whu.extract.pubtime.core;
 
import java.util.ArrayList;
import java.util.Calendar;
import java.util.Collections;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
 
import whu.utils.TimeUtil;
 
/**
 * Created On 2014年3月13日 下午2:49:05
 * @description 获取网页的发布时间 
 */
public class FetchPubTime {
  /** 表示url中连续的8位日期,例如http://www.baidu.com/20140311/2356.html */
  private static String url_reg_whole= "([-|/|_]{1}20\\d{6})";
  /** 表示 用-或者/隔开的日期,有年月日的,例如 http://www.baidu.com/2014-3-11/2356.html */
  private static String url_reg_sep_ymd = "([-|/|_]{1}20\\d{2}[-|/|_]{1}\\d{1,2}[-|/|_]{1}\\d{1,2})";
  /** 表示 用-或者/隔开的日期,只有年和月份的,例如 http://www.baidu.com/2014-3/2356.html */
  private static String url_reg_sep_ym = "([-|/|_]{1}20\\d{2}[-|/|_]{1}\\d{1,2})";
  private static Calendar current = Calendar.getInstance();
  /** 格式正确的时间正则表达式*/
  private static String rightTimeReg = "^((\\d{2}(([02468][048])|([13579][26]))[\\-\\/\\s]?((((0?[13578])|(1[02]))[\\-\\/\\s]?((0?[1-9])|([1-2][0-9])|(3[01])))|(((0?[469])|(11))[\\-\\/\\s]?((0?[1-9])|([1-2][0-9])|(30)))|(0?2[\\-\\/\\s]?((0?[1-9])|([1-2][0-9])))))|(\\d{2}(([02468][1235679])|([13579][01345789]))[\\-\\/\\s]?((((0?[13578])|(1[02]))[\\-\\/\\s]?((0?[1-9])|([1-2][0-9])|(3[01])))|(((0?[469])|(11))[\\-\\/\\s]?((0?[1-9])|([1-2][0-9])|(30)))|(0?2[\\-\\/\\s]?((0?[1-9])|(1[0-9])|(2[0-8]))))))(\\s(((0?[0-9])|([1-2][0-3]))\\:([0-5]?[0-9])((\\s)|(\\:([0-5]?[0-9])))))?$";
   
  /**
   * @param url
   * @param urlContent
   * @return
   */
  public static String getPubTimeVarious(String url,String urlContent) {
     
    String pubTime = getPubTimeFromUrl(url);
     
   //链接里面没有,匹配文本中的
    if(pubTime == null)
    {
      if(urlContent!=null&&!urlContent.trim().equals(""))
        return extractPageDate(urlContent);
    }
     
    return pubTime;
  }
   
  /**从url里面抽取出发布时间,返回YYYY-MM-DD HH:mm:ss格式的字符串
   * @param url
   * @return
   */
  public static String getPubTimeFromUrl(String url)
  {
    Pattern p_whole = Pattern.compile(url_reg_whole);
    Matcher m_whole = p_whole.matcher(url);
    if(m_whole.find(0)&&m_whole.groupCount()>0)
    {
      String time = m_whole.group(0);
      time = time.substring(1,time.length());
      //每一步都不能够超出当前时间     
    if(current.compareTo(TimeUtil.strToCalendar(time, "yyyyMMdd"))>=0)
    {
 
      return time.substring(0,4)+"-"+time.substring(4,6)+"-"+
         time.substring(6,8)+" "+"00:00:00";
    }
    }
    
    p_whole = null;
    m_whole = null;
    Pattern p_sep = Pattern.compile(url_reg_sep_ymd);
    Matcher m_sep = p_sep.matcher(url);
    if(m_sep.find(0)&&m_sep.groupCount()>0)
    {
       String time = m_sep.group(0);
       time = time.substring(1,time.length());
       String[] seg = time.split("[-|/|_]{1}");
       Calendar theTime = Calendar.getInstance();
       theTime.set(Calendar.YEAR,Integer.parseInt(seg[0]));
       theTime.set(Calendar.MONTH, Integer.parseInt(seg[1]));
       theTime.set(Calendar.DAY_OF_MONTH, Integer.parseInt(seg[2]));
       if(current.compareTo(theTime)>=0)
        {
       
      return seg[0]+"-"+seg[1]+"-"+seg[2]+" "+"00:00:00";
        }
    }
    p_sep = null;
    m_sep = null;
    Pattern p_sep_ym = Pattern.compile(url_reg_sep_ym);
    Matcher m_sep_ym = p_sep_ym.matcher(url);
    if(m_sep_ym.find(0)&&m_sep_ym.groupCount()>0)
    {
       String time = m_sep_ym.group(0);
       time = time.substring(1,time.length());
       Calendar theTime = Calendar.getInstance();
       String[] seg = time.split("[-|/|_]{1}");
       theTime.set(Calendar.YEAR,Integer.parseInt(seg[0]));
       theTime.set(Calendar.MONTH, Integer.parseInt(seg[1]));
       theTime.set(Calendar.DAY_OF_MONTH, 1);
       if(current.compareTo(theTime)>=0)
      {
       
      return seg[0]+"-"+seg[1]+"-"+"01"+" "+"00:00:00";
      }
    }
     
    return null;
  }
   
 
  /** 从网页源码中取出发布时间
   * java中正则表达式提取字符串中日期实现代码
   * 2013年12月19日15:58:42
   * 读取出2013-12-19 15:48:33或者2013-12-19或者2012/3/05形式的时间
   * @param text 待提取的字符串
   * @return 返回日期
   * @author: oschina
   * @Createtime: Jan 21, 2013
   */
  public static String extractPageDate(String text) { 
    boolean containsHMS =false;
    String dateStr = text.replaceAll("r?n", " ");
    try { 
      List matches = null; 
      Pattern p_detail = Pattern.compile("(20\\d{2}[-/]\\d{1,2}[-/]\\d{1,2} \\d{1,2}:\\d{1,2}:\\d{1,2})|(20\\d{2}年\\d{1,2}月\\d{1,2}日)", Pattern.CASE_INSENSITIVE|Pattern.MULTILINE); 
      //如果是仅仅抽取年月日,则按照上面的,如果是抽取年月日-时分秒,则按照下面的
      Pattern p = Pattern.compile("(20\\d{2}[-/]\\d{1,2}[-/]\\d{1,2})|(20\\d{2}年\\d{1,2}月\\d{1,2}日)", Pattern.CASE_INSENSITIVE|Pattern.MULTILINE);
      //Matcher matcher = p.matcher(dateStr);
      Matcher matcher_detail = p_detail.matcher(dateStr);
       
      if(!(matcher_detail.find(0) && matcher_detail.groupCount() >= 1)) 
      {
        matcher_detail = p.matcher(dateStr);
        containsHMS = true;
      }else
        matcher_detail = p_detail.matcher(dateStr);
      if (matcher_detail.find() && matcher_detail.groupCount() >= 1) { 
        matches = new ArrayList(); 
        for (int i = 1; i <= matcher_detail.groupCount(); i++) { 
          String temp = matcher_detail.group(i); 
          matches.add(temp); 
        } 
      } else { 
        matches = Collections.EMPTY_LIST; 
      }      
 
      if (matches.size() > 0) { 
        for(int i=0;i<matches.size();i++)
        {
          String pubTime = matches.get(i).toString().trim();
          //取出第一个值
          pubTime = pubTime.replace("/", "-").replace("年", "-").replace("月", "-").replace("日", "-");
          if(current.compareTo(TimeUtil.strToCalendar(pubTime, "yyyy-MM-dd"))>=0)
          {
            if(containsHMS)
              pubTime+=" "+"00:00:00";
            if(pubTime.matches(rightTimeReg))
            {
              return pubTime; 
            }
          }
        }
      } else { 
        return null; 
      } 
       
    } catch (Exception e) { 
      return null; 
    } 
    return null;
  }
}

以上就是本文的全部内容,希望对大家学习java程序设计有所帮助。

相关文章

  • Mybatis Plus使用@TableId之坑及解决

    Mybatis Plus使用@TableId之坑及解决

    这篇文章主要介绍了Mybatis Plus使用@TableId之坑及解决,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2021-12-12
  • 我劝你谨慎使用Spring中的@Scheduled注解

    我劝你谨慎使用Spring中的@Scheduled注解

    这篇文章主要介绍了Spring中的@Scheduled注解使用,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2021-10-10
  • Java中的snowflake算法详解

    Java中的snowflake算法详解

    这篇文章主要介绍了Java中的snowflake算法详解,Snowflake算法产生是为了满足Twitter每秒上万条消息的请求,每条消息都必须分配一条唯一的id,这些id还需要一些大致的顺序,并且在分布式系统中不同机器产生的id必须不同,需要的朋友可以参考下
    2023-08-08
  • 浅谈@RequestMapping注解的注意点

    浅谈@RequestMapping注解的注意点

    这篇文章主要介绍了浅谈@RequestMapping注解的注意点,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-02-02
  • 详解MyBatis特性之动态SQL

    详解MyBatis特性之动态SQL

    动态 SQL 是 MyBatis 的强大特性之一,这篇文章我们将结合动态SQL完成更加复杂的 SQL 操作,文章通过代码示例给大家介绍的非常详细,对大家的学习或工作有一定的帮助,需要的朋友可以参考下
    2024-01-01
  • java中toString()、String.valueOf()、(String) 强转的区别

    java中toString()、String.valueOf()、(String) 强转的区别

    在实际开发中,少不了使用这三种方法对某一个类型的数据进行转 String 的操作,本文就来介绍了java中toString()、String.valueOf()、(String) 强转的区别,感兴趣的可以了解一下
    2024-06-06
  • Java线程中的ThreadLocal类解读

    Java线程中的ThreadLocal类解读

    这篇文章主要介绍了Java线程中的ThreadLocal类解读,ThreadLocal是一个泛型类,作用是实现线程隔离,ThreadLocal类型的变量,在每个线程中都会对应一个具体对象,对象类型需要在声明ThreadLocal变量时指定,需要的朋友可以参考下
    2023-11-11
  • MyBatis常用标签以及使用技巧总结

    MyBatis常用标签以及使用技巧总结

    在我们的学习过程中,我们经常使用到mybatis,这篇文章主要给大家介绍了关于MyBatis常用标签以及使用技巧的相关资料,需要的朋友可以参考下
    2021-05-05
  • Java19新特性中外部函数与内存API

    Java19新特性中外部函数与内存API

    Java19引入的外部函数与内存API(预览功能)是Project Panama一部分,旨在简化Java与本地代码及非堆内存的交互,提供更低层次的编程能力,解决了传统JNI调用的复杂性、安全性和性能局限,特别适合高性能计算和系统编程领域,感兴趣的可以了解一下
    2024-09-09
  • Java实现人脸识别登录、注册等功能(最新完整版)

    Java实现人脸识别登录、注册等功能(最新完整版)

    这段时间由于学校实行静态化管理,寝室门和校门都是用了人脸识别的装置,本系列项目从设计到实现源码全部开源免费学习使用,对Java实现人脸识别登录、注册功能感兴趣的朋友一起看看吧
    2022-05-05

最新评论