JAVA过滤标签实现将html内容转换为文本的方法示例

 更新时间:2017年07月07日 09:53:50   作者:johennes  
这篇文章主要介绍了JAVA过滤标签实现将html内容转换为文本的方法,涉及java针对HTML代码的正则替换相关操作技巧,需要的朋友可以参考下

本文实例讲述了JAVA过滤标签实现将html内容转换为文本的方法。分享给大家供大家参考,具体如下:

/**
* 把html内容转为文本
* @param html 需要处理的html文本
* @param filterTags 需要保留的html标签样式
* @return
*/
public static String trimHtml2Txt(String html, String[] filterTags){
    html = html.replaceAll("\\<head>[\\s\\S]*?</head>(?i)", "");//去掉head
    html = html.replaceAll("\\<!--[\\s\\S]*?-->", "");//去掉注释
    html = html.replaceAll("\\<![\\s\\S]*?>", "");
    html = html.replaceAll("\\<style[^>]*>[\\s\\S]*?</style>(?i)", "");//去掉样式
    html = html.replaceAll("\\<script[^>]*>[\\s\\S]*?</script>(?i)", "");//去掉js
    html = html.replaceAll("\\<w:[^>]+>[\\s\\S]*?</w:[^>]+>(?i)", "");//去掉word标签
    html = html.replaceAll("\\<xml>[\\s\\S]*?</xml>(?i)", "");
    html = html.replaceAll("\\<html[^>]*>|<body[^>]*>|</html>|</body>(?i)", "");
    html = html.replaceAll("\\\r\n|\n|\r", " ");//去掉换行
    html = html.replaceAll("\\<br[^>]*>(?i)", "\n\r");
    List<String> tags = new ArrayList<String>();
    List<String> s_tags = new ArrayList<String>();
    List<String> halfTag = Arrays.asList(new String[]{"img","table","thead","th","tr","td"});//
    if(filterTags != null && filterTags.length > 0){
      for (String tag : filterTags) {
        tags.add("<"+tag+(halfTag.contains(tag)?"":">"));//开始标签
        if(!"img".equals(tag)) tags.add("</"+tag+">");//结束标签
        s_tags.add("#REPLACETAG"+tag+(halfTag.contains(tag)?"":"REPLACETAG#"));//尽量替换为复杂一点的标记,以免与显示文本混合,如:文本中包含#td、#table等
        if(!"img".equals(tag)) s_tags.add("#REPLACETAG/"+tag+"REPLACETAG#");
      }
    }
    html = StringUtils.replaceEach(html, tags.toArray(new String[tags.size()]), s_tags.toArray(new String[s_tags.size()]));
    html = html.replaceAll("\\</p>(?i)", "\n\r");
    html = html.replaceAll("\\<[^>]+>", "");
    html = StringUtils.replaceEach(html,s_tags.toArray(new String[s_tags.size()]),tags.toArray(new String[tags.size()]));
    html = html.replaceAll("\\ ", " ");
    return html.trim();
}

PS:这里再为大家推荐一款功能类似的在线工具供大家参考使用:

在线html/js/css代码过滤工具
http://tools.jb51.net/code/htmlfilter

另外,关于正则操作,这里再为大家推荐两款相关在线工具:

JavaScript正则表达式在线测试工具:
http://tools.jb51.net/regex/javascript

正则表达式在线生成工具:
http://tools.jb51.net/regex/create_reg

更多关于java算法相关内容感兴趣的读者可查看本站专题:《Java数据结构与算法教程》、《Java字符与字符串操作技巧总结》、《Java操作DOM节点技巧总结》、《Java文件与目录操作技巧汇总》和《Java缓存操作技巧汇总

希望本文所述对大家java程序设计有所帮助。

相关文章

  • Spring Boot 中启用定时任务的操作方法

    Spring Boot 中启用定时任务的操作方法

    文章主要介绍了如何在Spring Boot中启用定时任务,包括使用@EnableScheduling注解、配置项控制定时任务是否开启以及如何关闭cron定时任务,感兴趣的朋友跟随小编一起看看吧
    2024-11-11
  • java使用common-httpclient包实现post请求方法示例

    java使用common-httpclient包实现post请求方法示例

    这篇文章主要给大家介绍了关于java使用common-httpclient包实现post请求的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2018-08-08
  • SpringMVC的注解@RequestMapping属性及使用

    SpringMVC的注解@RequestMapping属性及使用

    这篇文章主要为大家介绍了SpringMVC注解@RequestMapping属性及使用,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-05-05
  • 详解jdbc实现对CLOB和BLOB数据类型的操作

    详解jdbc实现对CLOB和BLOB数据类型的操作

    这篇文章主要介绍了详解jdbc实现对CLOB和BLOB数据类型的操作的相关资料,这里实现写入操作与读写操作,需要的朋友可以参考下
    2017-08-08
  • Springboot 自定义校验代码实例

    Springboot 自定义校验代码实例

    这篇文章主要介绍了Springboot 自定义校验代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-11-11
  • Java拆分List的三种方式总结

    Java拆分List的三种方式总结

    开发中我们可能会遇到一个大的集合,然后我们需要对集合进行拆分,在这篇文章中,主要介绍了Java拆分List的三种方式,需要的可以参考下
    2023-05-05
  • SpringBoot集成极光推送完整实现代码

    SpringBoot集成极光推送完整实现代码

    本文主要介绍了SpringBoot集成极光推送完整实现代码,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-12-12
  • 使用Logback设置property参数方式

    使用Logback设置property参数方式

    这篇文章主要介绍了使用Logback设置property参数方式,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-03-03
  • java中List集合及其实现类的方法详解

    java中List集合及其实现类的方法详解

    本篇文章给大家带来的内容是关于java中List集合及其实现类的方法介绍(附代码),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助。下面我们就来学习一下吧
    2019-06-06
  • java中map和对象互转工具类的实现示例

    java中map和对象互转工具类的实现示例

    这篇文章主要介绍了java中map和对象互转工具类的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-08-08

最新评论