Java使用正则表达式删除所有HTML标签的方法示例

 更新时间:2017年06月01日 14:51:31   作者:沧-浪-之  
这篇文章主要介绍了Java使用正则表达式删除所有HTML标签的方法,结合完整实例形式分析了java针对HTML页面元素script标签、style标签、html标签等的正则匹配相关操作技巧,需要的朋友可以参考下

本文实例讲述了Java使用正则表达式删除所有HTML标签的方法。分享给大家供大家参考,具体如下:

package com.xz.cxzy.utils;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class HtmlUtil {
  private static final String regEx_script = "<script[^>]*?>[\\s\\S]*?<\\/script>"; // 定义script的正则表达式
  private static final String regEx_style = "<style[^>]*?>[\\s\\S]*?<\\/style>"; // 定义style的正则表达式
  private static final String regEx_html = "<[^>]+>"; // 定义HTML标签的正则表达式
  private static final String regEx_space = "\\s*|\t|\r|\n";//定义空格回车换行符
  /**
   * @param htmlStr
   * @return
   * 删除Html标签
   */
  public static String delHTMLTag(String htmlStr) {
    Pattern p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);
    Matcher m_script = p_script.matcher(htmlStr);
    htmlStr = m_script.replaceAll(""); // 过滤script标签
    Pattern p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);
    Matcher m_style = p_style.matcher(htmlStr);
    htmlStr = m_style.replaceAll(""); // 过滤style标签
    Pattern p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);
    Matcher m_html = p_html.matcher(htmlStr);
    htmlStr = m_html.replaceAll(""); // 过滤html标签
    Pattern p_space = Pattern.compile(regEx_space, Pattern.CASE_INSENSITIVE);
    Matcher m_space = p_space.matcher(htmlStr);
    htmlStr = m_space.replaceAll(""); // 过滤空格回车标签
    return htmlStr.trim(); // 返回文本字符串
  }
  public static String getTextFromHtml(String htmlStr){
    htmlStr = delHTMLTag(htmlStr);
    htmlStr = htmlStr.replaceAll(" ", "");
    htmlStr = htmlStr.substring(0, htmlStr.indexOf("。")+1);
    return htmlStr;
  }
  public static void main(String[] args) {
    String str = "<div style='text-align:center;'> 
<span style='font-size:14px;'> </span><span style='font-size:18px;'></span>
</div>";
    System.out.println(getTextFromHtml(str));
  }
}

PS:这里再为大家提供2款非常方便的正则表达式工具供大家参考使用:

JavaScript正则表达式在线测试工具:
http://tools.jb51.net/regex/javascript

正则表达式在线生成工具:
http://tools.jb51.net/regex/create_reg

希望本文所述对大家java程序设计有所帮助。

相关文章

  • Netty分布式从recycler对象回收站获取对象过程剖析

    Netty分布式从recycler对象回收站获取对象过程剖析

    这篇文章主要为大家介绍了Netty分布式从recycler获取对象的过程源码剖析,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-03-03
  • Spring @Primary和@Qualifier注解原理解析

    Spring @Primary和@Qualifier注解原理解析

    这篇文章主要介绍了Spring @Primary和@Qualifier注解原理解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-04-04
  • Java中过滤器、监听器和拦截器的区别详解

    Java中过滤器、监听器和拦截器的区别详解

    这篇文章主要介绍了Java中过滤器、监听器和拦截器的区别详解,有些朋友可能不了解过滤器、监听器和拦截器的区别,本文就来详细讲一下,相信看完你会有所收获,需要的朋友可以参考下
    2024-01-01
  • 你真的理解Java中的ArrayList吗

    你真的理解Java中的ArrayList吗

    这篇文章主要给大家介绍了关于Java中ArrayList的相关资料,ArrayList就是传说中的动态数组,用MSDN中的说法,就是Array的复杂版本,需要的朋友可以参考下
    2021-08-08
  • 详解Mybatis逆向工程中使用Mysql8.0版本驱动遇到的问题

    详解Mybatis逆向工程中使用Mysql8.0版本驱动遇到的问题

    今天在使用 8.0.12 版的 mysql 驱动时遇到了各种各样的坑。这篇文章主要介绍了详解Mybatis逆向工程中使用Mysql8.0版本驱动遇到的问题,感兴趣的小伙伴们可以参考一下
    2018-10-10
  • SpringBoot JPA出现错误:No identifier specified for en解决方案

    SpringBoot JPA出现错误:No identifier specified&nb

    这篇文章主要介绍了SpringBoot JPA出现错误:No identifier specified for en解决方案,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-03-03
  • JavaFX桌面应用未响应问题解决方案

    JavaFX桌面应用未响应问题解决方案

    这篇文章主要介绍了JavaFX桌面应用未响应问题解决方案,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-07-07
  • SpringMVC的执行流程及组件详解

    SpringMVC的执行流程及组件详解

    这篇文章主要介绍了SpringMVC的执行流程及组件详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-11-11
  • 分析mybatis运行原理

    分析mybatis运行原理

    Mybatis是一个优秀的持久层框架,它对JDBC操作数据库的过程进行封装,使开发者只需要关注sql本身。我们原来使用JDBC操作数据库,需要手动的写代码去注册驱动、获取connection、获取statement等等,现在Mybaits帮助我们把这些事情做了,我们只需要关注我们的业务sql即可
    2021-06-06
  • java实现的计算器功能示例【基于swing组件】

    java实现的计算器功能示例【基于swing组件】

    这篇文章主要介绍了java实现的计算器功能,结合实例形式分析了java基于swing组件实现计算器功能相关运算操作技巧,需要的朋友可以参考下
    2017-12-12

最新评论