Java正则表达式如何匹配特定html标签内的内容
如题:
使用正则表达式,怎么匹配特定html标签内的内容。
比如,对于如下文本串:
... ignored content
prefix content
<html>inner content</html>
postfix content
... ignored content
我们要提取出<html>标签内的内容: inner content(这里的html标签可以换成任何其它的标签,比如<p>标签)
这里引入正则表达式的group概念:详细点击文章查看
比如:对于一个正则表达式( ( A ) ( B ( C ) ) )
- group 1为:( ( A ) ( B ( C ) ) )
- group 2为:( A )
- group 3为:( B ( C ) )
- group 4为:( C )
这样,我们就能够构造出如下的正则表达式:.*(<(html>)(.*)</\2).*
此表达式的group概念为:
- group 1: (<(html>)(.*)</\2)
- group 2: (html>)
- group 3: (.*)
显然我们要求的就是group3的内容。
注意:\2是对group2的引用,也就是html>
该正则表达式也可以写成: .*(<(html>)(.*)</(html>)).* 化简其实就是.*<html>(.*)</html>.*
代码实现为:
String p = ".*(<(html>)(.*)</\\2).*";
String m = "prefix<html>午休abc</html>postfix";
System.out.println("Pattern: " + p);
System.out.println("String to be test: " + m);
Pattern pattern = Pattern.compile(p);
Matcher matcher = pattern.matcher(m);
if(matcher.matches()) {
System.out.println("Matched String: " + matcher.group(3));
} else {
System.out.println("So sad, not matching anything!");
}
总结
到此这篇关于Java正则表达式如何匹配特定html标签内容的文章就介绍到这了,更多相关Java正则表达式匹配html标签内容内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!
相关文章
Mybatis-Plus开发提速器mybatis-plus-generator-ui详解
这篇文章主要介绍了Mybatis-Plus开发提速器mybatis-plus-generator-ui,本文简要介绍一款基于Mybatis-Plus的代码自助生成器,文章通过实例集成的方式来详细讲解mybatis-plus-generator-ui,从相关概念到实际集成案例,以及具体的扩展开发介绍,需要的朋友可以参考下2022-11-11
SQL Server 2000 Driver for JDBC Service Pack 3 安装测试方法
这篇文章主要介绍了数据库连接测试程序(SQL Server 2000 Driver for JDBC Service Pack 3 安装测试),需要的朋友可以参考下2014-10-10
解决myBatis generator逆向生成没有根据主键的select,update和delete问题
这篇文章主要介绍了解决myBatis generator逆向生成没有根据主键的select,update和delete问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧2020-09-09


最新评论