asp.net正则表达式删除指定的HTML标签的代码

更新时间：2010年09月13日 00:14:20 作者：

抓取某网页的数据后(比如描述),如果照原样显示的话,可能会因为它里面包含没有闭合的HTML标签而打乱了格式,也可能它里面用了比较让人费解的HTML标签,把预订的格式搅乱.

如果全盘删除里面的 HTML 标签,可能会造成阅读上的困难(比如 a, img 这些标签), 最好是删除一部分,保留一部分.

正则表达式里,判断包含某些字符串是非常容易理解的,但是如何判断不包含某些字符串 (是字符串,不是字符,是某些,不是某个) 确实是个费解的事.

复制代码代码如下:

 
<(?!((/?\s?li)|(/?\s?ul)|(/?\s?a)|(/?\s?img)|(/?\s?br)|(/?\s?span)|(/?\s?b)))[^>]+> 

这个正则是判断HTML标签不包含 li / ul / a / img / br / span / b 的,就上面的要求来说,是要删除除这里列出的HTML标签,这也是我摸索了很长时间才搞出来的.
(?!exp) 匹配后面跟的不是exp的位置
/?\s? 我一开始试着把它写到最前面的 < 后面,但是测试失败了.

下面是一个简单的函数,把要保留的TAG串起来,生成一个正则表达式,然后把不需要的TAG删除...

复制代码代码如下:

 
private static string RemoveSpecifyHtml(string ctx) { 
string[] holdTags = { "a", "img", "br", "strong", "b", "span" };//要保留的 tag 
// <(?!((/?\s?li)|(/?\s?ul)|(/?\s?a)|(/?\s?img)|(/?\s?br)|(/?\s?span)|(/?\s?b)))[^>]+> 
string regStr = string.Format(@"<(?!((/?\s?{0})))[^>]+>", string.Join(@")|(/?\s?", holdTags)); 
Regex reg = new Regex(regStr, RegexOptions.Compiled | RegexOptions.Multiline | RegexOptions.IgnoreCase); 


return reg.Replace(ctx, ""); 
} 

修正:
上面的正则,如果保留了 li , 实际运行会发现 link 也给保留下来了, 保留 a 会把 addr 也给保留下来, 解决办法就是加 \b 断言.

复制代码代码如下:

 
<(?!((/?\s?li\b)|(/?\s?ul)|(/?\s?a\b)|(/?\s?img\b)|(/?\s?br\b)|(/?\s?span\b)|(/?\s?b\b)))[^>]+> 

private static string RemoveSpecifyHtml(string ctx) { 
string[] holdTags = { "a", "img", "br", "strong", "b", "span", "li" };//保留的 tag 
// <(?!((/?\s?li\b)|(/?\s?ul\b)|(/?\s?a\b)|(/?\s?img\b)|(/?\s?br\b)|(/?\s?span\b)|(/?\s?b\b)))[^>]+> 
string regStr = string.Format(@"<(?!((/?\s?{0})))[^>]+>", string.Join(@"\b)|(/?\s?", holdTags)); 
Regex reg = new Regex(regStr, RegexOptions.Compiled | RegexOptions.Multiline | RegexOptions.IgnoreCase); 

return reg.Replace(ctx, ""); 
} 

您可能感兴趣的文章:

为Visual Studio2019添加Git组件
这篇文章介绍了为Visual Studio2019添加Git组件的方法，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2022-04-04
IIS和.NET(1.1/2.0)的安装顺序及错误解决方法
安装顺序及错误的解决方法:基于.net2.0的情况与基于.net1.1的情况,分别给予解决方法,遇到此问题的朋友可以了解下，或许对你的学习有所帮助
2013-02-02
国产化之Arm64 CPU+银河麒麟系统安装.NetCore的步骤详解
这篇文章主要介绍了国产化之Arm64 CPU+银河麒麟系统安装.NetCore,这里就以ARM架构举例，其它CPU平台的安装过程都一样，要下载的包不同而已，感兴趣的朋友跟随小编一起看看吧
2022-03-03
asp.net(C#) Xml操作(增删改查)练习
web.config配置前后台文件等代码
2009-01-01
ASP.NET MVC实现依赖注入的完整过程
这篇文章主要给大家介绍了关于ASP.NET MVC实现依赖注入的完整过程，文中通过示例代码介绍的非常详细，对大家学习或者使用ASP.NET MVC具有一定的参考学习价值，需要的朋友们下面来一起学习学习吧
2019-09-09
asp.net运行原理详解
当我们通过浏览器向ASP.NET 2.0网站的一个asp.net页面发起请求时，在服务器端首先是IIS收到请求，IIS一看是asp.net页面，心里很开心，因为这个请求不用它处理，交给ASP.NET ISAPI就行了
2012-04-04
浅谈ASP.NET MVC应用程序的安全性
web应用程序的安全性算是一个老生常谈的问题了，当然asp.net mvc也不例外，虽然他在设计之初就对此有了一些防范，但是还是要差很多，有很多地方需要我们程序猿们注意的地方，我们今天就来简单的探讨下
2014-11-11
.net输出重写压缩页面文件的小例子
这篇文章介绍了.net输出重写压缩页面文件的小例子，有需要的朋友可以参考一下
2013-07-07
asp.net的IndexOf,LastIndexOf,IndexOfAny和LastIndexOfAny的用法
IndexOf,LastIndexOf,IndexOfAny和LastIndexOfAny的功能，是定位字符或定位子串
2012-10-10
js 父页中的单选按钮取值
js 父页单选按钮取值函数
2008-12-12

asp.net正则表达式删除指定的HTML标签的代码

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具