提取HTML代码中文字的C#函数

 更新时间:2007年03月16日 00:00:00   作者:  
/// <summary>
  /// 去除HTML标记
  /// </summary>
  /// <param name="strHtml">包括HTML的源码 </param>
  /// <returns>已经去除后的文字</returns>
  public static string StripHTML(string strHtml)
  {
   string [] aryReg ={
          @"<script[^>]*?>.*?</script>",

          @"<(\/\s*)?!?((\w+:)?\w+)(\w+(\s*=?\s*(([""'])(\\[""'tbnr]|[^\7])*?\7|\w+)|.{0})|\s)*?(\/\s*)?>",
          @"([\r\n])[\s]+",
          @"&(quot|#34);",
          @"&(amp|#38);",
          @"&(lt|#60);",
          @"&(gt|#62);", 
          @"&(nbsp|#160);", 
          @"&(iexcl|#161);",
          @"&(cent|#162);",
          @"&(pound|#163);",
          @"&(copy|#169);",
          @"&#(\d+);",
          @"-->",
          @"<!--.*\n"

         };

   string [] aryRep = {
           "",
           "",
           "",
           "\"",
           "&",
           "<",
           ">",
           " ",
           "\xa1",//chr(161),
           "\xa2",//chr(162),
           "\xa3",//chr(163),
           "\xa9",//chr(169),
           "",
           "\r\n",
           ""
          };

   string newReg =aryReg[0];
   string strOutput=strHtml;
   for(int i = 0;i<aryReg.Length;i++)
   {
    Regex regex = new Regex(aryReg[i],RegexOptions.IgnoreCase );
    strOutput = regex.Replace(strOutput,aryRep[i]);
   }

   strOutput.Replace("<","");
   strOutput.Replace(">","");
   strOutput.Replace("\r\n","");


   return strOutput;
  }

相关文章

  • C#泛型Dictionary的用法实例详解

    C#泛型Dictionary的用法实例详解

    这篇文章主要介绍了C#泛型Dictionary的用法,并以实例的形式讲述了对键值对的填充、移除及遍历等操作,需要的朋友可以参考下
    2014-09-09
  • C#通过反射创建自定义泛型

    C#通过反射创建自定义泛型

    这篇文章主要介绍了C#通过反射创建自定义泛型的方法,需要的朋友可以参考下
    2014-08-08
  • Graphics.DrawImage绘制的图像变大的原因分析及解决

    Graphics.DrawImage绘制的图像变大的原因分析及解决

    这篇文章主要介绍了Graphics.DrawImage绘制的图像变大的原因分析及解决,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2021-11-11
  • C#定时关闭窗体实例

    C#定时关闭窗体实例

    这篇文章主要介绍了C#定时关闭窗体实例,在Windows桌面应用程序开发中具有一定的实用价值,需要的朋友可以参考下
    2014-10-10
  • 使用mutex实现应用程序单实例运行代码分享

    使用mutex实现应用程序单实例运行代码分享

    本文主要介绍了使用Mutex实现应用程序单实例运行的方法,实现原理是在程序启动时,请求一个互斥体,如果能获取对指定互斥的访问权,就继续运行程序,否则就退出程序
    2014-01-01
  • C#连接Oracle数据库的多种方法总结

    C#连接Oracle数据库的多种方法总结

    最近小项目当中要使用C#来连接Oracle数据库来完成系统的操作,这篇文章主要给大家介绍了关于C#连接Oracle数据库的多种方法,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
    2023-04-04
  • Unity动画混合树实例详解

    Unity动画混合树实例详解

    这篇文章主要为大家详细介绍了Unity动画混合树实例,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-11-11
  • C#中数组扩容的几种方式介绍

    C#中数组扩容的几种方式介绍

    这篇文章介绍了C#中数组扩容的几种方式,文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-08-08
  • 解析XPath语法之在C#中使用XPath的示例详解

    解析XPath语法之在C#中使用XPath的示例详解

    本篇文章是对在C#中使用XPath的示例进行了详细的分析介绍,需要的朋友参考下
    2013-05-05
  • C#中XmlTextWriter读写xml文件详细介绍

    C#中XmlTextWriter读写xml文件详细介绍

    .NET中包含了很多支持XML的类,这些类使得程序员使用XML编程就如同理解XML文件一样简单。在这篇文章中,我将给出这样的一个类的使用示例,这个类就是XmlTextWriter类
    2013-04-04

最新评论