提取HTML代码中文字的C#函数

 更新时间:2007年03月16日 00:00:00   作者:  
/// <summary>
  /// 去除HTML标记
  /// </summary>
  /// <param name="strHtml">包括HTML的源码 </param>
  /// <returns>已经去除后的文字</returns>
  public static string StripHTML(string strHtml)
  {
   string [] aryReg ={
          @"<script[^>]*?>.*?</script>",

          @"<(\/\s*)?!?((\w+:)?\w+)(\w+(\s*=?\s*(([""'])(\\[""'tbnr]|[^\7])*?\7|\w+)|.{0})|\s)*?(\/\s*)?>",
          @"([\r\n])[\s]+",
          @"&(quot|#34);",
          @"&(amp|#38);",
          @"&(lt|#60);",
          @"&(gt|#62);", 
          @"&(nbsp|#160);", 
          @"&(iexcl|#161);",
          @"&(cent|#162);",
          @"&(pound|#163);",
          @"&(copy|#169);",
          @"&#(\d+);",
          @"-->",
          @"<!--.*\n"

         };

   string [] aryRep = {
           "",
           "",
           "",
           "\"",
           "&",
           "<",
           ">",
           " ",
           "\xa1",//chr(161),
           "\xa2",//chr(162),
           "\xa3",//chr(163),
           "\xa9",//chr(169),
           "",
           "\r\n",
           ""
          };

   string newReg =aryReg[0];
   string strOutput=strHtml;
   for(int i = 0;i<aryReg.Length;i++)
   {
    Regex regex = new Regex(aryReg[i],RegexOptions.IgnoreCase );
    strOutput = regex.Replace(strOutput,aryRep[i]);
   }

   strOutput.Replace("<","");
   strOutput.Replace(">","");
   strOutput.Replace("\r\n","");


   return strOutput;
  }

相关文章

  • c# AcceptEx与完成端口(IOCP)结合的示例

    c# AcceptEx与完成端口(IOCP)结合的示例

    这篇文章主要介绍了c# AcceptEx与完成端口(IOCP)结合的示例,帮助大家更好的理解和学习使用c#,感兴趣的朋友可以了解下
    2021-03-03
  • 浅析c#范型中的特殊关键字where & default

    浅析c#范型中的特殊关键字where & default

    以下是对c#范型中的特殊关键字where和default进行了详细的介绍,需要的朋友可以过来参考下
    2013-09-09
  • C# 调用exe传参,并获取打印值的实例

    C# 调用exe传参,并获取打印值的实例

    这篇文章主要介绍了C# 调用exe传参,并获取打印值的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-04-04
  • C#基础入门之值类型和引用类型的区别详析

    C#基础入门之值类型和引用类型的区别详析

    在C#中值类型的变量直接存储数据,而引用类型的变量持有的是数据的引用,数据存储在数据堆中,下面这篇文章主要给大家介绍了关于C#基础入门之值类型和引用类型区别的相关资料,需要的朋友可以参考下
    2021-09-09
  • WPF实现可视化扫码器的示例代码

    WPF实现可视化扫码器的示例代码

    AForge.NET 是一个专门为开发者和研究者基于C#框架设计的,他包括计算机视觉与人工智能,图像处理,神经网络,遗传算法,机器学习,模糊系统,机器人控制等领域。本文就将用它编写一个可视化扫码器,感兴趣的可以了解一下
    2022-11-11
  • Unity实现喷漆效果

    Unity实现喷漆效果

    这篇文章主要为大家详细介绍了Unity实现喷漆效果,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2020-07-07
  • c#学习教程之JSON文件及解析实例

    c#学习教程之JSON文件及解析实例

    json作为互联网上轻量便捷的数据传输格式,越来越受到重视,下面这篇文章主要给大家介绍了关于c#学习教程之JSON文件及解析的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
    2022-08-08
  • 基于DateTime.ParseExact方法的使用详解

    基于DateTime.ParseExact方法的使用详解

    本篇文章是对DateTime.ParseExact方法的使用进行了详细的分析介绍,需要的朋友参考下
    2013-05-05
  • C#多线程TPL模式下使用HttpClient

    C#多线程TPL模式下使用HttpClient

    这篇文章介绍了C#多线程TPL模式下使用HttpClient的方法,文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-03-03
  • 用C#编写ActiveX控件(二)

    用C#编写ActiveX控件(二)

    用C#编写ActiveX控件(二)...
    2007-03-03

最新评论