C#正则表达式匹配HTML中的图片路径,图片地址代码

 更新时间:2013年12月26日 17:51:49   作者:  
最近的项目中有个关于网页取图的功能需要我自己开发,那就是用正则表达式来匹配图片标签,这里简单介绍下实现方法,需要的朋友可以参考下
一般来说一个 HTML 文档有很多标签,比如“<html>”、“<body>”、“<table>”等,想把文档中的 img 标签提取出来并不是一件容易的事。由于 img 标签样式变化多端,使提取的时候用程序寻找并不容易。于是想要寻找它们就必须写一个非常健全的正则表达式,不然有可能会找得不全,或者找出来的不是正确的 img 标签
我们可以从 HTML 标签的格式去想应该怎么建这个正则表达式。首先要想一下 img 标签有几种写法,忽略大小写不看的话,下面列出 img 标签可能出现的几种情况。
<img> <img/> <img src=/>
这一些标签不用考虑,因为没有图片资源地址。

<img src = /images/pic.jpg/ > <img src =" /images/pic.jpg" > <img src= '/images/pic.jpg ' / >
这一些标签都有图片资源地址,另外还有一个特点就是有引号对,可能为单引号,也可能为双引号。因为不需要同时匹配引号对,所以正则表达式可以这么写:@"<img\s*src\s*=\s*[""']?\s*(?[^\s""'<>]*)\s*/?\s*>"

<img width="320" height="240" src=/images/pic.jpg onclick="window.open('/images/pic.jpg')">
因为 img 和 src 之间可能会有其他的参数,所以“<img”要有个单词结束,比如说不能是“<imgabc”,同样 src 前面也是一样,使用单词结束符“\b”有一个好处就是省去了表示空格的“\s*”。另外由于 img 标签中不可以出现“<”、“>”这样的符号,所以要改写前面的正则表达式:@"<img\b[^<>]*?\bsrc\s*=\s*[""']?\s*(?<imgUrl>[^\s""'<>]*)[^<>]*?/?\s*>"

<img width="320" height="240" src = "
/images/pic.jpg" />
像这种可能会用回车符折行的问题有时候会出现,所以在有空格分开的地方要包含回车换行和 TAB 字符,另外在图片地址中不能出现空格、TAB、回车和换行字符。所以上面的正则表达式可以改成:@"<img\b[^<>]*?\bsrc[\s\t\r\n]*=[\s\t\r\n]*[""']?[\s\t\r \n]*(?<imgUrl>[^\s\t\r\n""'<>]*)[^<>]*?/?[\s\t\r\n]*>"

下面写出取得HTML中所有图片地址的静态方法。

复制代码 代码如下:

/// <summary>         /// 取得HTML中所有图片的 URL。
        /// </summary>         /// <param name="sHtmlText">HTML代码</param>         /// <returns>图片的URL列表</returns>         public static string[] GetHtmlImageUrlList(string sHtmlText)
        {
            // 定义正则表达式用来匹配 img 标签             Regex regImg = new Regex(@"<img\b[^<>]*?\bsrc[\s\t\r\n]*=[\s\t\r\n]*[""']?[\s\t\r\n]*(?<imgUrl>[^\s\t\r\n""'<>]*)[^<>]*?/?[\s\t\r\n]*>", RegexOptions.IgnoreCase);

            // 搜索匹配的字符串             MatchCollection matches = regImg.Matches(sHtmlText);

            int i = 0;
            string[] sUrlList = new string[matches.Count];

            // 取得匹配项列表             foreach (Match match in matches)
                sUrlList[i++] = match.Groups["imgUrl"].Value;

            return sUrlList;
        }

相关文章

  • 使用C#创建Windows服务的实例代码

    使用C#创建Windows服务的实例代码

    这篇文章主要介绍了使用C#创建Windows服务的实例代码,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-07-07
  • c#哈希算法的实现方法及思路

    c#哈希算法的实现方法及思路

    这篇文章主要介绍了c#哈希算法的实现方法及思路,有需要的朋友可以参考一下
    2013-12-12
  • C# linq查询之动态OrderBy用法实例

    C# linq查询之动态OrderBy用法实例

    这篇文章主要介绍了C# linq查询之动态OrderBy用法,实例分析了C#采用linq方式查询时动态排序的相关技巧,需要的朋友可以参考下
    2015-06-06
  • 浅谈C# StringBuilder内存碎片对性能的影响

    浅谈C# StringBuilder内存碎片对性能的影响

    这篇文章主要介绍了浅谈StringBuilder内存碎片对性能的影响,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-03-03
  • 浅谈C#网络编程详解篇

    浅谈C#网络编程详解篇

    在现今软件开发中,网络编程是非常重要的一部分,本文简要介绍下网络编程的概念和实践,需要的朋友可以参考下
    2017-01-01
  • C#泛型集合类System.Collections.Generic

    C#泛型集合类System.Collections.Generic

    这篇文章介绍了C#中的泛型集合类System.Collections.Generic,文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-05-05
  • C#使用Lambda表达式简化代码的示例详解

    C#使用Lambda表达式简化代码的示例详解

    Lambda,希腊字母λ,在C#编程语言中,被引入为Lambda表达式,表示为匿名函数(匿名方法)。本文将利用Lambda表达式进行代码的简化,感兴趣的可以了解一下
    2022-12-12
  • C# 基于NPOI操作Excel

    C# 基于NPOI操作Excel

    最近遇到一个数据导入的需求,语言是.net framework 4.7的C#。但是,这次主要探讨NPOI的体验,原则就是向前兼容。所以采用.xls的支持。下面就来看看实现步骤
    2021-06-06
  • C#实现变量交换、斐波那契数列、质数、回文方法合集

    C#实现变量交换、斐波那契数列、质数、回文方法合集

    这篇文章介绍了C#实现变量交换、斐波那契数列、质数、回文的方法合集,文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-02-02
  • 自定义时间格式转换代码分享

    自定义时间格式转换代码分享

    自定义时间格式转换,如"2012年5月14日"的日期字符串,大家参考使用吧
    2013-12-12

最新评论