asp.net采集页面上所有图像图片资源的具体方法

 更新时间:2016年03月07日 15:59:19   作者:仓储大叔  
这篇文章主要为大家详细介绍了asp.net采集页面上所有图像资源的具体方法,感兴趣的小伙伴们可以参考一下

有时我们需要采集一些信息到自己的数据库,本地磁盘,我们经常使用的是WebClient,WebRequest等等,今天主要说一下,对于一个URI地址,采集这个页面上所有的图像资源,下面是源代码,供大家参考,学习。

/// <summary>
  /// 下载指定URL下的所有图片
  /// </summary>
  public class WebPageImage
  {
    /// <summary>
    /// 获取网页中全部图片
    /// </summary>
    /// <param name="url">网页地址</param>
    /// <param name="charSet">网页编码,为空自动判断</param>
    /// <returns>全部图片显示代码</returns>
    public string getImages(string url, string charSet)
    {
      string s = getHtml(url, charSet);
      return getPictures(s, url);
    }

    /// <summary>
    /// 获取网页中全部图片
    /// </summary>
    /// <param name="url">网址</param>
    /// <returns>全部图片代码</returns>
    public string getImages(string url)
    {
      return getImages(url, "");
    }

    string doman(string url)
    {
      Uri u = new Uri(url);
      return u.Host;
    }

    /// <summary>
    /// 获取网页内容
    /// </summary>
    /// <param name="url">网站地址</param>
    /// <param name="charSet">目标网页的编码,如果传入的是null或者"",那就自动分析网页的编码 </param>
    /// <returns></returns>
    string getHtml(string url, string charSet)
    {
      WebClient myWebClient = new WebClient();
      //创建WebClient实例myWebClient 
      // 需要注意的: 
      //有的网页可能下不下来,有种种原因比如需要cookie,编码问题等等 
      //这是就要具体问题具体分析比如在头部加入cookie 
      // webclient.Headers.Add("Cookie", cookie); 
      //这样可能需要一些重载方法。根据需要写就可以了 

      //获取或设置用于对向 Internet 资源的请求进行身份验证的网络凭据。 
      myWebClient.Credentials = CredentialCache.DefaultCredentials;
      //如果服务器要验证用户名,密码 
      //NetworkCredential mycred = new NetworkCredential(struser, strpassword); 
      //myWebClient.Credentials = mycred; 
      //从资源下载数据并返回字节数组。(加@是因为网址中间有"/"符号) 
      byte[] myDataBuffer = myWebClient.DownloadData(url);
      string strWebData = Encoding.Default.GetString(myDataBuffer);

      //获取网页字符编码描述信息 
      Match charSetMatch = Regex.Match(strWebData, "<meta([^<]*)charset=([^<]*)\"", RegexOptions.IgnoreCase | RegexOptions.Multiline);
      string webCharSet = charSetMatch.Groups[2].Value.Replace("\"", "");
      if (charSet == null || charSet == "")
        charSet = webCharSet;

      if (charSet != null && charSet != "" && Encoding.GetEncoding(charSet) != Encoding.Default)
        strWebData = Encoding.GetEncoding(charSet).GetString(myDataBuffer);
      return strWebData;
    }

    string getPictures(string data, string url)
    {
      MatchCollection ps = Regex.Matches(data, @"<img\b[^<>]*?\bsrc[\s\t\r\n]*=[\s\t\r\n]*[""']?[\s\t\r\n]*(?<imgUrl>[^\s\t\r\n""'<>]*)[^<>]*?/?[\s\t\r\n]*>");
      string s = string.Empty;
      for (int i = 0; i < ps.Count; i++)
      {
        pictures p = new pictures(ps[i].Value, url);
        s += p.GetHtml + "<br />" + Environment.NewLine;
      }
      return s;
    }

    /// <summary>
    /// 图片实体
    /// 图片文件属性处理类
    /// </summary>
    public class pictures
    {
      public pictures(string strHtml, string baseUrl)
      {
        _html = strHtml;
        Uri u1 = new Uri(baseUrl);
        _doman = u1.Host;
        _baseUrl = u1.Scheme + "://" + _doman;
        setSrc();
      }

      private string _html = string.Empty;
      private string _baseUrl = string.Empty;
      private string _doman = string.Empty;

      public string GetHtml
      {
        get { return _html; }
      }

      public string Alt
      {
        get
        {
          return GetAttribute("alt")[0];
        }
      }

      public string Src
      {
        get
        {
          string s = GetAttribute("src")[0];
          return s;
        }
      }

      /// <summary>
      /// 根据基路径把相对路径转换成绝对径
      /// </summary>
      /// <param name="baseUrl">基础路径</param>
      /// <param name="u">待转换的相对路径</param>
      /// <returns>绝对路径</returns>
      public string absUrl(string baseUrl, string u)
      {
        Uri ub = new Uri(baseUrl);
        Uri ua = new Uri(ub, u);
        return ua.AbsoluteUri;
      }

      private void setSrc()
      {
        string strPattern = @"src[\s\t\r\n]*=[\s\t\r\n]*[""']?\S+[""']?";
        string src = GetAttribute("src")[0].ToLower();
        if (!(src.IndexOf("http://") == 0 || src.IndexOf("https://") == 0) && _baseUrl.Length > 10)
        {
          src = absUrl(_baseUrl, src);
          string s = "src=\"" + src + "\"";
          _html = Regex.Replace(_html, strPattern, s);
        }
      }

      /// <summary>
      /// 获取HTML代码中标签属性
      /// </summary>
      /// <param name="strHtml">HTML代码</param>
      /// <param name="strAttributeName">属性名称</param>
      /// <returns>属性值集合</returns>
      private string[] GetAttribute(string strAttributeName)
      {
        List<string> lstAttribute = new List<string>();
        string strPattern = string.Format(
          @"{0}[\s\t\r\n]*=[\s\t\r\n]*[""']?\S+[""']?",
          strAttributeName
          );
        MatchCollection matchs = Regex.Matches(_html, strPattern, RegexOptions.IgnoreCase);
        foreach (Match m in matchs)
        {
          lstAttribute.Add(m.Value.Split('=')[1].Replace("\"", "").Replace("'", ""));
        }
        if (lstAttribute.Count == 0) lstAttribute.Add("");
        return lstAttribute.ToArray();
      }
    }
  }

调用:

new WebPageImage().getImages(http://www.sina.com)

结果:

以上就是本文的全部内容,希望对大家的学习有所帮助。

相关文章

  • asp.net core集成JWT的步骤记录

    asp.net core集成JWT的步骤记录

    这篇文章主要给大家介绍了关于asp.net core集成JWT的相关资料,文中通过示例代码介绍的非常详细,对大家学习或者使用asp.net core具有一定的参考学习价值,需要的朋友们下面来一起学习学习吧
    2019-06-06
  • asp.net core 中的Jwt(Json Web Token)的使用详解

    asp.net core 中的Jwt(Json Web Token)的使用详解

    session不支持分布式并且在服务器存储一份用户登录的信息,这份登录信息会在响应时传递给浏览器,告诉其保存为cookie,以便下次请求时发送给我们的应用,这篇文章主要介绍了asp.net core 中的Jwt(Json Web Token)的使用,需要的朋友可以参考下
    2022-10-10
  • ASP.NET连接 Access数据库的几种方法

    ASP.NET连接 Access数据库的几种方法

    这篇文章主要介绍了ASP.NET连接 Access数据库的几种方法,每种方法都非常不错,具有参考借鉴价值,需要的朋友一起学习吧
    2016-08-08
  • ASP.NET中JQuery+AJAX调用后台

    ASP.NET中JQuery+AJAX调用后台

    这篇文章主要介绍了ASP.NET中JQuery+AJAX调用后台的相关资料,需要的朋友可以参考下
    2016-03-03
  • WPF实现流光动画特效

    WPF实现流光动画特效

    这篇文章介绍了WPF实现流光动画特效的方法,文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-04-04
  • .NET 6新特性试用之System.Text.Json功能改进

    .NET 6新特性试用之System.Text.Json功能改进

    这篇文章主要介绍了.NET 6新特性试用之System.Text.Json功能改进,
    2022-03-03
  • 禁止ViewState的3种解决方法

    禁止ViewState的3种解决方法

    默认情况下,ViewState是被启用的,比如提交表单后,表单中输入的值会自动保留。但是如果不需要保留,也可以将其禁用,这样可以节省资源。
    2013-03-03
  • ASP.NET(C#)中操作SQLite数据库实例

    ASP.NET(C#)中操作SQLite数据库实例

    最近项目中有使用到SQLite数据库,于是查找资料,编写了一个ASP.NET基于C#语言的SQLite数据库操作实例.大家看代码就可以看懂了,和以往使用ADO.NET操作SQL数据库类似.
    2009-12-12
  • WPF实现雷达扫描图的绘制详解

    WPF实现雷达扫描图的绘制详解

    这篇文章主要介绍了如何利用WPF实现雷达扫描图的绘制,文中的示例代码讲解详细,对我们学习或工作有一定帮助,需要的可以参考一下
    2022-05-05
  • .Net项目在Docker容器中开发部署

    .Net项目在Docker容器中开发部署

    这篇文章介绍了.Net项目在Docker容器中开发部署的方法,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-04-04

最新评论