C# 爬虫简单教程

 更新时间:2020年12月29日 14:37:48   作者:张缺缺  
这篇文章主要介绍了C# 爬虫的简单教程,帮助大家更好的理解和使用c#,感兴趣的朋友可以了解下

1、使用第三方类库 HtmlAgilityPack

官方网址:https://html-agility-pack.net/?z=codeplex

// From File 从文件获取html信息
var doc = new HtmlDocument();
doc.Load(filePath);

// From String 从字符串获取html信息
var doc = new HtmlDocument();
doc.LoadHtml(html);

// From Web  从网址获取html信息
var url = "http://html-agility-pack.net/";
var web = new HtmlWeb();
var doc = web.Load(url);

1.1、这里介绍一下最后一种用法

var web = new HtmlWeb();
var doc = web.Load(url);

在 web 中我们还可以设置cookie、headers等信息,来处理一些特定的网站需求,比如需要登陆等。

1.2 用法解释

网页在你查看网页源代码之后只是一段字符串,而爬虫所做的就是在这堆字符串中,查询到我们想要的信息,挑选出来。
以往的筛选方法:正则 (太麻烦了,写起来有些头疼)
HtmlAgilityPack 支持通过XPath来解析我们需要的信息。

1.2.1 在哪里找XPath?

网页右键检查

通过XPath就可以准确获取你想要元素的全部信息。

1.2.2 获取选中Html元素的信息?

获取选中元素

var web = new HtmlWeb();
var doc = web.Load(url);
var htmlnode = doc?.DocumentNode?.SelectSingleNode("/html/body/header")

获取元素信息

htmlnode.InnerText;
htmlnode.InnerHtml;
//根据属性取值
htmlnode?.GetAttributeValue("src", "未找到")

2、自己封装的类库

 /// <summary>
  /// 下载HTML帮助类
  /// </summary>
  public static class LoadHtmlHelper
  {
    /// <summary>
    /// 从Url地址下载页面
    /// </summary>
    /// <param name="url"></param>
    /// <returns></returns>
    public async static ValueTask<HtmlDocument> LoadHtmlFromUrlAsync(string url)
    {
      HtmlWeb web = new HtmlWeb();
       return await
         web?.LoadFromWebAsync(url);
    }

    /// <summary>
    /// 获取单个节点扩展方法
    /// </summary>
    /// <param name="htmlDocument">文档对象</param>
    /// <param name="xPath">xPath路径</param>
    /// <returns></returns>
    public static HtmlNode GetSingleNode(this HtmlDocument htmlDocument, string xPath)
    {
     return htmlDocument?.DocumentNode?.SelectSingleNode(xPath);
    }

    /// <summary>
    /// 获取多个节点扩展方法
    /// </summary>
    /// <param name="htmlDocument">文档对象</param>
    /// <param name="xPath">xPath路径</param>
    /// <returns></returns>
    public static HtmlNodeCollection GetNodes(this HtmlDocument htmlDocument, string xPath)
    {
      return htmlDocument?.DocumentNode?.SelectNodes(xPath);
    }

   

    /// <summary>
    /// 获取多个节点扩展方法
    /// </summary>
    /// <param name="htmlDocument">文档对象</param>
    /// <param name="xPath">xPath路径</param>
    /// <returns></returns>
    public static HtmlNodeCollection GetNodes(this HtmlNode htmlNode, string xPath)
    {
      return htmlNode?.SelectNodes(xPath);
    }


    /// <summary>
    /// 获取单个节点扩展方法
    /// </summary>
    /// <param name="htmlDocument">文档对象</param>
    /// <param name="xPath">xPath路径</param>
    /// <returns></returns>
    public static HtmlNode GetSingleNode(this HtmlNode htmlNode, string xPath)
    {
      return htmlNode?.SelectSingleNode(xPath);
    }

    /// <summary>
    /// 下载图片
    /// </summary>
    /// <param name="url">地址</param>
    /// <param name="filpath">文件路径</param>
    /// <returns></returns>
    public async static ValueTask<bool> DownloadImg(string url ,string filpath)
    {
      HttpClient httpClient = new HttpClient();
      try
      {
        var bytes = await httpClient.GetByteArrayAsync(url);
        using (FileStream fs = File.Create(filpath))
        {
          fs.Write(bytes, 0, bytes.Length);
        }
        return File.Exists(filpath);
      }
      catch (Exception ex)
      {
       
        throw new Exception("下载图片异常", ex);
      }
      
    }
  }

3、自己写的爬虫案例,爬取的网站https://www.meitu131.com/

数据存储层没有实现,懒得写了,靠你们喽,我是数据暂时存在了文件中
GitHub地址:https://github.com/ZhangQueque/quewaner.Crawler.git

以上就是C# 爬虫简单教程的详细内容,更多关于c# 爬虫的资料请关注脚本之家其它相关文章!

相关文章

  • C#折半插入排序算法实现方法

    C#折半插入排序算法实现方法

    这篇文章主要介绍了C#折半插入排序算法实现方法,实例分析了C#排序的技巧,具有一定参考借鉴价值,需要的朋友可以参考下
    2015-04-04
  • C#开发WPF程序中的弱事件模式

    C#开发WPF程序中的弱事件模式

    这篇文章介绍了C#开发WPF程序中的弱事件模式,文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-06-06
  • Visual C#.Net 网络程序开发-Socket篇

    Visual C#.Net 网络程序开发-Socket篇

    Visual C#.Net 网络程序开发-Socket篇...
    2007-03-03
  • C#生成sitemap站点地图的方法

    C#生成sitemap站点地图的方法

    C#生成sitemap站点地图的方法,需要的朋友可以参考一下
    2013-04-04
  • C# 创建Excel气泡图的实例代码

    C# 创建Excel气泡图的实例代码

    这篇文章主要介绍了C# 创建Excel气泡图的实例代码,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2021-01-01
  • C#自定义音乐播放器进度条

    C#自定义音乐播放器进度条

    这篇文章主要为大家详细介绍了C#自定义音乐播放器进度条效果,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-07-07
  • C#统计C、C++及C#程序代码行数的方法

    C#统计C、C++及C#程序代码行数的方法

    这篇文章主要介绍了C#统计C、C++及C#程序代码行数的方法,较为详细的分析了C#统计文本文件的原理与相关实现技巧,具有一定参考借鉴价值,需要的朋友可以参考下
    2015-08-08
  • C#实现基于IE内核的简单浏览器完整实例

    C#实现基于IE内核的简单浏览器完整实例

    这篇文章主要介绍了C#实现基于IE内核的简单浏览器,较为详细的分析了C#实现浏览器的原理与主要功能实现方法,并附带完整实例供大家下载,需要的朋友可以参考下
    2015-07-07
  • C#实现飞行棋优化版

    C#实现飞行棋优化版

    这篇文章主要为大家详细介绍了C#实现飞行棋的优化版,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-05-05
  • C# 日历类功能的实例代码

    C# 日历类功能的实例代码

    本文通过实例代码给大家介绍了C# 日历类的相关知识,非常不错,具有参考借鉴价值,需要的朋友参考下吧
    2017-06-06

最新评论