C#使用HtmlAgilityPack实现解析提取HTML内容

更新时间：2023年12月03日 10:51:34 作者：rjcql

HtmlAgilityPack是一个HTML解析类库,这篇文章主要为大家详细介绍了C#如何使用HtmlAgilityPack实现解析提取HTML内容,感兴趣的小伙伴可以参考一下

写在前面

HtmlAgilityPack是一个HTML解析类库，日常用法就是爬虫获取到内容后，先用XPath获取目标节点，再用正则进行匹配；使用XPath的目的主要是将目标节点或内容限定在一个较小的范围，如果一上来就用正则那效率肯定不行，因为正则的规则设计耗时较长；而XPath直接可以用浏览器F12开发者工具窗口，鼠标右键复制XPath获得，非常方便。但在微观内容的操作上XPath就显得太粗糙了，这时候就需要用正则来匹配，由于范围已经用XPath做过了筛选，所以此时的正则规则的设计要考虑的就很少了；两者结合效率就大大提升了，解析HTML源码实在是个耗时费力的体力活。

老套路通过NuGet获取类库

代码实现

    using HtmlAgilityPack;
 
    public static class HtmlDocumentMgr
    {
        #region Public Methods
 
        public static HtmlNodeCollection GetNodes(string xPath)
        {
            var body = BrowserController.GetFrameBody();
            var doc = GetHtmlDocument(body);
            return doc.DocumentNode.SelectNodes(xPath);
        }
 
        public static HtmlNode GetNode(string xPath)
        {
            var body = BrowserController.GetFrameBody();
            var doc = GetHtmlDocument(body);
            return doc.DocumentNode.SelectSingleNode(xPath);
        }
 
        public static HtmlDocument GetHtmlDocument(string html)
        {
            var doc = new HtmlDocument();
            doc.LoadHtml(html);
            return doc;
        }
 
 
        #endregion
 
    }

HTML 内容可以是独立爬虫直接获取的，也可以从内嵌浏览器中获得，本文采用内嵌浏览器的方式，获得HTML的代码如下，仅做参考示意。

        public static string GetFrameBody()
        {
            var js = "document.querySelector('body').outerHTML";
            var evalRet = Browser.MainFrame.EvaluateScriptAsync(js);
            evalRet.Wait();
            if (evalRet.Result != null)
            {
                var ret = evalRet.Result.Result;
                return ret.ToNormalString();
            }
            return string.Empty;
        }

调用示例

        public static HtmlNode GetDescribeNode(string describe)
        {
            var body = BrowserController.GetFrameBody();
            var doc = new HtmlDocument();
            doc.LoadHtml(body);
 
            var match = string.Format(".//label[contains(text(), \"{0}\")]", describe);
            var labelNode = doc.DocumentNode.SelectSingleNode(match);
            if (labelNode == null && describe.Contains(" "))
            {
                describe = describe.Replace(" ", "&nbsp;");
                match = string.Format(".//label[contains(text(), \"{0}\")]", describe);
                labelNode = doc.DocumentNode.SelectSingleNode(match);
            }
            return labelNode;
        }

到此这篇关于C#使用HtmlAgilityPack实现解析提取HTML内容的文章就介绍到这了,更多相关C# HtmlAgilityPack解析HTML内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

C#实现日历效果
这篇文章主要为大家详细介绍了C#实现日历效果，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2022-06-06
C#实现绘制随机噪点和直线
这篇文章主要为大家详细介绍了C#如何实现绘制随机噪点和直线，文中的示例代码讲解详细，对我们学习C#有一定的帮助，感兴趣的小伙伴可以跟随小编一起了解一下
2023-01-01
使用C#实现将CSV数据轻松转换为PDF
将 CSV 数据转换为 PDF 格式在许多业务中是一个常见的需求,在这篇文章中,我们将探讨如何使用使用 C# 和 Spire.XLS for .NET 库高效地将 CSV 文件转换为 PDF,希望对大家有所帮助
2025-11-11
C#通过域名获得IP地址的方法
这篇文章主要介绍了C#通过域名获得IP地址的方法,涉及C#中GetHostByName方法的使用技巧,需要的朋友可以参考下
2015-04-04
C#通过windows注册表获取软件清单的方法
这篇文章主要介绍了C#通过windows注册表获取软件清单的方法,涉及C#针对注册表的访问读取与遍历操作技巧,具有一定参考借鉴价值,需要的朋友可以参考下
2015-07-07
c#中利用Tu Share获取股票交易信息
这篇文章主要介绍了c#中利用Tu Share获取股票交易信息,本文通过实例代码给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2020-06-06
Linq两个List集合取交集的实现
这篇文章主要介绍了Linq两个List集合取交集的实现，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2019-12-12
C#实现获得某个枚举的所有名称
这篇文章主要为大家详细介绍了C#如何实现获得某个枚举的所有名称,文中的示例代码讲解详细,具有一定的借鉴价值,有需要的小伙伴可以参考一下
2025-01-01
C#用NPOI导出导入Excel帮助类
这篇文章主要为大家详细介绍了C# NPOI导出导入Excel帮助类，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2022-02-02
简单的观察者模式示例分享
这篇文章主要介绍了简单的观察者模式示例,抽象层定义了观察者模式,实现层是对抽象层的具体实现,需要的朋友可以参考下
2014-03-03

C#使用HtmlAgilityPack实现解析提取HTML内容

目录

写在前面

代码实现

调用示例

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具