C#使用HtmlAgilityPack实现解析提取HTML内容

 更新时间:2023年12月03日 10:51:34   作者:rjcql  
HtmlAgilityPack是一个HTML解析类库,这篇文章主要为大家详细介绍了C#如何使用HtmlAgilityPack实现解析提取HTML内容,感兴趣的小伙伴可以参考一下

写在前面

HtmlAgilityPack是一个HTML解析类库,日常用法就是爬虫获取到内容后,先用XPath获取目标节点,再用正则进行匹配;使用XPath的目的主要是将目标节点或内容限定在一个较小的范围,如果一上来就用正则那效率肯定不行,因为正则的规则设计耗时较长;而XPath直接可以用浏览器F12开发者工具窗口,鼠标右键复制XPath获得,非常方便。但在微观内容的操作上XPath就显得太粗糙了,这时候就需要用正则来匹配,由于范围已经用XPath做过了筛选,所以此时的正则规则的设计要考虑的就很少了;两者结合效率就大大提升了,解析HTML源码实在是个耗时费力的体力活。

老套路通过NuGet获取类库

代码实现

    using HtmlAgilityPack;
 
    public static class HtmlDocumentMgr
    {
        #region Public Methods
 
        public static HtmlNodeCollection GetNodes(string xPath)
        {
            var body = BrowserController.GetFrameBody();
            var doc = GetHtmlDocument(body);
            return doc.DocumentNode.SelectNodes(xPath);
        }
 
        public static HtmlNode GetNode(string xPath)
        {
            var body = BrowserController.GetFrameBody();
            var doc = GetHtmlDocument(body);
            return doc.DocumentNode.SelectSingleNode(xPath);
        }
 
        public static HtmlDocument GetHtmlDocument(string html)
        {
            var doc = new HtmlDocument();
            doc.LoadHtml(html);
            return doc;
        }
 
 
        #endregion
 
    }

HTML 内容可以是独立爬虫直接获取的,也可以从内嵌浏览器中获得,本文采用内嵌浏览器的方式,获得HTML的代码如下,仅做参考示意。

        public static string GetFrameBody()
        {
            var js = "document.querySelector('body').outerHTML";
            var evalRet = Browser.MainFrame.EvaluateScriptAsync(js);
            evalRet.Wait();
            if (evalRet.Result != null)
            {
                var ret = evalRet.Result.Result;
                return ret.ToNormalString();
            }
            return string.Empty;
        }

调用示例

        public static HtmlNode GetDescribeNode(string describe)
        {
            var body = BrowserController.GetFrameBody();
            var doc = new HtmlDocument();
            doc.LoadHtml(body);
 
            var match = string.Format(".//label[contains(text(), \"{0}\")]", describe);
            var labelNode = doc.DocumentNode.SelectSingleNode(match);
            if (labelNode == null && describe.Contains(" "))
            {
                describe = describe.Replace(" ", " ");
                match = string.Format(".//label[contains(text(), \"{0}\")]", describe);
                labelNode = doc.DocumentNode.SelectSingleNode(match);
            }
            return labelNode;
        }

到此这篇关于C#使用HtmlAgilityPack实现解析提取HTML内容的文章就介绍到这了,更多相关C# HtmlAgilityPack解析HTML内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • C#实现的文件操作封装类完整实例【删除,移动,复制,重命名】

    C#实现的文件操作封装类完整实例【删除,移动,复制,重命名】

    这篇文章主要介绍了C#实现的文件操作封装类,结合完整实例形式分析了C#封装文件的删除,移动,复制,重命名等操作相关实现技巧,需要的朋友可以参考下
    2017-03-03
  • ftp服务器搭建部署与C#实现ftp文件的上传的示例

    ftp服务器搭建部署与C#实现ftp文件的上传的示例

    本文主要介绍了ftp服务器搭建部署与C#实现ftp文件的上传的示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-07-07
  • C# 9.0 特性全面总结

    C# 9.0 特性全面总结

    这篇文章主要介绍了C# 9.0 特性的相关资料,帮助大家更好的理解和学习使用c#,感兴趣的朋友可以了解下
    2021-02-02
  • C# Sqlite数据库的搭建及使用技巧

    C# Sqlite数据库的搭建及使用技巧

    这篇文章主要介绍了C# Sqlite数据库的搭建及使用技巧,文章围绕主题展开详细的内容介绍,具有一定的参考价值,需要的朋友可以参考一下
    2022-08-08
  • C#实现图形界面的时钟

    C#实现图形界面的时钟

    这篇文章主要为大家详细介绍了C#实现图形界面的时钟,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-06-06
  • C#使用dynamic一行代码实现反射操作

    C#使用dynamic一行代码实现反射操作

    dynamic的出现让C#具有了弱语言类型的特性。编译器在编译的时候不再对类型进行检查,编译时默认dynamic对象支持你想要的任何特性,这篇文章主要介绍了C#用dynamic一行代码实现反射操作,需要的朋友可以参考下
    2023-04-04
  • c#预处理指令分析

    c#预处理指令分析

    这篇文章主要介绍了c#预处理指令的相关资料,帮助大家更好的理解和学习c#,感兴趣的朋友可以了解下
    2020-08-08
  • c#实现万年历示例分享 万年历农历查询

    c#实现万年历示例分享 万年历农历查询

    这篇文章主要介绍了c#实现万年历的方法,可以显示农历、节气、节日、星座、星宿、属相、生肖、闰年月、时辰,大家参考使用吧
    2014-01-01
  • vs2019安装和使用详细图文教程

    vs2019安装和使用详细图文教程

    这篇文章主要介绍了vs2019安装和使用详细图文教程,本文通过图文并茂的形式给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-03-03
  • C#实现实体类和XML相互转换

    C#实现实体类和XML相互转换

    这篇文章主要为大家详细介绍了C#实现实体类和XML相互转换的资料,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-03-03

最新评论