C#抓取网页数据 解析标题描述图片等信息 去除HTML标签

 更新时间:2016年04月19日 11:17:28   作者:seeyou  
本文主要一步一步介绍利用C#抓取页面数据的过程,抓取HTML,获取标题、描述、图片等信息,并去除HTML,希望对大家有所帮助。

一、首先将网页内容整个抓取下来,数据放在byte[]中(网络上传输时形式是byte),进一步转化为String,以便于对其操作,实例如下:

复制代码 代码如下:

private static string GetPageData(string url)
{
    if (url == null || url.Trim() == "")
        return null;
    WebClient wc = new WebClient();
    wc.Credentials = CredentialCache.DefaultCredentials;
    Byte[] pageData = wc.DownloadData(url);
    return Encoding.Default.GetString(pageData);//.ASCII.GetString
}

二、得到了数据的字符串形式,然后可以对网页进行解析了(其实就是对字符串的各种操作和正则表达式的应用):

常用的的解析还有以下几种:

1.获取标题

复制代码 代码如下:

Match TitleMatch = Regex.Match(strResponse, "<title>([^<]*)</title>", RegexOptions.IgnoreCase | RegexOptions.Multiline);
title = TitleMatch.Groups[1].Value;

2.获取描述信息

复制代码 代码如下:

Match Desc = Regex.Match(strResponse, "<meta name=\"DESCRIPTION\" content=\"([^<]*)\">", RegexOptions.IgnoreCase | RegexOptions.Multiline);
strdesc = Desc.Groups[1].Value;

3.获取图片

复制代码 代码如下:

public class HtmlHelper
{
    /// <summary>
    /// HTML中提取图片地址
    /// </summary>
    public static List<string> PickupImgUrl(string html)
    {
        Regex regImg = new Regex(@"<img\b[^<>]*?\bsrc[\s\t\r\n]*=[\s\t\r\n]*[""']?[\s\t\r\n]*(?<imgUrl>[^\s\t\r\n""'<>]*)[^<>]*?/?[\s\t\r\n]*>", RegexOptions.IgnoreCase);
        MatchCollection matches = regImg.Matches(html);
        List<string> lstImg = new List<string>();
        foreach (Match match in matches)
        {
            lstImg.Add(match.Groups["imgUrl"].Value);
        }
        return lstImg;
    }
    /// <summary>
    /// HTML中提取图片地址
    /// </summary>
    public static string PickupImgUrlFirst(string html)
    {
        List<string> lstImg = PickupImgUrl(html);
        return lstImg.Count == 0 ? string.Empty : lstImg[0];
    }
}

4.去除Html标签

复制代码 代码如下:

private string StripHtml(string strHtml)
{
    Regex objRegExp = new Regex("<(.|\n)+?>");
    string strOutput = objRegExp.Replace(strHtml, "");
    strOutput = strOutput.Replace("<", "&lt;");
    strOutput = strOutput.Replace(">", "&gt;");
    return strOutput;
}

有些例外会使得去除不干净,所以建议连续两次转化。这样将Html标签转化为了空格。太多连续的空格会影响之后对字符串的操作。所以再加入这样的语句:

复制代码 代码如下:

//把所有空格变为一个空格
Regex r = new Regex(@"\s+");
wordsOnly = r.Replace(strResponse, " ");
wordsOnly.Trim();

相关文章

  • Unity实现跑马灯效果的示例代码

    Unity实现跑马灯效果的示例代码

    这篇文章主要为大家详细介绍了如何利用Unity实现跑马灯效果,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-05-05
  • 利用C#开发浏览器扩展的全过程记录

    利用C#开发浏览器扩展的全过程记录

    做web开发的同学,经常会用到各种chrome浏览器插件,那么我们寄几怎么开发一个插件呢(其实是浏览器扩展)?这篇文章主要给大家介绍了关于利用C#开发浏览器扩展的相关资料,需要的朋友可以参考下
    2021-07-07
  • C#在后台运行操作(BackgroundWorker用法)示例分享

    C#在后台运行操作(BackgroundWorker用法)示例分享

    BackgroundWorker类允许在单独的专用线程上运行操作。如果需要能进行响应的用户界面,而且面临与这类操作相关的长时间延迟,则可以使用BackgroundWorker类方便地解决问题,下面看示例
    2013-12-12
  • C# winform点击生成二维码实例代码

    C# winform点击生成二维码实例代码

    这篇文章主要介绍了 C# winform点击生成二维码实例代码,需要的朋友可以参考下
    2017-04-04
  • C#中属性PropertyInfo使用示例小结

    C#中属性PropertyInfo使用示例小结

    在C#中,PropertyInfo是一个用于获取和设置属性的类,这篇文章主要介绍了C#中属性PropertyInfo怎么使用,需要的朋友可以参考下
    2024-06-06
  • C#将HashTable中键列表或值列表复制到一维数组的方法

    C#将HashTable中键列表或值列表复制到一维数组的方法

    这篇文章主要介绍了C#将HashTable中键列表或值列表复制到一维数组中方法,涉及C#操作HashTable的相关技巧,需要的朋友可以参考下
    2015-04-04
  • C#向Word文档中添加内容控件的方法示例

    C#向Word文档中添加内容控件的方法示例

    这篇文章主要给大家介绍了C#向Word文档中添加内容控件的方法,文中对各种不同控件的添加方法分别进行了介绍,如组合框、文本、图片、日期选取器及下拉列表等内容控件,都给出了详细的示例代码,有需要的朋友可以参考借鉴,下面来一起看看吧。
    2017-01-01
  • C# 系统全局的异常处理实现

    C# 系统全局的异常处理实现

    在C#应用程序中,异常可能在任何地方发生,本文主要介绍了C# 系统全局的异常处理实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2025-01-01
  • Unity实现植物识别示例详解

    Unity实现植物识别示例详解

    这篇文章主要介绍了如何通过Unity接入百度AI实现植物识别,接口返回植物的名称,并支持获取识别结果对应的百科信息。感兴趣的可以了解一下
    2022-01-01
  • C# out关键词的应用实例

    C# out关键词的应用实例

    下面小编就为大家分享一篇C# out关键词的应用实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2017-12-12

最新评论