基于C#实现网络爬虫 C#抓取网页Html源码

 更新时间:2016年03月24日 17:10:32   作者:小虾Joe  
这篇文章主要为大家详细介绍了基于C#实现网络爬虫的相关资料,即C#抓取网页Html源码,感兴趣的小伙伴们可以参考一下

最近刚完成一个简单的网络爬虫,开始的时候很迷茫,不知道如何入手,后来发现了很多的资料,不过真正能达到我需要,有用的资料--代码很难找。所以我想发这篇文章让一些要做这个功能的朋友少走一些弯路。

首先是抓取Html源码,并选择<ul class="post_list">  </ul>节点的href:要添加using System.IO;using System.Net;

private void Search(string url)
{
 string rl;
 WebRequest Request = WebRequest.Create(url.Trim());
 
 WebResponse Response = Request.GetResponse();
 
 Stream resStream = Response.GetResponseStream();
 
 StreamReader sr = new StreamReader(resStream, Encoding.Default);
 StringBuilder sb = new StringBuilder();
 while ((rl = sr.ReadLine()) != null)
 {
  sb.Append(rl);
 }
 
 
 string str = sb.ToString().ToLower();
 
 string str_get = mid(str, "<ul class=\"post_list\">", "</ul>");
 
 
 int start = 0;
 while (true)
 {
  if (str_get == null)
   break;
  string strResult = mid(str_get, "href=\"", "\"", out start);
  if (strResult == null)
   break;
  else
  {
   lab[url] += strResult;
   str_get = str_get.Substring(start);
  }
 }
}
 
 
 
 
private string mid(string istr, string startString, string endString)
{
 int iBodyStart = istr.IndexOf(startString, 0);    //开始位置
 if (iBodyStart == -1)
  return null;
 iBodyStart += startString.Length;       //第一次字符位置起的长度
 int iBodyEnd = istr.IndexOf(endString, iBodyStart);   //第二次字符在第一次字符位置起的首次位置
 if (iBodyEnd == -1)
  return null;
 iBodyEnd += endString.Length;        //第二次字符位置起的长度
 string strResult = istr.Substring(iBodyStart, iBodyEnd - iBodyStart - 1);
 return strResult;
}
 
 
private string mid(string istr, string startString, string endString, out int iBodyEnd)
{
 //初始化out参数,否则不能return
 iBodyEnd = 0;
 
 int iBodyStart = istr.IndexOf(startString, 0);    //开始位置
 if (iBodyStart == -1)
  return null;
 iBodyStart += startString.Length;       //第一次字符位置起的长度
 iBodyEnd = istr.IndexOf(endString, iBodyStart);   //第二次字符在第一次字符位置起的首次位置
 if (iBodyEnd == -1)
  return null;
 iBodyEnd += endString.Length;        //第二次字符位置起的长度
 string strResult = istr.Substring(iBodyStart, iBodyEnd - iBodyStart - 1);
 return strResult;
}

好了,上面就是全部代码了,如果你想要运行出来的话,有些细节要自己修改下。

以上就是本文的全部内容,希望对大家的学习有所帮助。

相关文章

  • C#中TransactionScope的使用小结

    C#中TransactionScope的使用小结

    本篇文章主要是对C#中TransactionScope的使用方法进行了详细的介绍,需要的朋友可以过来参考下,希望对大家有所帮助
    2014-01-01
  • C# 配置文件app.config 和 web.config详解

    C# 配置文件app.config 和 web.config详解

    在 C# 的应用开发中,配置文件就像是幕后的大管家,默默管理着应用程序的各种设置,下面通过本文介绍 C# 中极为重要的两个配置文件,app.config 和 web.config的相关知识,感兴趣的朋友一起看看吧
    2025-04-04
  • C# Random类的正确应用方法

    C# Random类的正确应用方法

    这篇文章主要介绍了C# Random类的正确应用方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-11-11
  • C#结构体特性实例分析

    C#结构体特性实例分析

    这篇文章主要介绍了C#结构体特性,以实例形式较为详细的分析了C#结构体的功能、定义及相关特性,具有一定参考借鉴价值,需要的朋友可以参考下
    2015-09-09
  • C#窗体间通讯处理的几种方法总结

    C#窗体间通讯处理的几种方法总结

    这篇文章主要介绍了
    2013-11-11
  • 基于WebRequest.RegisterPrefix的使用详解

    基于WebRequest.RegisterPrefix的使用详解

    本篇文章对WebRequest.RegisterPrefix的使用进行了详细的分析介绍,需要的朋友参考下
    2013-05-05
  • Unity实现主角移动与摄像机跟随

    Unity实现主角移动与摄像机跟随

    这篇文章主要为大家详细介绍了Unity实现主角移动与摄像机跟随,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-03-03
  • WPF中不规则窗体与WindowsFormsHost控件兼容问题的解决方法

    WPF中不规则窗体与WindowsFormsHost控件兼容问题的解决方法

    这篇文章主要介绍了WPF中不规则窗体与WindowsFormsHost控件兼容问题的解决方法,对比以往的解决方案,给出了一个具有普遍性的技巧,具有一定的借鉴价值,需要的朋友可以参考下
    2014-11-11
  • C# WPF实现播放音频文件的示例详解

    C# WPF实现播放音频文件的示例详解

    这篇文章主要为大家详细介绍了利用C# WPF实现播放音频文件的相关知识,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下
    2024-03-03
  • C#使用Selenium的实现代码

    C#使用Selenium的实现代码

    这篇文章主要介绍了C#使用Selenium的实现代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-03-03

最新评论