基于C#实现网络爬虫 C#抓取网页Html源码

 更新时间:2016年03月24日 17:10:32   作者:小虾Joe  
这篇文章主要为大家详细介绍了基于C#实现网络爬虫的相关资料,即C#抓取网页Html源码,感兴趣的小伙伴们可以参考一下

最近刚完成一个简单的网络爬虫,开始的时候很迷茫,不知道如何入手,后来发现了很多的资料,不过真正能达到我需要,有用的资料--代码很难找。所以我想发这篇文章让一些要做这个功能的朋友少走一些弯路。

首先是抓取Html源码,并选择<ul class="post_list">  </ul>节点的href:要添加using System.IO;using System.Net;

private void Search(string url)
{
 string rl;
 WebRequest Request = WebRequest.Create(url.Trim());
 
 WebResponse Response = Request.GetResponse();
 
 Stream resStream = Response.GetResponseStream();
 
 StreamReader sr = new StreamReader(resStream, Encoding.Default);
 StringBuilder sb = new StringBuilder();
 while ((rl = sr.ReadLine()) != null)
 {
  sb.Append(rl);
 }
 
 
 string str = sb.ToString().ToLower();
 
 string str_get = mid(str, "<ul class=\"post_list\">", "</ul>");
 
 
 int start = 0;
 while (true)
 {
  if (str_get == null)
   break;
  string strResult = mid(str_get, "href=\"", "\"", out start);
  if (strResult == null)
   break;
  else
  {
   lab[url] += strResult;
   str_get = str_get.Substring(start);
  }
 }
}
 
 
 
 
private string mid(string istr, string startString, string endString)
{
 int iBodyStart = istr.IndexOf(startString, 0);    //开始位置
 if (iBodyStart == -1)
  return null;
 iBodyStart += startString.Length;       //第一次字符位置起的长度
 int iBodyEnd = istr.IndexOf(endString, iBodyStart);   //第二次字符在第一次字符位置起的首次位置
 if (iBodyEnd == -1)
  return null;
 iBodyEnd += endString.Length;        //第二次字符位置起的长度
 string strResult = istr.Substring(iBodyStart, iBodyEnd - iBodyStart - 1);
 return strResult;
}
 
 
private string mid(string istr, string startString, string endString, out int iBodyEnd)
{
 //初始化out参数,否则不能return
 iBodyEnd = 0;
 
 int iBodyStart = istr.IndexOf(startString, 0);    //开始位置
 if (iBodyStart == -1)
  return null;
 iBodyStart += startString.Length;       //第一次字符位置起的长度
 iBodyEnd = istr.IndexOf(endString, iBodyStart);   //第二次字符在第一次字符位置起的首次位置
 if (iBodyEnd == -1)
  return null;
 iBodyEnd += endString.Length;        //第二次字符位置起的长度
 string strResult = istr.Substring(iBodyStart, iBodyEnd - iBodyStart - 1);
 return strResult;
}

好了,上面就是全部代码了,如果你想要运行出来的话,有些细节要自己修改下。

以上就是本文的全部内容,希望对大家的学习有所帮助。

相关文章

  • WPF实现圆形进度条的示例代码

    WPF实现圆形进度条的示例代码

    这篇文章主要为大家详细介绍了WPF如何实现圆形的进度条,文中的示例代码讲解详细,对我们学习或工作有一定帮助,感兴趣的小伙伴可以了解一下
    2023-01-01
  • 实例代码讲解c# 线程(下)

    实例代码讲解c# 线程(下)

    这篇文章主要介绍了c# 线程的的相关资料,文中示例代码非常细致,对大家的学习有很大帮助,感兴趣的朋友可以了解下
    2020-06-06
  • C# websocket及时通信协议的实现方法示例

    C# websocket及时通信协议的实现方法示例

    说到websocket大家一定不会陌生,WebSocket是HTML5一种新的协议。下面这篇文章主要给大家介绍了关于C# websocket及时通信协议的实现方法,文中通过示例代码介绍的非常详细,需要的朋友可以参考借鉴,下面来一起看看吧。
    2017-11-11
  • C#调用Oracle存储过程方法介绍(附源码)

    C#调用Oracle存储过程方法介绍(附源码)

    这篇文章介绍了C#调用Oracle存储过程的方法,文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-03-03
  • C#中委托和事件的区别详解

    C#中委托和事件的区别详解

    C# 中的委托(Delegate)类似于 C 或 C++ 中函数的指针。事件是在委托类型变量前加上 event 关键字,其本质是用来对委托类型的变量进行封装,类似于类的属性对字段的封装。本文就来聊聊C#中委托和事件的区别,感兴趣的可以了解一下
    2022-11-11
  • C#日期格式化的几个要点小结

    C#日期格式化的几个要点小结

    本文将介绍C#日期格式化的几个要点,包括标准 DateTime 格式字符串。希望大家能从中得到更多的理解和帮助
    2013-09-09
  • C#虚方法的声明和使用实例教程

    C#虚方法的声明和使用实例教程

    这篇文章主要介绍了C#虚方法的声明和使用实例教程,对于初学者理解C#的虚方法有一定的帮助,需要的朋友可以参考下
    2014-07-07
  • 详解Asp.Net MVC的Bundle捆绑

    详解Asp.Net MVC的Bundle捆绑

    这篇文章主要介绍了Asp.Net MVC的Bundle捆绑方法,具体实现方法给大家做代码整理,一起参考一下。
    2017-11-11
  • C# TextBox控件实现只能输入数字的方法

    C# TextBox控件实现只能输入数字的方法

    这篇文章主要介绍了C# TextBox控件实现只能输入数字的方法,本文使用TextBox的keypress事件实现这个需求,需要的朋友可以参考下
    2015-06-06

最新评论